Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Voor het nagaan welke testen er moeten gebruikt worden, worden normaaltesten uitgevoerd. Voor het uitvoeren van een One-way Anova geldt dat de verdeling normaal verdeelt moet zijn. Echter bij het uitvoeren van de Shapiro wilk test krijg ik een significant verschil (P<0.001). Dus verschilt significant met de Gaussiaanse (normaal)verdeling, om vervolgens bij de non-parametrische test (Kruskal Wallis) uit te voeren: p=0.67. Terwijl de Levene's test bij de One way anova niet significant is (p= 0,8). Wat interpreteer/doe ik verkeerd?
in Anders door (150 punten)

1 Antwoord

0 leuk 0 niet-leuks
 
Beste antwoord

De verdeling van de steekproefscores hoeft niet normaal verdeeld te zijn voor anova of t-toets. Dit is een wijdverbreid misverstand.

De steekproevenverdeling moet normaal verdeeld zijn; zie ook http://oupsy.nl/help/112/wanneer-is-mijn-data-te-scheef-niet-normaal-verdeeld?show=112#q112.

Bij een voldoende grote steekproef hoeft normaliteit dus niet te worden getoetst. Sterker nog, als steekproeven groter worden, worden op een gegeven moment ook verwaarloosbare afwijkingen van normaliteit significant, zoals altijd bij nulhypothese significantie toetsing (NHST). Bij te kleine steekproeven hebben toetsen op normaliteit juist te weinig power om afwijkingen van normaliteit te detecteren.

Een betere aanpak is het in kaart brengen van de steekproevenverdeling zelf: dat kan onder andere met de functie 'normalityAssessment' in het R package 'userfriendlyscience', of je zou handmatig iets kunnen programmeren in SPSS.

De Levene's test toetst overigens niet op normaliteit; die toetst of varianties gelijk zijn. Dat uitkomsten van de Levene's test inconsistent zijn met die van een normaliteitstest is dus niet vreemd.

door (77.8k punten)
geselecteerd door
hoewel het klopt dat de steekproef niet normaal verdeeld hoeft te zijn, maar de steekproevenverdeling, helpt dit de onderzoeker weinig als de populatieparameters (zoals de standaarddeviatie) niet bekend zijn, zoals bij z-toetsen het geval hoort te zijn. De vraag die dan nog steeds open ligt (ondanks de centrale limietstelling) is of de steekproef zelf voldoende normaal verdeeld is voor de onderliggende aanname van de normale verdeling voor het uitvoeren van de toets zelf.

Toetsen zoals Shapiro-Wilks, skewness-kurtosis, etc. worden dan steeds minder zinvol bij toenemende N, omdat deze steekproefgroottegevoelig zijn, en onnatuurlijk snel verwerpen. Eigenlijk is bij SW, maar ook bij Kolmogorov-Smirnov de regel: als deze significant is zegt het weinig tot niets, maar als deze niet significant zijn zegt het veel. Maar visuele inspectiemethoden kunnen nog steeds gebruikt worden, en informatief zijn.

Maar, bij elke N die ethisch te verantwoorden is (i.e. 100+) is de steekproevenverdeling normaal verdeeld, tenzij je populatieverdeling echt absurd abnormaal is (als in, 80% van de deelnemers scoort 1, 10% 2, 5% 3, 3% 4, en 2% 5, ofzo). Misschien zelfs dan al wel - even kijken:

grid.arrange(ggplot(data.frame(x=c(rep(1, 80), rep(2, 10), rep(3, 5),
                                   rep(4, 3), rep(5, 2))), aes(x=x)) +
               geom_histogram(binwidth=1) + theme_bw(base_size=16) +
               coord_cartesian(xlim=c(1,5)),
             ggplot(data.frame(x=unlist(replicate(10000,
                                                  mean(sample(c(rep(1, 80),
                                                                rep(2, 10),
                                                                rep(3, 5),
                                                                rep(4, 3),
                                                                rep(5, 2)),
                                                              100,
                                                              replace=TRUE))))),
                    aes(x=x)) +
               geom_histogram(binwidth=1) + theme_bw(base_size=16) +
               coord_cartesian(xlim=c(1,5)));

Bij zo'n extreme populatieverdeling heb je dus meer mensen nodig voordat je steekproevenverdeling normaal wordt. In dit geval kun je de non-normaliteit echter al zien zonder dat je een toets nodig hebt: inspectie van de histogrammen laat al zien dat er iets grondig fout is gegaan bij de operationalisatie (of dat je een hele vreemde variabele te pakken hebt).

Dus inderdaad, visueel inspectie is een goed idee (en sowieso altijd nodig), normaliteitstoetsen zijn meestal niet zo nuttig.

Ik wil je alvast hartelijk bedanken voor de snelle respons!

Het niet toepassen van normaliteitstesten bij F of T-toetsen is dan inderdaad een groot misverstand bij mezelf.

De steekproefgroottes zijn in de 1ne groep 100 personen (per variabele onderverdeeld in 5 verdere groepen met een range van 14 tot 24 resultaten per groep).
Bij de 2de groep zijn er variabelen met 70 resultaten maar ook slechts met 1,4,6 resultaten...

Wat nu wel een lacune voor mezelf is: wanneer zijn de normaliteitstesten dan van toepassing? Bij correlatie?
Ho, wacht even - normaliteit van je steekproef bekijken is dus wel zinvol! Visuele inspectie is het belangrijkst; daarnaast kunnen toetsen informatief zijn, maar dan moet je er dus rekening mee houden dat de p-waarde vaak niet heel zinvol is, en zou je moeten kijken naar bijvoorbeeld de D in de Anderson-Darling normaliteitstoets. Maar, dit gaat ver buiten het curriculum, dus voor nu is het belangrijkste dat je onthoudt: tenzij er uitzonderlijke schendingen van normaliteit zijn, of je steekproeven uitzonderlijk klein zijn, is de steekproevenverdeling normaal. Als je steekproef heel abnormaal is, of klein (zeg, tientallen in plaats van honderdtallen), dan zijn toetsen die een normaal verdeelde steekproevenverdeling vereisen minder betrouwbaar.

14-24 deelnemers per groep is heel weinig; het kan dus zijn dat je niet goed in die subgroepen kunt kijken (waarom je zoveel mensen nodig hebt heb ik onlangs uitgelegd in http://oupsy.nl/help/2361/welke-eisen-moet-onderzoek-menselijke-deelnemers-voldoen).

Wat bedoel je met 1, 4, 6 resultaten?
Onderzoek kortom:
Deel 1: 120 verpleegkundigen bepalen een tijd via delphi procedure voor verschillende verpleegkundige maatregelen (kan men nog eens onderverdelenen in 5 soorten verpleegspecialismen, 15 tot 24 resultaten per groep)
Deel 2: al deze variabelen/maatregelen werden door onderzoekers ook zelf opgemeten, ook onderverdeling mogelijk per specialisatie. Hierbij zijn er specialismen met 0 of 1,4,6 metingen.

Om vergelijkingen te maken tussen de groepen, heb ik gebruik gemaakt van non-parametrische testen. Bij deel 2 van het onderzoek, enkel wanneer minimum 5 resultaten waren per subgroep.

Nogmaals dank voor de hulp!
Dit is nog niet helemaal helder; maar als je sowieso nonparametrische toetsen gebruikt, is normaliteit niet belangrijk. Die aanname/'parameter' (normaliteit) is meestal één van de eerste parameters die non-parametrische toetsen laten varen.
...