Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 1 niet-leuk
Het histogram van een variabele ziet er bijna nooit echt normaal verdeeld uit. Natuurlijk speelt steekproeftoeval hier een rol. Hoe kan ik toetsen of de verdeling normaal is of niet, behoudens dat steekproeftoeval?
in Steekproeven en steekproefomvang door (77.8k punten)

1 Antwoord

0 leuk 0 niet-leuks

[EDIT 2016-11-15: R package userfriendlyscience bevat de functie normalityAssessment, die de normaliteit van zowel de verdeling van steekproefscores als van de steekproevenverdeling inzichtelijk maakt en toetst.]

Er zijn een aantal toetsen voor normaliteit, zoals bijvoorbeeld de Shapiro-Wilks test, de Anderson-Darling test, en de Kolmogorov-Smirnov test. Deze testen hebben echter een probleem. Aan de ene kant geldt dat als je steekproef aan de kleine kant is, de testen natuurlijk vrij weinig power hebben, waardoor afwijkingen van normaliteit erg sterk moeten zijn voordat de test ze kan detecteren. Aan de andere kant geldt dat als je steekproef aan de grote kant is, de testen juist veel power hebben, waardoor zelf hele kleine (irrelevante) afwijkingen van normaliteit al tot significante uitkomsten leiden. Bij de Shapiro-Wilks test is een voordeel dat de toetsingsgrootheid, W, 1 is bij een normale verdeling, en daalt naarmate de verdeling verder afwijkt van normaliteit. Hierdoor kun je de waarde van deze W gebruiken om in te schatten in hoeverre de verdeling van normaliteit afwijkt, los van hoe significant de p-waarde is (die p-waarde wordt immers beinvloedt door de steekproefomvang).

Een oplossing voor de problemen van de toetsen op normaliteit is de zogenaamde "qq-plot" te bekijken. Deze plot bestaat uit een diagonale lijn en een stipje voor elke proefpersoon. Bij een volledig normale verdeling liggen al de stipjes op de lijn. Naarmate de verdeling verder van normaliteit afwijkt, liggen de stipjes verder boven en onder de lijn. In dit geval is er geen handig criterium zoals "p < .05"; je moet dus zelf nadenken over hoe erg afwijkingen van normaliteit zijn.

Overigens is normaliteit van je steekproefscores zelden nodig voor statistische toetsen; zie http://oupsy.nl/help/112/wanneer-is-mijn-data-te-scheef-niet-normaal-verdeeld en http://oupsy.nl/help/199/hierarchische-uitvoeren-verdeelde-afhankelijke-variabele voor meer informatie.

Verder staat er een heldere uitleg (zelfs met een plaatje :-)) op http://stackoverflow.com/questions/7781798/seeing-if-data-is-normally-distributed-in-r

door (77.8k punten)
bewerkt door
...