Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Wanneer is mijn data te scheef/niet normaal verdeeld?

0 leuk 0 niet-leuks

Ik heb een aantal afhankelijke variabelen waarvan ik me afvraag of deze als normaal verdeeld kunnen worden beschouwd. Als ik voor de variabele 'self blame' naar skewness en kurtosis kijk, lijkt die voldoende normaal verdeeld (tussen -1 en 1). De Kolmogorov-Smirnov-test geeft echter aan dat 'self blame' niet normaal verdeeld is. Waarschijnlijk door uitschieters rond score 2.

Wanneer kun je een variabele als normaal verdeeld beschouwen?

Bij deze de stem-and-leaf plots voor de self blame: 

selfblam Stem-and-Leaf Plot

 

 Frequency    Stem &  Leaf

 

     1,00        1 .  0

     4,00        1 .  2222

    16,00        1 .  5555555555555555

     9,00        1 .  777777777

      ,00        1 .

    30,00        2 .  000000000000000000000000000000

    15,00        2 .  222222222222222

    16,00        2 .  5555555555555555

    12,00        2 .  777777777777

      ,00        2 .

    14,00        3 .  00000000000000

     8,00        3 .  22222222

     9,00        3 .  555555555

     3,00        3 .  777

      ,00        3 .

     4,00        4 .  0000

      ,00        4 .

     1,00        4 .  5

     2,00 Extremes    (>=4,8)

 

 Stem width:      1,00

 Each leaf:       1 case(s)

gevraagd 28 februari 2013 in Methodologie door S.Schudde (120 punten)

1 Antwoord

0 leuk 0 niet-leuks

Deze vraag wordt ook behandeld op http://oupsy.nl/help/215/hoe-toets-ik-of-een-variabele-normaal-is-verdeeld. Echter, de vraag is vaak niet belangrijk, en waarom dat zo is staat hieronder.

Als je het hebt over de normale verdeling van een variabele, heb je het eigenlijk over de steekproevenverdeling. Zoals je je misschien nog herinnert zijn er drie belangrijke verdelingen:

  1. De populatieverdeling: dit is de verdeling van alle scores van alle leden van je populatie. Houdt er rekening mee dat je populatie niet is gedefinieerd als alle individuen die op dit moment aan de relevante criteria voldoen, maar dat de populatie ook individuen bevat die over een maand of een jaar aan die criteria voldoen. Anders zouden je data immers per definitie achterhaald zijn op het moment dat je die hebt verzameld. Hoe ver in de toekomst en in het verleden je populatie teruggaat hangt af van hoe veranderlijk de dingen die je meet zijn over de tijd.
  2. De verdeling van steekproefscores (soms kortweg steekproefverdeling genoemd): dit is de verdeling van alle scores in je steekproef. Deze verdeling benadert de populatieverdeling: als de populatieverdeling heel rechtsscheef is, zijn je steekproefscores ook heel rechtsscheef verdeeld. Het gemiddelde en de standaarddeviatie in je steekproef zijn, behoudens de errorvariantie, benaderingen van het gemiddelde en de standaarddeviatie in de populatieverdeling.
  3. De steekproevenverdeling (of sampling distribution): dit is de verdeling die je krijgt als je oneindig vaak een steekproef met jouw steekproefomvang zou herhalen, en de gemiddelden van al die steekproeven in een nieuwe verdeling zou zetten. Deze theoretische verdeling bevat dus alle mogelijke steekproefgemiddelden. Daarom kun je stellen dat als je een steekproef neemt, je eigenlijk een random gemiddelde kiest uit die steekproevenverdeling. Die bevat immers alle mogelijke gemiddelden. Het gemiddelde van de steekproevenverdeling is het gemiddelde van de populatieverdeling; en de standaarddeviatie van de steekproevenverdeling noemen we de standaardfout, en is de standaarddeviatie van de populatieverdeling gedeeld door de wortel van de steekproefomvang: $$\sigma_{\text{steekproevenverdeling}}=\text{standaardfout}=\frac{\sigma_\text{populatie}}{\sqrt{n}}$$

Statistische toetsen hebben als aanname dat de steekproevenverdeling normaal is verdeeld. Je steekproefscores hoeven dus niet normaal verdeeld te zijn.

Als je populatieverdeling normaal is verdeeld, is de steekproevenverdeling altijd ook normaal verdeeld. Je kent de populatieverdeling natuurlijk nooit (dat is immers, net als de steekproevenverdeling, een theoretische verdeling die niet echt bestaat). Maar gelukkig ken je de verdeling van je steekproefscores wel, en die lijkt natuurlijk op de populatieverdeling. Daarom is het belangrijk om de verdeling van je steekproefscores te bekijken. Als die normaal verdeeld is, is er niets aan de hand: dan is de populatieverdeling hoogstwaarschijnlijk ook normaal verdeeld, en dus de steekproevenverdeling ook.

Maar wat nu, als zoals in jouw geval, de verdeling van de steekproefscores niet normaal is? In dat geval ligt de oplossing in de zogenaamde Centrale Limiet Stelling. De Centrale Limiet Stelling (CLS) stelt dat naarmate de steekproefomvang stijgt, de steekproevenverdeling steeds normaler wordt, ongeacht de vorm van de populatieverdeling. Dit betekent dus dat afwijkingen van normaliteit geen probleem zijn, mits je steekproef voldoende groot is.

Een mooie illustratie hiervan staat op Wikipedia, zie http://en.wikipedia.org/wiki/Central_limit_theorem#Simple_example

De wiskundige bewijsvoering voor de CLS is nogal complex (zie die Wikipedia pagina), dus ik vrees dat je moet aannemen dat het zo is. In jouw geval geldt dat de significante Kolmogorov-Smirnov-toets aangeeft dat je verdeling van steekproefscores niet normaal is verdeeld; maar dit is niet erg, want omdat je steekproefomvang voldoende groot is, is je steekproevenverdeling wel normaal verdeeld.

De volgende vraag is natuurlijk, "hoe groot moet mijn steekproef dan zijn?", en het antwoord is, vrees ik, "dat hangt er vanaf" . . . Hoe groter de afwijking van normaliteit, hoe groter je steekproef moet zijn voordat de steekproevenverdeling normaal is dankzij de CLS. Ik ken hier zelf geen richtlijnen voor; het is dus een beetje natte-vinger werk vrees ik.

[EDIT: ik heb hier inmiddels een bron over geschreven die dit met plaatjes uitlegt. Deze staat op http://oupsy.nl/files/populatieverdeling, verdeling van steekproefscores, en steekproevenverdeling.pdf.]

beantwoord 28 februari 2013 door gjp (64,270 punten)
bewerkt 21 juni 2013 door gjp
Beste heer Peters,

De link naar het artikel klopt niet meer. Het moet zijn:

http://www.volkskrant.nl/wetenschap/voor-gokker-en-geleerde~a869572/

Met vriendelijke groet,

Peter-Paul van der Ven.
Super, dankjewel!
...