Een van de variabele in deze opdracht (Negative life events) lijkt niet normaal verdeeld te zijn.
Waarom is het voor de verder uit te voeren analyse problematisch als een variabele niet normaal verdeeld is, zoals het geval is voor Negative life events in deze opdracht? Of met andere woorden: Wat gaat er mis als je deze variabele wel volgens de gebruikelijke statistieken gaat analyseren?
In het antwoord staat het volgende: Alle variabelen lijken redelijk normaal verdeeld. Maar Negative life events laat een scheefheid van ruim 4 en kurtosis van ruim 33 zien. Het is onwaarschijnlijk dat deze variabele normaal verdeeld is.
Afhankelijk van de analyse die verder uitgevoerd wordt kan dit een probleem opleveren. Het lijkt zinvol om in kaart te brengen hoe de steekproevenverdeling van het gemiddelde voor Negative life events eruit ziet. Dat gaat echter buiten deze cursus. Mocht blijken dat de steekproevenverdeling van Negative life events bij benadering niet normaal verdeeld is, kan deze variabele niet zonder meer met de gebruikelijke statistische technieken geanalyseerd worden. Er zijn verschillende manieren om hiermee om te gaan, die echter buiten deze cursus vallen. De eenvoudigere methoden hebben implicaties voor de conclusies die getrokken kunnen worden. De complexere methoden zijn beter te verdedigen, maar te complex voor een eerste onderzoekpracticum. In volgorde van oplopende complexiteit staan hier de mogelijke alternatieven.
- de extreme waarden verwijderen uit de dataset
- de variabele terugbrengen tot categorisch meetniveau
- de variabele transformeren door bijvoorbeeld het logaritme te nemen
- een meer geavanceerd statistisch model gebruiken dat rekening houdt met de afwijkende verdeling van deze variabele
Het belangrijkste om te onthouden is dat het geen probleem hoeft te zijn als variabelen enigszins afwijken van de normaalverdeling. Alleen in hele extreme gevallen zoals bij deze variabele kan dit problematisch zijn.