Geen van je variabelen hoeft normaal verdeeld te zijn bij regressie-analyse. Je mag dus inderdaad een regressie-analyse uitvoeren als je afhankelijke variabele niet normaal is verdeeld. Er zijn vier aannames bij regressie analyse die je altijd moet controleren:
-
Lineariteit: het verband tussen elk van je voorspellers en de afhankelijke variabele moet lineair zijn. Controleer dit door scatterplots op te vragen. Als het verband met een voorspeller bijvoorbeeld exponentieel is, kun je dit oplossen door met die voorspeller een machtterm te berekenen en die ook in je model toe te voegen (dus als X exponentieel samenhangt met je afhankelijke variabele, bereken dan bijvoorbeeld X_kwadraat en voeg die ook toe. Dit kan in SPSS met:
COMPUTE X_kwadraat = X * X.
En in R met (als je dataframe 'dat' heet):
dat\$X_kwadraat <- dat\$X * dat\$X;
-
Onafhankelijkheid van de errortermen: dit kan gebeuren als mensen bijvoorbeeld op twee opeenvolgende vragen verkeerd antwoorden, en dat de manier waarop ze dat doen bijvoorbeeld samenhangt met hun geslacht (stel dat alle mannen te hoog antwoorden en alle vrouwen te laag). Bij gewone regressie-modellen kun je hier bijna niet achter komen. Gelukkig gebeurt het ook zelden. Als je complexere modellen hebt, bijvoorbeeld met meerdere metingen per persoon, kan dit een serieuze bedreiging vormen. Je kunt dit detecteren door het 'autocorrelation plot' te bestellen.
-
Homoscedacity (gelijke variantie van de errors (residuen)): als de variantie van je residuen (de fouten in je voorspelling) niet constant is voor alle waarden van je voorspellers, loop je het risico het model te sterk te baseren op een klein stukje van je steekproef (daar waar de variantie het grootst is). Dit kun je bekijken door een plotje (een scatterplot) te bestellen met de residuen op de y-as en de voorspelde waarde op de x-as. Als alles goed is, is de variantie van die residuen overal gelijk: dus de puntjes in die scatterplot zouden voor elke waarde van de x-as ongeveer even ver van elkaar af moeten liggen (je zou een rechte band door het plotje moeten kunnen trekken).
-
Normaal verdeelde errors in de voorspelling (residuen): de errors in de voorspelling moeten normaal zijn verdeeld. Dit kun je bekijken door een plotje (een histogram) te bestellen van de residuen, maar je kunt ook een zogenaamde normal probability plot gebruiken. Dit is een plotje met een diagonale lijn (die de normaalverdeling representeert), waar elk puntje overeenkomt met een residu. Die puntjes zouden dus ongeveer op de diagonale lijn moeten liggen. Als dat niet zo is, komt dat waarschijnlijk omdat het verband tussen een of meerdere van je voorspellers en de afhankelijke variabele niet lineair is, of omdat een of meer van je voorspellers problematisch non-normaal zijn verdeeld.
Zoals je aan die laatste aanname ziet, kan non-normaliteit wel een probleem zijn. Als blijkt dat je residuen niet normaal zijn verdeeld, dan is je afwijking van normaliteit een probleem. In dat geval zijn er verschillende dingen die je kunt doen, maar om het overzicht te bewaren stel ik voor dat je daar dan een nieuwe vraag over stelt.
[PS: zie voor ietsje meer informatie bijvoorbeeld http://people.duke.edu/~rnau/testing.htm]