Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Mag ik een hierarchische regressie analyse uitvoeren met een niet-normaal verdeelde afhankelijke variabele?

0 leuk 0 niet-leuks
In mijn masterscriptie wil ik de invloed van enkele onafhankelijke variabelen stapsgewijs onderzoeken op één afhankelijke variabele. Deze afhankelijke variabele is linksscheef  (en niet normaal) verdeeld. De rest van de te onderzoeken variabelen zijn wel normaal verdeeld. Het is onduidelijk of ik nu wel of geen hierarchische regressie-analyse mag uitvoeren. Ene bron zegt van wel en andere is onduidelijk...
gevraagd 3 juni 2013 in Methode door Lipkjen van Egmond (140 punten)

1 Antwoord

0 leuk 0 niet-leuks

Geen van je variabelen hoeft normaal verdeeld te zijn bij regressie-analyse. Je mag dus inderdaad een regressie-analyse uitvoeren als je afhankelijke variabele niet normaal is verdeeld. Er zijn vier aannames bij regressie analyse die je altijd moet controleren:

  1. Lineariteit: het verband tussen elk van je voorspellers en de afhankelijke variabele moet lineair zijn. Controleer dit door scatterplots op te vragen. Als het verband met een voorspeller bijvoorbeeld exponentieel is, kun je dit oplossen door met die voorspeller een machtterm te berekenen en die ook in je model toe te voegen (dus als X exponentieel samenhangt met je afhankelijke variabele, bereken dan bijvoorbeeld X_kwadraat en voeg die ook toe. Dit kan in SPSS met:

    COMPUTE X_kwadraat = X * X.

    En in R met (als je dataframe 'dat' heet):

    dat\$X_kwadraat <- dat\$X * dat\$X;
     
  2. Onafhankelijkheid van de errortermen: dit kan gebeuren als mensen bijvoorbeeld op twee opeenvolgende vragen verkeerd antwoorden, en dat de manier waarop ze dat doen bijvoorbeeld samenhangt met hun geslacht (stel dat alle mannen te hoog antwoorden en alle vrouwen te laag). Bij gewone regressie-modellen kun je hier bijna niet achter komen. Gelukkig gebeurt het ook zelden. Als je complexere modellen hebt, bijvoorbeeld met meerdere metingen per persoon, kan dit een serieuze bedreiging vormen. Je kunt dit detecteren door het 'autocorrelation plot' te bestellen.
     
  3. Homoscedacity (gelijke variantie van de errors (residuen)): als de variantie van je residuen (de fouten in je voorspelling) niet constant is voor alle waarden van je voorspellers, loop je het risico het model te sterk te baseren op een klein stukje van je steekproef (daar waar de variantie het grootst is). Dit kun je bekijken door een plotje (een scatterplot) te bestellen met de residuen op de y-as en de voorspelde waarde op de x-as. Als alles goed is, is de variantie van die residuen overal gelijk: dus de puntjes in die scatterplot zouden voor elke waarde van de x-as ongeveer even ver van elkaar af moeten liggen (je zou een rechte band door het plotje moeten kunnen trekken).
     
  4. Normaal verdeelde errors in de voorspelling (residuen): de errors in de voorspelling moeten normaal zijn verdeeld. Dit kun je bekijken door een plotje (een histogram) te bestellen van de residuen, maar je kunt ook een zogenaamde normal probability plot gebruiken. Dit is een plotje met een diagonale lijn (die de normaalverdeling representeert), waar elk puntje overeenkomt met een residu. Die puntjes zouden dus ongeveer op de diagonale lijn moeten liggen. Als dat niet zo is, komt dat waarschijnlijk omdat het verband tussen een of meerdere van je voorspellers en de afhankelijke variabele niet lineair is, of omdat een of meer van je voorspellers problematisch non-normaal zijn verdeeld.

Zoals je aan die laatste aanname ziet, kan non-normaliteit wel een probleem zijn. Als blijkt dat je residuen niet normaal zijn verdeeld, dan is je afwijking van normaliteit een probleem. In dat geval zijn er verschillende dingen die je kunt doen, maar om het overzicht te bewaren stel ik voor dat je daar dan een nieuwe vraag over stelt.

[PS: zie voor ietsje meer informatie bijvoorbeeld http://people.duke.edu/~rnau/testing.htm]

beantwoord 3 juni 2013 door gjp (64,700 punten)
bewerkt 7 augustus 2013 door gjp

Dank je voor je snelle antwoord. Ik had al die plots al gemaakt (lang leve Field) en twijfel bij iig 1 scatterplot aan de homoscedastiteit. Ik wil ze graag voorleggen (incl wat ik zelf nu concludeer) en heb ze al in een wordbestand geplakt. Maar het lijkt me wat veel van het goede om ze in dit tekstvlak te plakken? Is er een andere wijze waarop je evt mee zou kunnen kijken?

Beste Lipkjen, het is de bedoeling dat je dergelijke specifieke vragen aan je begeleider van je masterscriptie voorlegt. Daar is hij/zij tenslotte je begeleider voor :-) Bovendien heeft hij/zij de inhoudelijke kennis die helpt bij de interpretatie van de specifieke kwesties waar je tegenaan loopt.
...