Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Goedemiddag,

Na mijn bivariate data analyse van mijn geaggregeerde variabelen. Zie ik dat mijn 2 voorspellers r=0.54 samenhangen. Dit lijkt mij vrij hoog. Betekent dit dat ik met deze variabelen geen multipele regressie analyse kan uitvoeren? Of kan ik dit op een manier oplossen zodat ik deze analyse wel kan doen?
in Cross-sectioneel Onderzoek (OCO, PB08x2) door (220 punten)

1 Antwoord

1 leuk 0 niet-leuks

In de cursus worden twee redenen besproken waarom een lineaire regressie-analyse met meerdere voorspellers problematisch kan zijn.

Beiden zijn gebaseerd op het feit dat statistische modellen "de waarheid niet kennen", waardoor ze niet goed om kunnen gaan met overlap tussen voorspellers in hun voorspelling van de afhankelijke variabele.

De simpelste reden is multicollineariteit: als voorspellers sterk met elkaar samenhangen, leveren ze elk minder informatie omdat de meeste informatie die ze leveren over de voorspelling van de afhankelijke variabele al was geleverd door een andere voorspeller. Dit resulteert in grotere standaardfouten met een factor VIF (VIF staat voor Variance Inflation Factor). De schattingen voor de regressiecoefficienten worden dus zo onbetrouwbaar dat ze praktisch arbitrair zijn. Hiervoor moet de samenhang echter veel hoger zijn dan $r=.54$ - dat is maar ongeveer %25\%$ overlap, en multicollineariteit wordt pas een probleem bij veel meer overlap.

De tweede reden is overlap in voorspellers: als de twee voorspellers psychologische constructen zijn die zo zijn gedefinieerd dat ze hetzelfde stukje van de menselijke psychologie omvatten, dan is dat ook een probleem voor de statistische analyse. Dat stukje psychologie hoort bij beide constructen; maar kan maar 1 keer worden toegekend. Het is niet zo dat dat stukje verklaarde variantie "op de goede manier kan worden verdeeld" (en zelfs als dat zou kunnen, dan zou de statistische analyse niet kunnen weten hoe dat dan zou moeten). Als je de variantie helemaal toekent aan de ene voorspeller, houd je de validiteit van die eerste voorspeller intact, maar de tweede voorspeller is dan niet valide meer (je hebt een kwart van het construct verwijderd). Andersom geldt hetzelfde.

Voor deze tweede situatie is geen oplossing. Je moet dan de regressie-analyse uitvoeren, maar op basis van je constatering dat er conceptuele overlap bestaat tussen de constructen de regressie-coefficienten niet interpreteren. De $R^2$ kun je wel nog gewoon interpreteren; je kunt dus wel nog inzicht krijgen in hoeveel je van de afhankelijke variabele kunt verklaren met beide voorspellers samen.

De regressie-coefficienten hebben in zo'n geval elk betrekking een onbekende subset van de betreffende constructen. Onbekende subset omdat er geen systeem zit achter hoe de statistische analyse de verklaarde variantie verdeelt tussen de twee regressie-coefficienten (dus de twee voorspellers).

Je kunt natuurlijk altijd naar de gewone correlaties kijken om te kijken hoe sterk de samenhang is; en dan $R^2$ gebruiken om uitspraken te doen over hoeveel je kunt verklaren met de voorspellers samen. Bovendien geldt dat als je enige doel is om de afhankelijke variabele zo goed mogelijk te voorspellen, je de regressie-coefficienten wel gewoon kunt gebruiken. Het regressiemodel werkt nog gewoon. De regressie-coefficienten zijn alleen niet informatief meer over de constructen, maar dat is niet altijd erg: je doet niet altijd een regressie-analyse om over de aparte constructen te leren. (Maar vaak wel, dus meestal is het wel erg, helaas.)

door (77.8k punten)
Bedankt voor dit uitgebreidde antwoord!

Heeft deze hoge samenhang dan ook te maken met een Lage R^2 die ik vind voor een van de twee voorspellers? Of is dit toe te schrijven aan een ander fenomeen? Dat zou ik namelijk interessant vinden.
...