Hoe moet je omgaan met hoge correlaties (tussen .4 en .67) tussen predictoren in regressieanalyses?

Question

Hoe moet je omgaan met hoge correlaties (tussen .4 en .67) tussen predictoren in regressieanalyses?

1 Antwoord

gjp · Answer 1 · 2013-08-14T16:14:27+0000

Deze correlaties zijn dermate laag dat ze geen probleem vormen.

Dat wil zeggen, ze zijn in zichzelf geen symptoom van collineariteit.

Bij regressie-analyse (of eigenlijk alle statistiek) probeer je verbanden tussen variabelen in kaart te brengen. Dit doe je bij regressie-analyse door te kijken naar de variantie in de afhankelijke variabele die wordt verklaard door de voorspellers (predictoren).

Om het uit te leggen geef ik voorbeelden van drie situaties waarbij je de rode variabele wil voorspellen uit de groene en de blauwe:

Ballatine diagrammen met overlappende cirkels

Deze cirkels representeren de variantie van de variabelen (dus de spreiding om het gemiddelde heen; oftewel de verschillen in de scores die je hebt gemeten). Het idee is dat we deze spreiding willen proberen te verklaren met onze voorspellers; we willen bijvoorbeeld proberen om te voorspellen of mensen hoog of laag scoren op extraversie aan de hand van hun scores op optimisme en perceived social support.

In de bovenste situatie zouden optimisme (groen) en perceived social support (blauw) niet samenhangen. Het is dus mogelijk om perfect te voorspeller welke variantie in extraversie (rood) wordt verklaard door elk van de twee voospellers (optimisme verklaart het gele deel, en perceived social support het lichtpaarse deel). In de praktijk komt deze situatie praktisch nooit voor; je meet immers vaak al gerelateerde variabelen, dus het is te verwachten dat deze gaan samenhangen. De vraag is dan hoeveel te samenhangen.

In de tweede situatie hangen optimisme en perceived social support samen. Dit is natuurlijk realistischer: als mensen optimistischer zijn, zullen ze een positieve bias hebben waardoor ze situaties vaker interpreteren als situaties waarin ze social support hebben ontvangen. Zoals je ziet hangen ze echter niet heel erg sterk samen: er is nog een groot deel van de variantie in extraversie die alleen wordt verklaard door optimisme (geel) en een groot deel dat alleen wordt verklaard door perceived social support (lichtpaars). Een klein deel wordt door zowel optimisme als perceived social support verklaard (donkerpaars), en dat deel wordt door SPSS geheel buiten het model gehouden. Hierdoor is de schatting van de respectieve invloeden van de twee voorspellers natuurlijk wel iets slechter; er is immers minder voorspelde variantie over waar deze schatting op is gebaseerd. Deze slechtere schatting uit zich in minder accurate regressie-coefficienten (beta's) die grotere standaardfouten hebben; en hierdoor zijn ze minder snel significant. Of een beta significant afwijkt van 0 wordt immers getoetst doordat de beta wordt gedeeld door zijn standaardfout (en de uitkomst wordt opgezocht op de t-verdeling). Als de standaardfout toeneemt, wordt een beta dus minder significant. Zoals gezegd in dit geval valt de collineariteit ('gedeelde lineaire samenhang') nog meer.

In het onderste plaatje hangen de twee voorspellers zo sterk samen, dat ze praktisch dezelfde variabele zijn; de correlatie is hier .9 of misschien nog wel hoger. De verklaarde variantie in extraversie (de rode cirkel) bestaat bijna alleen uit het deel dat zowel door optimisme (de groene cirkel) als perceived social support (de blauwe cirkel) wordt verklaard. Zoals ik zei wordt dit overlappende deel door SPSS geheel buiten beschouwing gelaten. Dit heeft in dit geval een aantal negatieve gevolgen:

We verklaren niet meer extraversie, maar nog maar ongeveer twee-derde van extraversie; een-derde is immers verwijderd door SPSS omdat het door beide voorspellers wordt voorspeld.
Onze schattingen van de regressie-coefficienten worden erg inaccuraat, omdat ze gebaseerd zijn op een klein deel van de variantie die optimisme en perceived social support verklaren.
Omdat die schattingen maar op heel weinig informatie zijn gebaseerd, hebben ze erg grote standaardfouten. De power voor de toetsing van de regressie-coefficienten is dus sterk verminderd.

Je kunt uitrekenen hoeveel informatie deze correlatie kost met een formule. Omdat je informatie weggooit, kun je eigenlijk zeggen dat je data van minder deelnemers hebt dan je eigenlijk hebt. Om te kijken hoeveel deelnemers je 'overhoudt' door de samenhang tussen je voorspellers, kun je het aantal deelnemers vermenigvuldigen met (1 - r²). Een correlatie tussen voorspellers van .4 leidt dus tot (1 - .4²) = (1 - .16) = .84 -> dus je hebt 16% minder data data, en dus deelnemers, dan je zou zeggen, omdat je door de samenhang tussen je voorspellers minder informatie hebt dan je zou willen.

In jouw geval lijkt de samenhang tussen je voorspellers heel erg mee te vallen. Hoewel door deze samenhang je wel wat power verliest (je hebt effectief minder deelnemers dan waar je data van hebt), en je regressie-coefficienten dus iets minder significant kunnen zijn, lijkt de situatie op het eerste gezicht niet problematisch.

Er is echter nog een complicatie. Eigenlijk heb ik nu alleen nog collineariteit uitgelegd; als twee variabelen samen lineair samenhangen met je afhankelijke variabele. Bij regressie-analyse is er echter ook een risico op multicollineariteit; dit is de naam voor de situatie waarin meerdere voorspellers samen samenhangen. Dit is niet makkelijk te laten zien in een tekening, maar SPSS kan hier wel voor je naar kijken. Om te kijken of je je hier zorgen over moet maken kun je de 'multicollinearity diagnostics' bestellen. Je krijgt dan de VIF en de tolerance voor elke voorspeller. Wat dat zijn wordt hier uitgelegd: http://oupsy.nl/help/35/wat-zijn-de-vif-en-tolerance-bij-regressie-analyse

Categorieën

Hoe moet je omgaan met hoge correlaties (tussen .4 en .67) tussen predictoren in regressieanalyses?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.

Gerelateerde vragen

Categorieën

Hoe moet je omgaan met hoge correlaties (tussen .4 en .67) tussen predictoren in regressieanalyses?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.