Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Wat zijn de 'VIF' en 'tolerance' bij regressie-analyse?

0 leuk 0 niet-leuks
Als je een regressie-analyse doet, geeft SPSS soms de 'VIF' en de 'tolerance' voor elke voorspeller. Wat zijn dit?
gevraagd 14 december 2012 in Multivariate statistiek door gjp (63,080 punten)

1 Antwoord

0 leuk 0 niet-leuks

(zie ook als inleiding m.b.t. collineariteit http://oupsy.nl/help/258/correlaties-tussen-tussen-predictoren-regressieanalyses)

In een regressie-analyse heb je bijna altijd meer dan één voorspeller. Die voorspellers hangen samen. Ze hangen natuurlijk altijd een beetje samen (een correlatie is immers nooit precies 0, alleen al door meetfout), maar soms hangen ze vrij sterk samen. Dit heet 'multicollinearity' (wat gewoon betekent dat de voorspellers samenhangen; 'multi co lineariteit' - de co-lineariteit duidt op het feit dat voorspellers hun lineaire samenhang met de afhankelijke delen (co), en het multi refereert aan het feit dat het meerdere voorspellers betreft).

Door die samenhang van je voorspellers heb je in je regressie-analyse eigenlijk minder informatie dan als de voorspellers niet samen zouden hangen. De samenhang tussen je voorspellers betekent immers dat je elke voorspeller (deels) kunt voorspellen uit de andere voorspeller(s). Stel dat je twee voorspellers hebt, X1 en X2. Als die twee voorspellers niet samenhangen, levert elke nieuwe proefpersoon waardevolle extra informatie over de samenhang tussen X1 en Y en over de samenhang tussen X2 en Y. Maar stel je nu voor dat X1 en X2 wel samenhangen. Als je dan een nieuwe proefpersoon hebt, en je kent zijn/haar score op X1, dan weet je dus ook al iets over zijn/haar score op X2 (die hangen immers samen). Hierdoor levert de nieuwe proefpersoon minder informatie. Dit fenomeen heet multicollineariteit.

Een gevolg van die multicollineariteit is dat je iets minder informatie hebt, waardoor je de regressiecoefficienten (de betas) moeilijker kunt schatten; je schattingen zijn minder accuraat. Dat wordt uitgedrukt door de standaarfouten (standard errors), die groter worden. Omdat die standard errors groter worden, wijken je regressiecoefficienten minder snel significant af van 0. Dit komt omdat de significantie van een regressie-coefficient wordt getoetst met een t-toets, waarbij de waarde van t wordt uitgerekend door de regressiecoefficient te delen door de bijbehorende standaardfout. Hoe groter de standaardfout, hoe kleiner de t-waarde; en hoe kleiner de t-waarde, hoe groter de p-waarde.

Bij regressie-analyse kun je bepalen hoe 'erg' de multicollineariteit is (je hebt natuurlijk altijd een beetje multicollineariteit: alle variabelen hangen wel een beetje samen, al is het maar op basis van toeval; correlaties zijn nu eenmaal nooit exact 0) door naar de zogenaamde Variance Inflation Factor (VIF) te kijken. Elke voorspeller heeft zo'n VIF. Deze VIF drukt uit met welke factor de varianties van de andere voorspellers toenemen door opname van de betreffende voorspeller in je model.

Je kunt dit zien alsof je eigenlijk 'proefpersonen verliest' door die multicollineariteit - omdat significantie een deterministisch gevolg is van de effect size (in dit geval bepaalt die effect size hoe groot de regressie-coefficient wordt), de bijbehorende error-term (in dit geval de standaardfout), en de bijbehorende vrijheidsgraden (in dit geval bepaald door de steekproefomvang), hebben grotere standaardfouten hetzelfde effect als wanneer je een kleinere steekproef zou hebben. Door multicollineariteit is je 'effectieve steekproefomvang' dus kleiner dan je daadwerkelijke steekproefomvang (elke proefpersoon levert immers minder informatie door die samenhang tussen je voorspellers).

De 'tolerance' is net als de VIF een middel om multicollineariteit te diagnosticeren. De tolerantie is simpelweg de 1 / VIF. Als je dus een VIF van 3 hebt, is de tolerantie 1/3 = .33.

Er zijn vuistregeltjes om te bepalen wanneer de multicollineariteit ernstig is, bijvoorbeeld als de VIF groter is dan 10 (of de tolerantie kleiner dan 1/10 = .10, wat natuurlijk hetzelfde is).

beantwoord 14 december 2012 door gjp (63,080 punten)
bewerkt 14 augustus 2013 door gjp
Wat als de gemiddelde VIF waarde substantieel boven 1 uitkomt?
...