Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Beste lezer

Hoe kan het dat de multipele correlatie groter kan zijn dan de proportie verklaarde variantie bij multipele regressie als de voorspellers met elkaar correleren?
in Cross-sectioneel Onderzoek (PB0802) door (350 punten)

1 Antwoord

0 leuk 0 niet-leuks
Dit heeft een mogelijk lang technisch antwoord, maar ik zal proberen een bottom-line te geven.

Het probleem met R^2 is dat dit normaal de 'between' variance is in verhouding tot de totale variantie. In een multilevelmodel zijn er echter twee soorten between-variance, tau^2 en omega^2 (Snijders & Boskers, 1994). Kort samengevat heeft deze problematiek, met name hoe tau en omega precies te definieren tot de onaangename consequentie dat proportie verklaarde variantie in een multilevelmodel niet zonder meer te berekenen valt.

De klassieke benadering in 'normale' (OLS) regressie werkt niet goed in multilevelanalyse. In OLS regressie is er maar één variantiecomponent in het gehele model, en dat is de kwadratensom van de residuen (SS). De residuen van de regressiefunctie zijn dan de residuen van het model, en deze residuen kunnen zondermeer gebruikt worden als proportie verklaarde variantie, want ze zijn toe te schrijven aan de regressie.

In een regressie is het echter lastig om te zeggen hoeveel variantie toe te schrijven is aan de eerste of tweede predictor in het model. In utopische situaties waar de predictoren nul gecorreleerd zijn kan men makkelijk stellen dat de totale variantie de som is van de SS van de regressiecoefficienten. Zodra predictoren gecorreleerd zijn wordt dit in een OLS-regressie al erg lastig, en in een multilevelanalyse bijna onberekenbaar.

Helaas is het erg lastig om dit toe te lichten zonder formules te gebruiken. Om een formuleloze poging te wagen, in een multilevelmodel heb je eigenlijk een opstapeling van regressiemodellen. Op niveau 1 heb je residueen (epsilon) die gekwadrateerd sigma^2 worden genoemd, maar deze heb je ook op niveau 2 (delta), die gekwadrateerd tau^2 worden genoemd.

De totale 'between-group'-variance is een som van tau^2 en sigma^2, maar er is sprake van confounding; sommige variantie op niveau 2 is verantwoordelijk voor variantie op niveau 1. Om tot de betweenvariantie te komen worden op niveau 1 (beta) en niveau 2 (gamma) regressieparameters berekend, maar de beta komt bij de berekening van de within en between residuals voor, maar de gamma enkel op de berekening van de betweenresiduals, want van een niveau-1 individu is geen sprake in het niveau 2 model. Dit veroorzaakt confounding.

Om een lang verhaal kort te maken: er zijn vele oplossingen voorgesteld voor het berekenen van een bruikbare R^2 die enkel toeneemt als er predictoren worden toegevoegd, en minder gevoelig is voor colineariteit, maar een measure die alles dekt is nog niet gevonden. Het is mogelijk om een groot deel van de error-confounding op te lossen door gebruik te maken van group-mean centering in plaats van grand-mean centering, maar dit heeft (a) invloed op de interpretatie van de uitkomst, en (b) kan alleen gedaan worden in random-intercept models.
door (49.2k punten)

Wow. Ik dacht dat het antwoord zou zijn:

Omdat bij regressie-analyse, de proportie verklaarde variantie is gedefinieerd als het kwadraat van de multipele correlatie; en omdat de multipele correlatie altijd kleiner is dan 1, en het kwadraat van een getal tussen 0 en 1 altijd kleiner is dat dat getal zelf, is R^2 dus altijd kleiner dan R, en de proportie verklaarde variantie dus altijd kleiner dan de multipele correlatie.

Goed dat jij hier eerst antwoord op gaf dus, Ron :-)

Misschien is jouw antwoord wel beter; ik zat niet zo goed op te letten, en dacht dat dit een vraag was over de cursus longitudinale modellen. Het issue van confounding vindt op zich niet plaats bij OLS-regressie, maar gelukkig blijft het punt van gecorreleerde predictoren wel overeind, maar dat betekent eigenlijk dat ik na mijn eerste alinea's kon stoppen ;)
Dus, Veerle: binnen de context van Onderzoekspracticum Cross-sectioneel Onderzoek volstaat het korte antwoord: maar omdat je daarna waarschijnlijk ook Onderzoekspracticum Longitudinaal Onderzoek gaat doen, doe ook je voordeel met het lange antwoord :-)
...