Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Hoe zit de inhoudelijke relatie tussen correlatiecoefficient B en R2 in enkelvourdige regressie?

0 leuk 0 niet-leuks
De corr coeff B in enkelvoudige regressies is gelijk aan de gewone correlatie coefficient en kan m.i. dus ook als effectmaat worden gebruikt (reader p45, onderz psych experiment).

Hoe kan het dan dat de verklaarde variantie standaard veel lager uitvalt (kwadrateren bij getallen lager dan 1) dan je o.g.v. de correlatie coefficient zou verwachten?

Een correlatiecoefficient van 0,5 geeft een R2 van 0,25, dus 25% verklaarde variantie.

Ik snap nu ineens welke denkfout ik maak, maar wellicht is dit ook behulpzaam voor anderen en daarom post ik de vraag toch maar en geef het goede antwoord (denk ik) gelijk :)
gevraagd 25 april 2016 in Psychologisch Experiment (PE) door Hendrik (550 punten)

2 Antwoorden

0 leuk 0 niet-leuks

De gewone correlatiecoefficient geeft inderdaad de effectgrootte weer, maar het gaat daarbij om de samenhang tussen de variabelen. Dat is niet hetzelfde als wat je meet bij een regressie-analyse; daar meet je de invloed van de ene variabele op de andere!

Dus hoewel de samenhang tussen de variabelen groot kan zijn, hoeft dat niet perse te betekenen dat de ene variabele de andere beinvloedt....hoewel.... het blijft toch vreemd dat er een standaard berekening volgt tussen Pearson's r en R2, namelijk de kwadratering, in het geval van enkelvoudige regressies...mmm....

beantwoord 25 april 2016 door Hendrik (550 punten)
alleen bij een correlatiecoefficient van 1 krijg je dus een verklaarde variantie van 100% (1 gekwadrateerdx100) terwijl als je zakt onder de 1, de variantie dus via kwadratering terugloopt/vermindert...dat verklaart waarschijnlijk het feit dat er al van een groot effect gesproken wordt bij correlaties van groter dan 0,5 (zie Field, p.267)....
0 leuk 0 niet-leuks

Een paar correcties.

De correlatiecoefficient is niet gelijk aan de regressiecoefficient. De correlatiecoefficient is de gestandaardiseerde covariantie:

$$r_{xy}=\frac{cov_{xy}}{sd_x sd_y}$$

Oftewel, de covariantie die, door middel van deling door het product van de standaarddeviaties, wordt gecorrigeerd voor de schaal van de beide variabelen. Hierdoor loopt de correlatie altijd van -1 tot 1, ongeacht de schaal van de correlerende variabelen.

De regressiecoefficient kan vervolgens worden berekend met:

$$\beta_\text{y voorspeld door x}=r_{xy} \frac{sd_y}{sd_x}$$

Of, andersom:

$$\beta_\text{x voorspeld door y}=r_{xy} \frac{sd_x}{sd_y}$$

De regressiecoefficient is dus alleen gelijk aan de correlatie als de standaarddeviaties van beide variabelen gelijk zijn; bijvoorbeeld als ze zijn gestandaardiseerd.

De proportie verklaarde variantie, $R^2$, is, net als de correlatiecoefficient, een bruikbare effectmaat; er wordt gesproken van een klein effect als de proportie verklaarde variantie groter is dan .01, een middelsterk effect als die groter is dan .09, en een sterk effect als die groter is dan .25.

De regressiecoefficient in een enkelvoudige regressie, of in een meervoudige regressie for that matter, kan nooit worden gebruikt als effectmaat. Dat wil zeggen, het is technisch niet fout als het een enkelvoudige regressie is met gestandaardiseerde voorspellers, maar wel heel onhandig: je gebruikt immers een maat die bijna nooit bruikbaar is voor het doel dat je gebruikt. Bovendien worden regressie-analyses meestal multivariaat gebruikt, en dan is het berekenen van effectmaten helemaal onhandig; die zijn dan immers conditioneel op het volledige model (als in, de andere voorspellers/covariaten).

Een ander belangrijk punt is dat je bij regressie-analyse niet de invloed van de ene variabelen op de andere meet. Invloed is een causaal concept, en zit dus in je design, niet in je analyses. Zonder experiment, geen causaliteit, en geen invloed. Hoeveel regressie-analyses je ook doet :-)

Overigens kun je de $r^2$ ook gewoon uitrekenen zonder eerst een regressie-analyse te doen; bij enkelvoudige regressie-analyse is $R$, de multipele correlatie, eigenlijk helemaal geen multipele correlatie, want er zijn niet multipele voorspellers; het is dus gewoon de bivariate correlatie $r$, en dus geldt dat $R^2=r^2$.

(zie trwns ook http://stats.stackexchange.com/questions/32464/how-does-the-correlation-coefficient-differ-from-regression-slope)

beantwoord 25 april 2016 door gjp (69,380 punten)
Aha, dat is duidelijk uitgelegd!

Ook de indeling van effectsterkte van de R2: dit komt overeen met de effectsterkte zoals genoemd in Field p267 voor de correlatie coefficient (hoewel ik nu snap dat dat een maat is die bijna nooit gebruikt wordt/erg onhandig is voor effectgrootte) want de correlatie effectmaten van >0,5 (large effect) >0,3 (medium effect) en >. 0,1 (small effect) in het kwadraat zijn precies de maten incl. omschrijvingen die je noemt voor de R2: 0,25; 0,09 en 0,01.

(blijft wel beetje vreemd dat een sterke R2, bv. 0,26 slechts 26% variantie verklaard; dat klinkt niet als sterk in relatie tot 100%...)

Nogmaals dank!
100% is volledig; dan zou een variabele door niets anders beinvloedt worden. Dat bestaat niet; dingen zijn complex en van alles hangt met elkaar samen. Als je een kwart van de variantie in bijvoorbeeld gedrag kunt verklaren, ben je al een heel eind.
...