Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Hoe weet je of twee correlaties gelijk aan elkaar zijn?

0 leuk 0 niet-leuks
Soms wil je twee correlaties vergelijken, bijvoorbeeld in twee verschillende steekproeven. Hoe kun je toetsen of die correlaties even sterk zijn of niet?
gevraagd 18 december 2012 in Bivariate statistiek door gjp (63,420 punten)

1 Antwoord

0 leuk 0 niet-leuks

$Q$: effect size voor het verschil tussen correlaties [1]
$Q$ drukt uit hoeveel correlaties verschillen. $Q$ is simpelweg het verschil tussen twee "Fisher's Z" waarden. $Z_{\text{Fisher}}$ kun je uitrekenen op basis van de correlaties met deze formule:

$$z_{\text{Fisher}}=\frac{1}{2}\ln(\frac{1+r}{1-r})$$

$Q$ is dan dus gelijk aan:

$$Q=z_{\text{Fisher}_{1}}-z_{\text{Fisher}_{2}}$$

$Q$ heeft dezelfde kwalitatieve effect size labels als een gewone correlatie: dus een $Q$ kleiner dan .1 representeert een triviaal verschil tussen correlaties; een $Q$ tussen de .1 en .3 een klein verschil; een $Q$ tussen de .3 en .5 een middelmatig verschil, en een $Q$ groter dan .5 een groot verschil.

Betrouwbaarheidsinterval van $Q$
De puntschatting van $Q$ is natuurlijk nog niet zo informatief; je moet eigenlijk bepalen wat aannemelijke waarden van $Q$ zijn in de populatie, oftewel, je moet het betrouwbaarheidsinterval uitrekenen. Welke formule je hiervoor moet gebruiken, hangt er vanaf of de correlaties uit twee onafhankelijke steekproeven komen, of niet.

Twee onafhankelijke steekproeven [2]
Als je correlaties uit twee onafhankelijke steekproeven komen, kun je het betrouwbaarheidsinterval voor $Q$ berekenen met behulp van de bijbehorende steekproefgroottes:

$$\text{betr. int.}_{Q} = Q \pm1.96\sqrt{  \frac{1}{n_{1}-3}  +  \frac{1}{n_{2}-3}  }$$

De 1.96 is voor een 95% betrouwbaarheidsinterval, je kunt ook andere waarden gebruiken van $z$. Met behulp van deze standaardfout (het deel achter de 1.96) kun je ook de p-waarde van Q berekenen (hoewel je beter betrouwbaarheidsintervallen kunt gebruiken en rapporteren dan p-waarden):

$$z=\frac{  Q  }{  \sqrt{  \frac{1}{n_{1}-3}  +  \frac{1}{n_{2}-3}  }  }$$

Deze z-waarde en de bijbehorende p-waarde worden ook uitgerekend door de Excel file op http://gjyp.nl/?q=node/125. Je kunt natuurlijk ook R gebruiken; zie http://oupsy.nl/help/24/wat-is-r-en-hoe-installeer-ik-het en http://personality-project.org/r/html/paired.r.html voor het package.

Twee afhankelijke steekproeven [3]
Het kan ook dat je correlaties niet uit twee onafhankelijke steekproeven komen, bijvoorbeeld als je wilt kijken of de correlatie tussen $X_{1}$ en $Y$ gelijk is aan de correlatie tussen $X_{2}$ en $Y$. Omdat deze correlaties via $Y$ samenhangen, moet je een andere formule gebruiken. Deze formule is opgesplitst in vier delen. Dit ziet er misschien wat ingewikkeld uit, maar als je je niet laat afschrikken en het rustig doorleest zie je dat het heel erg meevalt:

$$\text{betr. int.}_{Q} = Q \pm1.96\sqrt{  \frac{  2(1-r_{12})h  }{  N-3  }  }$$

$r_{12}$ staat voor de correlatie tussen $X_{1}$ en $X_{2}$. Die h bereken je vervolgens met:

$$h=1+\frac{  \bar{r^2}  }{  1 -  \bar{r^2}  }(1-f)$$

In deze formule staat $\bar{r^2}$ voor het gemiddelde van de correlaties $X_{1}$ en $X_{2}$. Dit bereken je met:

$$\bar{r^2} = \frac{  r_{13}^2 + r_{23}^2  }{  2  }$$

$r_{13}^2$ staat voor de correlatie tussen $X_{1}$ en $Y$, en $r_{23}^2$ stat voor de correlatie tussen $X_{2}$ en $Y$. Dan hoef je vervolgens alleen nog die $f$ uit te rekenen, en dat kun je doen met deze formule:

$$f=\frac{  1 - r_{12}  }{  2(1-r_{12})  }$$

Hierbij mag $f$ niet groter zijn dan 1. Als je $f$ uitrekent en hij is wel groter dan 1, dan moet je die gewoon op 1 zetten. Als je dus $f$ uitrekent, $h$, en dan uiteindelijk $z$, dan kun je $z$ opzoeken en zo kijken wat de bijbehorende p-waarde is. Het duurt even, maar dan heb je ook wat :-)

Om de p-waarde uit te rekenen, kun je deze formule gebruiken (maar wederom, je hoort eigenlijk betrouwbaarheidsintervallen te gebruiken en rapporteren in plaats van p-waarden):

$$z = (  z_{\text{Fisher}_{1}}  -  z_{\text{Fisher}_{2}}  )  \sqrt{  \frac{  N - 3  }{  2(1-r_{12})h  }  }$$

Je kunt ook het R package gebruiken waar ik hierboven naar verwijs, hoewel dat  iets andere formules dan hier staan (hoewel er meestal hetzelfde uitkomt). Een ander R package gebruikt precies deze formules: http://rss.acs.unt.edu/Rdoc/library/compOverlapCorr/html/compOverlapCorr.html

Een voorbeeld van een tabel met Q waarden staat bijvoorbeeld in hofodstuk 7 van mijn proefschrift (http://phdthesis.nl/sites/default/files/Determinants%20of%20ecstasy%20use%20and%20harm%20reduction%20strategies%20-%20p097-p114%20-%20chapter%207.pdf).

Referenties
[1] Deze formules komen uit het boek "Statistical Power Analysis for the Behavioral Sciences" van Cohen (1988).

[2] Deze formules komen uit het artikel "Testing the Difference between Dependent Correlations Using the Fisher Z" van Ramseyer (1979), zie http://www.jstor.org/stable/20151295

[3] Deze formules komen uit het artikel "Comparing Correlated Correlation Coefficients" van Meng, Rosenthal & Rubin (1992), DOI 10.1037/0033-2909.111.1.172.

beantwoord 18 december 2012 door gjp (63,420 punten)
bewerkt 27 juni 2013 door gjp
...