Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Waarom geeft SPSS de correlatie-coëfficient in de vorm van effect size niet?

0 leuk 0 niet-leuks
Ik heb de antwoorden gevonden. De correlatie coëffeciënt r=0,806 is de bivariate Pearson's r. Die is helder. De effect size r is echt een ander r. Die heb ik in S13131 niet gehad. De antwoorden heb ik gevonden door de paragrafen 7.2.2, 2.7.1.2 en (uiteindelijk kwam ik bij) 6.4.5 te vergelijken. Wat ik niet goed begrijp is waarom SPSS deze niet berekent (p. 227: SPSS doesn't calculate an effect size for us)
gevraagd 5 maart 2017 in Experimenteel Onderzoek (PB0402 en S05281) door 851926260 (200 punten)
heropend 6 maart 2017 door gjp

1 Antwoord

0 leuk 0 niet-leuks
SPSS berekent allerlei effect sizes niet. Waarom ze die nog steeds niet hebben geïmplementeerd is mij ook een raadsel - er is al decennia duidelijk dat ze belangrijk zijn.

Maar: de r is wel hetzelfde! Er zijn geen twee "r-en". De ene correlatie betreft (zoals Peter zei) het verband tussen de metingen op de twee momenten. Dus is de huis, tuin en keukencorrelatie, precies zoals hij in s13131 (en PB0202) zit.

Je kunt echter uit de Cohen's d, de effectsize om het verband tussen een dichotome variabele en een intervalvariabele uit te drukken (kun je ook zien als het verschil tussen twee gemiddelden), ook de correlatie berekenen. Dat is niet een ander soort correlatie: het is precies hetzelfde als de correlatie die je zou krijgen als je de correlatie tussen de dichotome en intervalvariabele zou berekenen.
beantwoord 6 maart 2017 door gjp (64,270 punten)
Hartelijk dank voor de antwoorden.

Het komt er dus op neer, dat de r wel over dezelfde correlatie gaat (in dit geval tussen mischief en het dragen van wel of geen cloak), maar door het verschil in de berekening tot een andere uitkomt leidt (.806 volgens de 'huis-tuin-keuken methode' en .75 via de effect size methode). Zie ik het zo goed?

Nee; het zijn twee verschillende correlaties. Zie Peter's antwoord:

De waarde .806 is de correlatie tussen de twee herhaalde metingen. Simpelweg een correlatie tussen twee variabelen dus. Daarentegen geeft .75 het effect van de experimentele conditie weer, gebaseerd op het verschil in gemiddelden en varianties bij de twee variabelen. Die laatste kan worden weergegeven via Cohen's d (zie o.a. p. 387), maar ook via r.

Maar waar ik hier in de uitleg afhaak, is dat ik maar één correlatie snap, namelijk die tussen de variabelen. De effect size r slaat op een ander verband wat ik niet zie. Ik snap dat de effect size een gestandaardiseerde uitdrukking is van het verschil. Via Cohen's d heb ik daar een voorstelling van en die snap ik, maar via r zie ik het niet... Als er wordt gezegd dat je 'vanuit Cohen's d ook de correlatie kunt berekenen', dan wordt er dus een andere correlatie bedoeld (dat bedoel ik met een andere r) dan die tussen de twee variabelen mischief en cloak/no cloak. Maar vervolgens staat er in het antwoord, dat het precies hetzelfde is als de correlatie die je zou krijgen als je de correlatie tussen de dichotome (cloak/nocloak volgens mij) en de intervalvariabele (mischief) zou berekenen. Maar dat is niet zo gezien het verschil .806 en .75.

Wat ik er dan nog van kan maken, is dat .75 zegt hoeveel de gemiddelden na weging 'correleren'. In die zin is dat dan toch een r die over iets anders gaat (dat bedoel ik met een andere r) dan over het verband tussen de variabelen via de weg die leidt tot .806.

Ik hoop dat helder is waar ik het niet meer snap en dat ik nog een  (laatste) hint kan krijgen.

Het doel van de meeste statistische analyses is om te schatten hoe sterk twee (of meer) variabelen samenhangen.

Die samenhang kun je uitdrukken met een aantal 'effect size metrics'.

Bij samenhang tussen twee intervalvariabelen wordt meestal de correlatie gebruikt.

Bij samenhang tussen een dichotome variabele en een intervalvariabele wordt meestal Cohen's d gebruikt.

Bij samenhang tussen een categorische (dus nominale of ordinale) variabele van meer dan twee niveau's (dus niet dichotoom)) wordt meestal omega kwadraat gebruikt.

Maar: die dingen drukken allemaal uit hoe sterk twee variabelen in je steekproef samenhangen. Je kunt ze dus van en naar elkaar converteren.

Waar het fout gaat is dat je het verschil tussen twee gemiddelden ziet als iets fundamenteel anders dan het verband tussen twee intervalvariabelen. Maar dat is niet zo: het is exact hetzelfde. Het verschil tussen twee gemiddelden is een perspectief op het verband tussen een dichotome variabele (dus een variabele met maar twee mogelijke meetniveau's, die zich manifesteren als die twee groepen) en een intervalvariabele (waar je dan in elke groep een gemiddelde van berekent).

Oftewel: als je kijkt of twee gemiddelden hetzelfde zijn, dan kijk je eigenlijk of er een verband is tussen de dichotome variabele (die de groepen definieert) en de intervalvariabele.

Naar dat verband kun je kijken met een t-toets en Cohen's d, of met een correlatie, of zelfs met omega kwadraat als je de dichotome variabele als factor invoert in een eenweg anova (R geeft dan omega kwadraat; bij SPSS moet je die, net als Cohen's d, zelf uitrekenen).

En als je het met Cohen's d hebt gedaan, dan kun je die omrekenen naar een correlatie.

En: als je het verband tussen e.g. leeftijd en IQ uitrekent gebruik je meestal een correlatie. Maar, die kun je omrekenen naar Cohen's d als je wil.

Misschien helpt het als ik de formule's even laat zien:

$$d = \frac{2r}{\sqrt{1-r^2}}$$

En andersom:

$$r = \frac{d}{\sqrt{d^2+4}}$$

Oftewel: dit is gewoon een verandering van 'schaal' van je effectgrootte.

(Het is wat complexer; deze formules gelden alleen in bepaalde omstandigheden, en in de praktijk converteer je niet zomaar alles naar elkaar - maar dit is het basale idee.)

Oftewel: als je kijkt of twee gemiddelden hetzelfde zijn, dan kijk je eigenlijk of er een verband is tussen de dichotome variabele (die de groepen definieert) en de intervalvariabele.

Naar dat verband kun je kijken met een t-toets en Cohen's d, of met een correlatie, of zelfs met omega kwadraat als je de dichotome variabele als factor invoert in een eenweg anova (R geeft dan omega kwadraat; bij SPSS moet je die, net als Cohen's d, zelf uitrekenen).

Volgens mij had ik dit aanvankelijk wel goed begrepen, maar de correlatie vond ik onduidelijk. Ik dacht steeds dat die r= .806 uiteindelijk hetzelfde moest zijn als die r die voor de effect size werd gebruikt.

Dus..: de .806 drukt de correlatie r (en dus de effect size) uit tussen de variabelen MischiefNoCloak en MischiefCloak. En 0.75 drukt de correlatie r uit tussen de intervalvariabele Mischief en de dichotome variabele Cloak/NoCloak. Klopt?

Bijna!

De $r=.806$ drukt het verband uit tussen de twee metingen van Mischief. Een gewone huis-, tuin-, en keukencorrelatie: voor elke deelnemer is er een datapunt uit elke meting. Oftewel: *.806^2=65\%* van de variantie in Mischief in de tweede meting is te voorspellen uit Mischief op de eerste meting. De deelnemers zijn redelijk stabiel dus.

De $r=.75$ heb je helemaal goed: die drukt het verband uit tussen de dichotome variabele Cloak/NoCloak en de intervalvariabele Mischief. Die is dus omgerekend uit een Cohen's $d$.
...