Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks

Goedemiddag, 

In de analysesectie van Verwerkingsopdracht 2.3.3 staat het volgende: 

De correlaties die (fors) hoger zijn dan ze op basis van het validatieonderzoek zouden moeten zijn kunnen indicatief zijn voor gecorreleerde meetfout: misschien dat mensen bijvoorbeeld niet goed lazen en op basis van gelijkenis bij die vragen dezelfde antwoorden hebben aangekruist. Dit schendt de aanname van de meeste meetmodellen dat de meetfouten onafhankelijk zijn. 

Tegelijkertijd is de bovengrens van de hoogste correlatie r.8, wat correspondeert met een proportie verklaarde variantie van r2=.82=.64=64%. De meeste meetfout is dus nog ongecorreleerd, dus dit risico lijkt mee te vallen.

Ik begrijp de conclusie hier niet... hoezo is de meeste meetfout ongecorreleerd? 

Groeten, Monique

in Cross-sectioneel Onderzoek (OCO, PB08x2) door (350 punten)

1 Antwoord

0 leuk 0 niet-leuks

Goede vraag!

De correlaties zouden rond de $r \approx .5$ moeten liggen. De bovengrens van de hoogste correlatie is $r \approx .8$. Dat is dus de meest extreme schattting; die correlatie zou evengoed $r \approx .73$ kunnen zijn. Kortom: door de bovengrens te pakken van het hoogste betrouwbaarheidsinterval redeneren we vanuit het 'worst case scenario'.

Zelfs in dat geval overlapt 'maar' $64\%$ van de variantie. Als de meetfout zou correleren, zou je verwachten dat 'in het ergste geval', en dat is dit, de proportie verklaarde variantie hoger zou liggen. Het kan zijn dat de meetfout correleert voor een aantal deelnemers, maar als dit veel een groot deel van de steekproef het geval zou zijn, dan zou een hoger percentage van de variantie overlappen.

In dit extreemste geval zou je, als je bereid bent om aan te nemen dat alle verhoging in de correlatie komt door gecorreleerde meetfout, en dus dat deze correlatie in de populatie $r=.5$ is, nog kunnen stellen dat er in dit item wel sprake is van gecorreleerde meetfout. Dan zou je stellen dat in de populatie de proportie verklaarde variantie gelijk is aan $25\%$, en dat het verschil met die $64\%$ dus helemaal komt door gecorreleerde meetfout (dus dan zou $64\% - 25\% = 39\%$ van de verklaarde variantie door die gecorreleerde meetfout komen). Omdat er maar $100\% - 64\% = 36\%$ van de variantie onverklaard is in deze items, zou je voor deze items kunnen stellen dat er wel forse gecorreleerde meetfout is.

Maar, dat vereist eerst de aannames 1) dat de populatiecorrelatie precies $r=.5$ is; 2) dat de bovengrens van dit hoogste betrouwbaarheidsinterval een goede schatting is van de "populatiecorrelatie+gecorreleerde meetfout", en 3) dat deze twee items wel gecorreleerde meetfout hebben, maar de andere items niet of veel minder.

Het is waarschijnlijker dat dit betrouwbaarheidsinterval toevallig hoog uitviel.

Net als dat puntschattingen op en neer springen van steekproef tot steekproef, doen betrouwbaarheidsintervallen dat immers ook. Als je genoeg betrouwbaarheidsintervallen uitrekent, zitten er altijd een paar bij die door toeval heel hoog of laag liggen. Ze liggen immers om de puntschattingen heen (zie PB0202, Onderzoekspracticum inleiding data-analyse / PB0212, Onderzoekspracticum inleiding onderzoek).

door (77.4k punten)
Dankjewel voor je uitgebreide reactie. Toch maak ik nog een denkfout blijkbaar, ik vind een aantal dingen verwarrend. Hoezo ga je door de bovengrens te pakken van het hoogste BI redeneren vanuit 'worst case scenario'? Hoe hoger de correlatie hoe beter toch?

En, hoezo is 64% verklaarde varantie 'maar' 64%, dat is toch juist veel?

Alvast bedankt, groeten Monique
Goede dat je vervolgvragen stelt!

Waarom is een hoge correlatie goed? Correlaties tussen items moeten niet zo hoog mogelijk zijn - correlaties tussen items moeten zijn zoals je zou verwachten op basis van het responsmodel van een meetinstrument. Stel dat je een meetinstrument hebt om de prestaties van het werkgeheugen te meten, en een item meet hoe effectief de opslag is, en een ander item meet hoe effectief het ophalen van informatie is. Samen beschrijven die de prestaties van het werkgeheugen, maar het kan zijn dat die ongeveer .5 horen te correleren. Als je dan opeens een correlatie van .8 vindt, dan kan dat indicatief zijn voor het niet goed werken van het meetinstrument.

De 'maar' bij de 64% gaat vooral om dat dit het 'worst case scenario' is; vandaar ook de aanhalingstekens. De zin erna legt dit uit: "Als de meetfout zou correleren, zou je verwachten dat 'in het ergste geval', en dat is dit, de proportie verklaarde variantie hoger zou liggen."

Gecorreleerde meetfout betekent in de praktijk dat mensen bijvoorbeeld twee items die op elkaar lijken en onder elkaar staan hetzelfde beantwoorden zonder goed te kijken. Daarvoor is de validiteit lager (die gecorreleerde meetfout manifesteert zich als bias, soort van het omgekeerde van validiteit). Maar als veel mensen dit doen, zit je proportie verklaarde variantie heel snel heel hoog; bij elke persoon die dat doet is de verklaarde variantie voor die twee items 100%, want hun score op het ene item is hun score op het andere item.
...