Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Hallo,

hoe pak ik een validatiestudie aan? De bedoeling is om de validiteit van een verkorte vragenlijst, ten opzichte van de volledige vragenlijst te onderzoeken. Ofwel..om te onderzoeken of de verkorte vragenlijst een goede weerspegeling is van het origineel.

Met vriendelijke groet,

Silvie
in Methodologie door (250 punten)

2 Antwoorden

0 leuk 0 niet-leuks

Validatie betreft wat meer dan vaststellen dat een meetinstrument ongeveer hetzelfde meet als een ander meetinstrument. Validatie is vaststellen of een meetinstrument meet wat het moet meten (of voor een manipulatie, vaststellen of het manipuleert wat het moet manipuleren). Validatie vereist eens serie aan studie, waaronder een of meerdere kwalitatieve studies zoals cognitieve interviews (om te bepalen of de vragenlijst goed wordt geïnterpreteerd door de doel-populatie) en interviewstudies (om te bepalen of de relevante aspecten van de menselijke psychologie met betrekking tot het relevante construct worden afgedekt door het meetinstrument), en een of meerdere kwantitatieve studies om in kaart te brengen of het meetinstrument niet te sterk overlapt met andere meetinstrumenten die een gerelateerd maar verschillend construct meten, en of het meetinstrument samenhangt met minder nauw gerelateerde constructen zoals je zou verwachten. Bovendien wordt soms onder validatie verstaan dat een grote groep deelnemers uit de algemene populatie wordt onderzocht zodat normtabellen kunnen worden opgesteld die het mogelijk maken om ruwe scores op het meetinstrument te vertalen naar een positie ten opzichte van de algemene bevolking (een z-score). Dit laatste is een belangrijke stap omdat hiermee eventuele zorgen over het meetniveau van het meetinstrument of de items kunnen worden weggenomen doordat de getransformeerde score zich gedraagt als een interval-variabele. Hoe dan ook: een instrument valideren kan niet in één studie, maar vereist een serie goed gecoordineerde onderzoeken.

Echter, bepalen of een verkorte versie van een meetinstrument nog hetzelfde meet als de lange versie is veel minder ambitieus doel, dat wel goed haalbaar is met één studie.

En het is heel eenvoudig: je hebt maar drie dingen nodig:

  1. De correlatie tussen beide meetinstrumenten
  2. De betrouwbaarheid van het lange meetinstrument (let op: coefficient Alpha (of "Cronbach's Alpha", maar omdat Cronbach zich schaamde dat Alpha zo misbruikt wordt en met hem werd geassocieerd, zou je het uit respect voor hem eigenlijk niet Cronbach's Alpha mogen noemen) is geen maat voor betrouwbaarheid! Zie http://ehps.net/ehp/index.php/contents/article/download/ehp.v16.i2.p56/1 en http://www.tandfonline.com/doi/pdf/10.1080/17437199.2015.1124240).
  3. De betrouwbaarheid van het korte meetinstrument

Let er op dat als je de betrouwbaarheid meet, dat je eigenlijk de test-hertest betrouwbaarheid nodig hebt (zie http://ehps.net/ehp/index.php/contents/article/download/ehp.v16.i2.p70/25).

Zowel de correlatie tussen de twee meetinstrumenten als de betrouwbaarheid van elk meetinstrument krijg je meestal uit een steekproef, en dat betekent dat de zogenaamde 'puntschattingen' (het getal dat je voor de correlatie krijgt, bijvoorbeeld) niet informatief is: je hebt betrouwbaarheidsintervallen nodig. Voor de correlatie kun je die berekenen in SPSS door aan te geven dat je wil bootstrappen. Voor de betrouwbaarheid hangt het er vanaf of je inderdaad test-hertest betrouwbaarheid hebt, of dat je de betrouwbaarheid op basis van een enkele testafname moet schatten. In dat eerste geval ken ik geen methoden om betrouwbaarheidsintervallen te berekenen, dus dan zul je het moeten doen met de puntschatting. In het tweede geval wordt het betrouwbaarheidsinterval gegeven door de R functie scaleStructure (zie weer die artikelen waar ik naar link; ik adviseer Omega te gebruiken).

Dan heb je dus of alleen een betrouwbaarheidsinterval voor de correlatie en twee puntschattingen voor de test-hertest betrouwbaarheid, of drie betrouwbaarheidsintervallen: de eerste voor de correlatie, met de meest plausibele waarden voor de correlatie tussen beide meetinstrumenten in de populatie, en de andere twee voor de meest plausibele waarden voor de betrouwbaarheid.

Vervolgens ga je de correlatie tussen de twee meetinstrumenten corrigeren voor de onbetrouwbaarheid van elk meetinstrument. De uitkomst kwadrateer je, en dan weet je in hoeverre de meetinstrumenten hetzelfde meten. Deze procedure herhaal je twee keer: een keer met de ondergrens voor de betrouwbaarheidsintervallen, om de meest conservatieve schatting te krijgen, en een keer met de bovengrens, om de meest liberale schatting te krijgen.

De correctie voor onbetrouwbaarheid is eenvoudig:

$$ \text{gecorrigeerde } r_{xy} = \frac{r_{xy}}{\sqrt{\omega_x \omega_y}} $$

($\omega$ staat hier voor Omega, de betrouwbaarheid van elk meetinstrument)

Oftewel, in woorden: je neemt de correlatie tussen beide meetinstrumenten en deelt die door het zogenaamde 'geometrisch gemiddelde' van beide betrouwbaarheden, oftewel, door de wortel van het product van beide betrouwbaarheden. Dit doe je dus één keer met de ondergrens van de betrouwbaarheidsintervallen, en één keer met de bovengrens.

De resulterende gecorrigeerde correlaties kwadrateer je om de proportie verklaarde variantie te krijgen. De beide proporties verklaarde variantie die je vindt geven een indicatie van de mate waarin beide meetinstrumenten hetzelfde meten. Dit zegt dus nog niets over validiteit: het oorspronkelijke meetinstrument hoeft immers niet valide te zijn. Maar, als de hoogste proportie verklaarde variantie (bijna) 1 is, dan is het op basis van jouw steekproef goed mogelijk dat ze precies hetzelfde meten. Als de laagste proportie verklaarde variantie hoog genoeg is, kun je zelfs concluderen dat de meetinstrumenten praktisch hetzelfde meten. Als de laagste proportie verklaarde variantie laag is, bijvoorbeeld .5, dan is het op basis van je steekproef evengoed mogelijk dat de meetinstrumenten slechts voor 50% hetzelfde meten. De vraag is dan welke helft ontbreekt: je weet in dit geval dat zelfs als het oorspronkelijke meetinstrument valide is, de verkorte versie beduidend minder valide is. Het is immers goed mogelijk dat het verkorte instrument slechts de helft van het construct meet.

Het is dus belangrijk om nauw betrouwbaarheidsintervallen te hebben, zodat de beide proporties verklaarde variantie dicht bij elkaar in de buurt liggen. Als je uiteindelijke schatting voor de proportie verklaarde variantie heel inaccuraat is (dus, als je brede betrouwbaarheidsintervallen hebt), dan kun je niets leren uit je studie. Om de benodigde nauwe betrouwbaarheidsintervallen te verkrijgen heb je voldoende deelnemers nodig: de standaardfouten van betrouwbaarheidsindices (zoals coefficient Alpha, Omega, of de test-hertest Alpha) en van de correlatie tussen beide meetinstrumenten wordt immers lager naarmate de steekproef meer deelnemers bevat. En die lagere standaardfout resulteert in nauwere betrouwbaarheidsintervallen.

De steekproefomvang die je nodig hebt kun je bijvoorbeeld bepalen met de tabellen in Moinester & Gottfried (2014). Als we bijvoorbeeld uitgaan van een betrouwbaarheid van elk meetinstrument van .8, en als we er vanuitgaan dat beide meetinstrumenten hetzelfde meten (dan is de proportie verklaarde variantie dus gelijk aan 1, dus de gecorrigeerde correlatie ook), dan komt de correlatie die je vindt in je steekproef uit een steekproevenverdeling die is gecentreerd rond de $r_{xy}$ in deze formule:

$$ \text{gecorrigeerde } r_{xy} = 1 = \frac{r_{xy}}{\sqrt{.8 \times .8}} = \frac{r_{xy}}{.8}$$

Dit betekent dat:

$$r_{xy} = 1 \times .8 = .8 $$

Je kunt dan dus een correlatie verwachten rond de .8. Tabel 1 in Moinester & Gottfried (2014) laat zien dat je voor een betrouwbaarheidsinterval van .10 breed dan 205 deelnemers nodig hebt.

Natuurlijk kan het zijn dat een lagere inschatting voor de betrouwbaarheid van elk meetinstrument realistischer is. Bovendien moet je nog rekening houden met de betrouwbaarheidsintervallen om de betrouwbaarheidsschattingen heen. Ik weet niet precies hoe je die kunt uitrekenen, en ik heb hier al een hoop uitgelegd wat je begeleider je eigenlijk uit moet leggen, dus dat moeten jullie samen even uitzoeken; boeken over testtheorie (die je sowieso door moet nemen wil je dit soort studies doen) bevatten hier ongetwijfeld informatie over.

Maar dit is dus hoe je te werk gaat: je gebruikt de attenuatieformule, houdt er rekening mee dat je schattingen uit je steekproef variabel zijn over steekproeven heen en dat je dus betrouwbaarheidsintervallen moet gebruiken, en daarmee kun je van te voren bepalen hoeveel deelnemers je nodig hebt om uiteindelijk te kunnen concluderen dat de meetinstrumenten hetzelfde meten (als ze dat in het echt ook doen natuurlijk - en anders wil je natuurlijk concluderen dat ze niet hetzelfde meten - stel je voor hoe schadelijk het zou zijn als je een meetinstrument de wereld instuurt dat niet meet wat het pretendeert te meten . . .).

Ik heb toch nog even doorgezocht, omdat het toch wel belangrijk is om goede schattingen te maken. Terry & Kelley leggen uit hoe je kunt bepalen hoeveel deelnemers je nodig hebt om een betrouwbaarheidsinterval van een gegeven breedte te verkrijgen voor een betrouwbaarheidsindex (specifiek Omega). Hiervoor moet je inschatten hoe sterk de items van elk meetinstrument met elkaar samenhangen (de covariantiematrix van die items). Deze schattingen zijn waarschijnlijk beschikbaar, aangenomen dat je begeleider de de oorspronkelijke vragenlijst al eens heeft afgenomen.

Trouwens, aangenomen dat de verkorte vragenlijst alleen bestaat uit een selectie van items van de oorspronkelijke vragenlijst, dan kun je al een goede indruk krijgen van de mate waarin de beide meetinstrumenten hetzelfde meten door bovenstaande berekeningen los te laten op data die al zijn verzameld met dat oorspronkelijke meetinstrument.

Referenties

Terry, L., & Kelley, K. (2012). Sample size planning for composite reliability coefficients: Accuracy in parameter estimation via narrow confidence intervals. British Journal of Mathematical and Statistical Psychology, 65(3), 371-401.

Moinester, M., & Gottfried, R. (2014). Sample size estimation for correlations with pre-specified confidence interval. The Quantitative Methods of Psychology, 10(2), 124–130.

door (77.8k punten)
bewerkt door
0 leuk 0 niet-leuks

Om toe te voegen aan het antwoord van GJ. Ik heb zelf een aantal validatiestudies gepubliceerd en kan uit die ervaring het volgende mededelen:

Allereerst: als de verkorte vragenlijst al bestaat limiteert dat de wijze waarop je gaat werken: er is slechts nog te toetsen. Als deze nog niet bestaat dan is de eerste stap om de originele vragenlijstvalidatiedata op te zoeken, en een verkorting maken op basis van de factorladingen.

  • doe een PAF (exploratieve factoranalyse met liefst oblique rotatie) of doe een confirmatorische factoranalyse, en selecteer de 'beste' items, dus bijvoorbeeld alle items met een factorlading boven .7, of een vast aantal items (bijv. twee uit iedere schaal) met de hoogste factorladingen in die schaal. Deze verkorting is dan uit statistische krachtig materiaal gebouwd, en mits ze ook face valide zijn(!) kun je gewoon data verzamelen (let echter op punt b hieronder) en je analyses naar keuze uitvoeren zonder teveel vrees.

a) het is van groot belang om allereerst vast te stellen wat het doel van de vragenlijst zal zijn. Een diagnostische vragenlijst zal waarschijnlijk op een gegeven moment in de toetsbank van de COTAN terecht willen komen (http://www.cotandocumentatie.nl/) en dan zijn de testbeoordelingen van de COTAN eigenlijk je startpunt: alle eisen zijn dan een checklist.

b) welk lijstje je ook zult volgen, je zult veel respondenten nodig hebben. Hoeveel is onderwerp van debat, maar sommige vragenlijstvalidiaties worden afgewezen door reviewers omdat ze minder dan 2000 respondenten hadden. De truc hier is om te kijken wat 'normaal' is bij gepubliceerde vragenlijsten voor dezelfde doelgroep. Als de vragenlijst afgenomen wordt onder mensen met een zeldzame ziekte, dan snapt het veld ook wel dat duizenden respondenten niet realistisch is. 

c) welke soorten validiteit en betrouwbaarheid zijn noodzakelijk voor je doel, beschreven onder a? 

Dit laatste zal een afweging zijn die verder gaat dan checklists. Men kan eindeloos analyseren, maar je zult vaak selectief moeten zijn in wat je allemaal op de vragenlijst afgooit. Enkele overwegingen en invalshoeken:

Constructvaliditeit

validiteit is eigenlijk nooit met statistiek te 'toetsen', er is enkel de mogelijkheid om statistiek als een opstapeling van bewijs voor validiteit te zien.  Manieren om constructvaliditeit te evalueren:

  • de vragenlijst (verkort en onverkort) lijken sterk op een bestaande al goed geaccepteerde vragenlijst. Dan is het handig om beide vragenlijsten af te nemen en de subschalen te vergelijken middels een 'multitrait-multimethod' benadering. Dit is een heel duur woord voor: zet ze in een correlatietabel tegen elkaar uit (http://www.socialresearchmethods.net/kb/mtmmmat.php)
  • De vrees is dat de inkorting de interpretatie van de vragenlijst, of het antwoordpatroon in het algemeen kan beinvloeden. Dan is het van groot belang om exploratieve of confirmatieve factoranalyse uit te voeren.
  • De vragenlijst heeft uiteindelijk tot doel om verschillende populaties te vergelijken (bijvoorbeeld verschillen man-vrouw, of klinisch versus niet-klinische populatie, verschillende onderwijsniveau's, etc.). In dit geval is het van groot belang om in het onderzoek een sensitiviteitsanalyse uit te voeren (in sociale wetenschappen en factoranalyse beter bekend als 'meetinvariantie toetsen' (eng. measurement invariance). Als twee groepen vergeleken worden is het namelijk van uiterst groot belang dat de vragenlijst daartoe in staat is en dat niet stiekem de vragenlijst door de populaties heel anders wordt ingevuld en geinterpreteerd. 

Robuustheid van de vragenlijst

Je valideert je vragenlijst, rapporteert netjes je cronbach's alpha (sorry GJ; ik bedoel omega). Een maand later krijg je paniek in je emailbox, want andere namen je vragenlijst af en konden jouw betrouwbaarheidsmaten niet repliceren, en kwamen niet op dezelfde factorstructuur.

Als dit een reele angst is zijn er twee opties: de analyse op de validatiedata vergelijken met validatiedata uit een andere studie, en duimen dat hier hetzelfde uit komt. Optie 2: als er maar 1 dataset voorhanden is, deze eerst random in 2 of meer stukken verdelen, en op ieder deel los de validatieanalyses uitvoeren, en dan duimen dat ieder deel je tot hetzelfde antwoord bracht. Deze procedure heet 'cross-validation'. 

Dit is geen noodzakelijke stap, maar zou wel toevoegen aan de kracht van je bewijs, en het risico verkleinen dat men steeds tot andere resultaten komt per nieuwe dataverzameling.

Diagnostiek - item response theory

De vragenlijst is niet slechts een vragenlijst, maar eigenlijk een diagnositische toets, zoals een examen, of een klinisch meetinstrument. Dan moet de hele benadering op zijn kop:

Neem eerst de grote vragenlijst af, of pak een dataset waar op heel veel respondenten de grote vragenlijst is afgenomen. Middels een IRT-benadering (https://en.wikipedia.org/wiki/Item_response_theory) kan dan per vraag worden vastgesteld (a) voor welk 'niveau' van wat er gemeten wordt de vraag informatief is; en (b) hoe scherp de vraag onderscheid maakt op dat niveau. Denk bijvoorbeeld aan tentamenvragen die eigenlijk alleen door mensen goed gemaakt wordt die rond de 8 zitten in vaardigheid, en dat mensen die onvoldoende geleerd hebben (en een 5 of lager zullen halen) de vraag eigenlijk nooit goed hebben).

Per item is dan informatie die gebruikt kan worden om de verkorting te onderbouwen, en zeer specifiek te maken zodat die fijngeslepen is om optimaal te selecteren op het gewenste cutoff point. Shell selecteert bijvoorbeeld enkel de 'beste' potentiele managers en wil dan liever een toets met allemaal hele moeilijke vragen voor de algemene populatie, terwijl een tentamen van de OU liever hele scherpe vragen rond het middelpunt wil hebben om scherp voldoende en onvoldoende te kunnen scheiden, met voldoende makkelijke en moeilijke vragen om de bodem het en plafond goed te identificeren.

door (63.5k punten)
bewerkt door
...