Validatie betreft wat meer dan vaststellen dat een meetinstrument ongeveer hetzelfde meet als een ander meetinstrument. Validatie is vaststellen of een meetinstrument meet wat het moet meten (of voor een manipulatie, vaststellen of het manipuleert wat het moet manipuleren). Validatie vereist eens serie aan studie, waaronder een of meerdere kwalitatieve studies zoals cognitieve interviews (om te bepalen of de vragenlijst goed wordt geïnterpreteerd door de doel-populatie) en interviewstudies (om te bepalen of de relevante aspecten van de menselijke psychologie met betrekking tot het relevante construct worden afgedekt door het meetinstrument), en een of meerdere kwantitatieve studies om in kaart te brengen of het meetinstrument niet te sterk overlapt met andere meetinstrumenten die een gerelateerd maar verschillend construct meten, en of het meetinstrument samenhangt met minder nauw gerelateerde constructen zoals je zou verwachten. Bovendien wordt soms onder validatie verstaan dat een grote groep deelnemers uit de algemene populatie wordt onderzocht zodat normtabellen kunnen worden opgesteld die het mogelijk maken om ruwe scores op het meetinstrument te vertalen naar een positie ten opzichte van de algemene bevolking (een z-score). Dit laatste is een belangrijke stap omdat hiermee eventuele zorgen over het meetniveau van het meetinstrument of de items kunnen worden weggenomen doordat de getransformeerde score zich gedraagt als een interval-variabele. Hoe dan ook: een instrument valideren kan niet in één studie, maar vereist een serie goed gecoordineerde onderzoeken.
Echter, bepalen of een verkorte versie van een meetinstrument nog hetzelfde meet als de lange versie is veel minder ambitieus doel, dat wel goed haalbaar is met één studie.
En het is heel eenvoudig: je hebt maar drie dingen nodig:
- De correlatie tussen beide meetinstrumenten
- De betrouwbaarheid van het lange meetinstrument (let op: coefficient Alpha (of "Cronbach's Alpha", maar omdat Cronbach zich schaamde dat Alpha zo misbruikt wordt en met hem werd geassocieerd, zou je het uit respect voor hem eigenlijk niet Cronbach's Alpha mogen noemen) is geen maat voor betrouwbaarheid! Zie http://ehps.net/ehp/index.php/contents/article/download/ehp.v16.i2.p56/1 en http://www.tandfonline.com/doi/pdf/10.1080/17437199.2015.1124240).
- De betrouwbaarheid van het korte meetinstrument
Let er op dat als je de betrouwbaarheid meet, dat je eigenlijk de test-hertest betrouwbaarheid nodig hebt (zie http://ehps.net/ehp/index.php/contents/article/download/ehp.v16.i2.p70/25).
Zowel de correlatie tussen de twee meetinstrumenten als de betrouwbaarheid van elk meetinstrument krijg je meestal uit een steekproef, en dat betekent dat de zogenaamde 'puntschattingen' (het getal dat je voor de correlatie krijgt, bijvoorbeeld) niet informatief is: je hebt betrouwbaarheidsintervallen nodig. Voor de correlatie kun je die berekenen in SPSS door aan te geven dat je wil bootstrappen. Voor de betrouwbaarheid hangt het er vanaf of je inderdaad test-hertest betrouwbaarheid hebt, of dat je de betrouwbaarheid op basis van een enkele testafname moet schatten. In dat eerste geval ken ik geen methoden om betrouwbaarheidsintervallen te berekenen, dus dan zul je het moeten doen met de puntschatting. In het tweede geval wordt het betrouwbaarheidsinterval gegeven door de R functie scaleStructure (zie weer die artikelen waar ik naar link; ik adviseer Omega te gebruiken).
Dan heb je dus of alleen een betrouwbaarheidsinterval voor de correlatie en twee puntschattingen voor de test-hertest betrouwbaarheid, of drie betrouwbaarheidsintervallen: de eerste voor de correlatie, met de meest plausibele waarden voor de correlatie tussen beide meetinstrumenten in de populatie, en de andere twee voor de meest plausibele waarden voor de betrouwbaarheid.
Vervolgens ga je de correlatie tussen de twee meetinstrumenten corrigeren voor de onbetrouwbaarheid van elk meetinstrument. De uitkomst kwadrateer je, en dan weet je in hoeverre de meetinstrumenten hetzelfde meten. Deze procedure herhaal je twee keer: een keer met de ondergrens voor de betrouwbaarheidsintervallen, om de meest conservatieve schatting te krijgen, en een keer met de bovengrens, om de meest liberale schatting te krijgen.
De correctie voor onbetrouwbaarheid is eenvoudig:
$$ \text{gecorrigeerde } r_{xy} = \frac{r_{xy}}{\sqrt{\omega_x \omega_y}} $$
($\omega$ staat hier voor Omega, de betrouwbaarheid van elk meetinstrument)
Oftewel, in woorden: je neemt de correlatie tussen beide meetinstrumenten en deelt die door het zogenaamde 'geometrisch gemiddelde' van beide betrouwbaarheden, oftewel, door de wortel van het product van beide betrouwbaarheden. Dit doe je dus één keer met de ondergrens van de betrouwbaarheidsintervallen, en één keer met de bovengrens.
De resulterende gecorrigeerde correlaties kwadrateer je om de proportie verklaarde variantie te krijgen. De beide proporties verklaarde variantie die je vindt geven een indicatie van de mate waarin beide meetinstrumenten hetzelfde meten. Dit zegt dus nog niets over validiteit: het oorspronkelijke meetinstrument hoeft immers niet valide te zijn. Maar, als de hoogste proportie verklaarde variantie (bijna) 1 is, dan is het op basis van jouw steekproef goed mogelijk dat ze precies hetzelfde meten. Als de laagste proportie verklaarde variantie hoog genoeg is, kun je zelfs concluderen dat de meetinstrumenten praktisch hetzelfde meten. Als de laagste proportie verklaarde variantie laag is, bijvoorbeeld .5, dan is het op basis van je steekproef evengoed mogelijk dat de meetinstrumenten slechts voor 50% hetzelfde meten. De vraag is dan welke helft ontbreekt: je weet in dit geval dat zelfs als het oorspronkelijke meetinstrument valide is, de verkorte versie beduidend minder valide is. Het is immers goed mogelijk dat het verkorte instrument slechts de helft van het construct meet.
Het is dus belangrijk om nauw betrouwbaarheidsintervallen te hebben, zodat de beide proporties verklaarde variantie dicht bij elkaar in de buurt liggen. Als je uiteindelijke schatting voor de proportie verklaarde variantie heel inaccuraat is (dus, als je brede betrouwbaarheidsintervallen hebt), dan kun je niets leren uit je studie. Om de benodigde nauwe betrouwbaarheidsintervallen te verkrijgen heb je voldoende deelnemers nodig: de standaardfouten van betrouwbaarheidsindices (zoals coefficient Alpha, Omega, of de test-hertest Alpha) en van de correlatie tussen beide meetinstrumenten wordt immers lager naarmate de steekproef meer deelnemers bevat. En die lagere standaardfout resulteert in nauwere betrouwbaarheidsintervallen.
De steekproefomvang die je nodig hebt kun je bijvoorbeeld bepalen met de tabellen in Moinester & Gottfried (2014). Als we bijvoorbeeld uitgaan van een betrouwbaarheid van elk meetinstrument van .8, en als we er vanuitgaan dat beide meetinstrumenten hetzelfde meten (dan is de proportie verklaarde variantie dus gelijk aan 1, dus de gecorrigeerde correlatie ook), dan komt de correlatie die je vindt in je steekproef uit een steekproevenverdeling die is gecentreerd rond de $r_{xy}$ in deze formule:
$$ \text{gecorrigeerde } r_{xy} = 1 = \frac{r_{xy}}{\sqrt{.8 \times .8}} = \frac{r_{xy}}{.8}$$
Dit betekent dat:
$$r_{xy} = 1 \times .8 = .8 $$
Je kunt dan dus een correlatie verwachten rond de .8. Tabel 1 in Moinester & Gottfried (2014) laat zien dat je voor een betrouwbaarheidsinterval van .10 breed dan 205 deelnemers nodig hebt.
Natuurlijk kan het zijn dat een lagere inschatting voor de betrouwbaarheid van elk meetinstrument realistischer is. Bovendien moet je nog rekening houden met de betrouwbaarheidsintervallen om de betrouwbaarheidsschattingen heen. Ik weet niet precies hoe je die kunt uitrekenen, en ik heb hier al een hoop uitgelegd wat je begeleider je eigenlijk uit moet leggen, dus dat moeten jullie samen even uitzoeken; boeken over testtheorie (die je sowieso door moet nemen wil je dit soort studies doen) bevatten hier ongetwijfeld informatie over.
Maar dit is dus hoe je te werk gaat: je gebruikt de attenuatieformule, houdt er rekening mee dat je schattingen uit je steekproef variabel zijn over steekproeven heen en dat je dus betrouwbaarheidsintervallen moet gebruiken, en daarmee kun je van te voren bepalen hoeveel deelnemers je nodig hebt om uiteindelijk te kunnen concluderen dat de meetinstrumenten hetzelfde meten (als ze dat in het echt ook doen natuurlijk - en anders wil je natuurlijk concluderen dat ze niet hetzelfde meten - stel je voor hoe schadelijk het zou zijn als je een meetinstrument de wereld instuurt dat niet meet wat het pretendeert te meten . . .).
Ik heb toch nog even doorgezocht, omdat het toch wel belangrijk is om goede schattingen te maken. Terry & Kelley leggen uit hoe je kunt bepalen hoeveel deelnemers je nodig hebt om een betrouwbaarheidsinterval van een gegeven breedte te verkrijgen voor een betrouwbaarheidsindex (specifiek Omega). Hiervoor moet je inschatten hoe sterk de items van elk meetinstrument met elkaar samenhangen (de covariantiematrix van die items). Deze schattingen zijn waarschijnlijk beschikbaar, aangenomen dat je begeleider de de oorspronkelijke vragenlijst al eens heeft afgenomen.
Trouwens, aangenomen dat de verkorte vragenlijst alleen bestaat uit een selectie van items van de oorspronkelijke vragenlijst, dan kun je al een goede indruk krijgen van de mate waarin de beide meetinstrumenten hetzelfde meten door bovenstaande berekeningen los te laten op data die al zijn verzameld met dat oorspronkelijke meetinstrument.
Referenties
Terry, L., & Kelley, K. (2012). Sample size planning for composite reliability coefficients: Accuracy in parameter estimation via narrow confidence intervals. British Journal of Mathematical and Statistical Psychology, 65(3), 371-401.
Moinester, M., & Gottfried, R. (2014). Sample size estimation for correlations with pre-specified confidence interval. The Quantitative Methods of Psychology, 10(2), 124–130.