Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Stel we nemen een bestaand meetinstrument, bestaand uit 20 vragen.. met vier subschalen (A, B, C en D) van ieder 5 vragen. Dat meetinstrument is in bestaand onderzoek uitgebreid geverifieerd, en de validiteit is vastgesteld.

Nu heb ik een sample, waarbij dit meetinstrument is ingezet, en een factoranalyse wijst uit dat de indeling van de subschalen in de gebruikte sample niet volledig tot uiting komt.  Subschalen A en D zijn goed te herkennen, maar de items van B en C geven geen eenduidig beeld. In schaal B blijft eén enkel item over met een hele hoge factorlading, en de overige vragen van B en C zijn niet eenduidig aan een van de schalen toe te wijzen.

Hoe maak je nu de afweging over de inzet van het meetinstrument? Ik ben geneigd om de validiteit te ontlenen aan eerder onderzoek, en de afwijkingen die ik vind toe te schrijven aan zaken als sample-grootte. Argumenten om "mijn" sample tot waarheid te verheffen.. en de indeling van een bestaand (en valide!) meetinstrument daarop aan te passen lijkt me geen goed idee.

Maar hoe ga je als onderzoeker/wetenschapper nou om met dit dilemma?
in Cross-sectioneel Onderzoek (OCO, PB08x2) door (160 punten)

1 Antwoord

1 leuk 0 niet-leuks

Wat betekent "uitgebreid gevalideerd, en validiteit vastgesteld"? (zie e.g. Maul, 2017 en Hussey & Hughes, 2020).

En - als je stelt dat er geen eenduidig beeld naar voren komt, houd je dan rekening met het feit dat puntschattingen van factorladingen niet informatief zijn?

Net zoals alle andere dingen die je berekent uit een steekproef, komen factorladingen uit een steekproevenverdeling, en zit er dus inaccuraatheid in, als in, als je de steekproef zou herhalen, zou je andere puntschattingen vinden. Daarom is het belangrijk om naar betrouwbaarheidsintervallen te kijken. Dit kan bijvoorbeeld via bootstrapping (zie e.g. deze uitleg hier).

Het is goed mogelijk dat de resultaten gewoon consistent met elkaar zijn, als je rekening houdt met de onzekerheid in je schattingen.

Verder is het zo dat validiteit geen kenmerk is van een meetinstrument,  maar van toepassing van een meetinstrument in een populatie. Als ik een Nederlandse vragenlijst afneem in Korea is die niet valide, los van hoe die vragenlijst presteert in Nederland. Zie voor meer informatie Crutzen & Peters (2015).

Je kunt dus wel concluderen dat de schaal niet presteerde zoals ontworpen in jouw steekproef. Dat impliceert dat je meetmodel geen stand houdt en je die resultaten dus niet zomaar kunt gebruiken. Je weet immers niet waar die geaggregeerde scores dan over gaan.

Ik ben zelf heel sceptisch over de 'sacrosanct' status van 'gevalideerde instrumenten' - in mijn ervaring houdt 'validatie' niet veel in, behalve wat schatters van interne consistentie berekenen, een factor-analyse doen, wat correlaties, en als je geluk hebt een normtabel produceren (die nog het nuttigst is maar geen evidentie voor validiteit is).

Ik denk dat dat stellen dat je kennelijk niet precies meet waar het instrument voor is ontworpen niet erg is; je kunt de items bekijken en kijken of er andere zinvolle aggregaties zijn. Als je je data en analysescripts maar openbaar maakt, kan iedereen precies zien wat je doet en alternatieve analyses uitvoeren als ze denken dat je iets fout deed.

Uiteindelijk zijn alle wetenschappelijke beslissingen subjectief; dat geldt evenzeer voor kwantitatief onderzoek als voor kwalitatief onderzoek. Zo lang je dus je beslissingen en onderbouwingen transparant rapporteert, ben je integer bezig.

door (77.8k punten)
Wat een geweldig antwoord. Dit maakt mijn analyse niet persé eenvoudiger, maar wél meteen een stuk spannender c.q. interessanter!

Om toe te voegen aan het sterke antwoord van gjp: er zijn veel redenen waardoor vragenlijsten die altijd een bepaalde factorstructuur vertonen dit ineens niet doen. Nog los van de kwaliteit van de data (steekproef, etc.) zijn er ook structurele zaken van invloed. Een populatie kan een vragenlijst bijvoorbeeld anders interpreteren (zie bijvoorbeeld de vele artikelen van Gavin Brown en zijn Conceptions of Assessment vragenlijst), of sommige items hebben een item-bias in een bepaalde populatie. Zie bijvoorbeeld 

Van de Vijver, F. J., & Poortinga, Y. H. (1997). Towards an integrated analysis of bias in cross-cultural assessment. European journal of psychological assessment13(1), 29-37.

Ook kan er sprake zijn van afwezigheid van wat men meetinvariantie noemt, en waar deze zit kan een grote impact hebben op de vergelijkingen die met de vragenlijst gemaakt kan worden. Zie een voorbeeld van een toepassing hiervan in:

Pat-El, R. J., Tillema, H., Segers, M., & Vedder, P. (2013). Validation of Assessment for Learning Questionnaires for teachers and students. The British Journal of Educational Psychology, 83, 98–113. https://doi.org/10.1111/j.2044-8279.2011.02057.x

Of voor een algemenere (en niet wiskundige) bespreking hiervan:

Gregorich, S. E. (2006). Do self-report instruments allow meaningful comparisons across diverse population groups? Medical Care, 44, S78–S94.

Dus: verschilen vinden in het functioneren van een vragenlijst kan ook theoretisch zeer waardevol zijn.

...