Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

vuistregel missing values

0 leuk 0 niet-leuks

Beste,

Ik ben bezig met de constructie van mijn schalen. Op een aantal items heb ik missing values. Voor de meeste van mijn schalen zijn dit er zo weinig dat ik ze niet hoef mee te nemen in mijn onderzoek.

Bij één schaal, de Caregiver Strain Index, heb ik echter vrij veel missing values. Ik weet dat het de vuistregel is de respondent mee te nemen in het onderzoek als hij/zij 80% van de items heeft ingevuld. Voor deze schaal vind ik echter geen duidelijke regels terug in eerder onderzoek. De reden hiervoor is dat het meetinstrument vaak mondeling wordt afgenomen en er dan geen missing values zijn.

In één studie (Al-Janabi, 2010) wordt beschreven dat er, indien er slechts 1 of 2 missing values zijn, een gemiddelde wordt berekend dat deze waarden kan vervangen.Het gaat echter om een dichotome schaal (ja - nee). Volgens mij betekent dit dat respondenten die in de meeste gevallen 'ja' antwoorden (+50%) een ja op dit item krijgen en omgekeerd.

Is dit een gevalideerde werkwijze? Hiermee bedoel ik:

  • Is het goed de proefpersoon mee te nemen vanaf 11 (van de 13) ingevulde items?
  • Raadt u me aan de missing values te vervangen door ja of nee (aan de hand van de andere antwoorden)?

Heel veel dank en hartelijke groeten

Sofie Horemans

gevraagd 6 november in Methodologie door Sofie (720 punten)

1 Antwoord

1 leuk 0 niet-leuks
 
Beste antwoord

Er zijn geen echt zinvolle vuistregels over dit soort missings helaas. Er zijn verschillende 'dingen die men doet', maar waarom men dat doet is vooral traditie (https://www.youtube.com/watch?v=sWSoYCetG6A) 

Ik zou eerst bepalen: uit hoeveel items bestaat de schaal? Als het een grote schaal is, dan kun je meestal wel de vuistregel gebruiken: de helft plus 1 items moet ingevuld zijn voordat er een gemiddelde berekend wordt. 

Als de schaal klein is, dan zou ik een strenger criterium gebruiken, bijvoorbeeld een criterium dat garandeert dat er niet minder dan vier items gebruikt worden bij het berekenen van een gemiddelde.

Ik zou nog niet op item-niveau aan missing value imputation doen. Als de schaal uit 13 items bestaat, dan is slechts 2 missings accepteren streng, maar niet ongewoon. Mijn stappenplan zou zijn:

  • missing patronen bekijken:
    • zijn er items die vooral vatbaar blijken voor 'missings'. Zo ja, dan is er waarschijnlijk structureel iets mis met die items. Als die items inderdaad 'vreemd' zijn (onduidelijk verwoord, controversieel, etc.) dan kunnen beter die items verwijderd worden.
    • Zijn de missings vrijwel allen aan het einde van de vragenlijst/schaal? Wellicht dat mensen structurele problemen hadden met het meetinstrument (te lang, te saai, te onduidelijk, te veel moeite) en er de brui aan gegeven hebben. In dat geval moet de hele vragenlijst nog eens heel grondig bekeken worden, en is er geen simpele oplossing meer
    • Zijn missings random (bijv. < 5%? Dan volgende stappen
  • Met hoeveel vragen is voor je gevoel het construct goed gedekt? Als alle vragen inwisselbaar zijn, omdat het bijna perfecte synoniemen zijn, dan kun je best wat vragen missen zonder informatieverlies. Als iedere vraag een apart facet van een construct betreft, dan kun je weinig items missen, omdat ieder item veel informatieverlies betekent. 
    • Weinig infoverlies: houd ongeveer de helft + 1 aan, dus bij 13 items 8 items ingevulde items minimaal nodig.
    • Veel infoverlies; 80% tot 100% ingevuld, afhankelijk van de mate van infoverlies, en de steekproefgrootte
  • Eventueel een missing value analyse op de schaalgemiddelden. Eventueel gevolgd door een imputatietechniek, zoals EM (Expectation Maximisation), zie bijvoorbeeld: 

Musil, C. M., Warner, C. B., Yobas, P. K., & Jones, S. L. (2002). A comparison of imputation techniques for handling missing data. Western Journal of Nursing Research, 24(7), 815–829. doi: 10.1177/019394502762477004

beantwoord 6 november door Ron Pat-El (40,900 punten)
geselecteerd 8 november door gjp
Beste Ron,

Heel erg bedankt voor uw uitgebreide duidelijke antwoord. Gezien de missing values random verdeeld zijn en ik over een grote steekproef beschik, ga ik voor het strengere criterium kiezen.

De items op deze schaal zijn zeer eenvoudig geformuleerd. Alle vragen gaan over belasting en gezien ik enkel hypotheses heb geformuleerd over de totale belasting (en niet de subschalen) zijn de subschalen minder relevant voor mijn onderzoek.

Met 80% houd ik immers nog 347 respondenten over wat nog ruim voldoende is.

Hartelijke groeten en nogmaals veel dank!

Sofie Horemans
Heel belangrijk: elke imputatie betekent dat je een onderschatting krijgt van de errorvariantie van de schaal.

En het 'negeren' van missings, dus bijvoorbeeld het gemiddelde berekenen met 9 items in plaats van 10, als er een missing is, is gelijk aan het imputeren van die missing met het gemiddelde dat die persoon op die andere 9 items scoort.

Dus als je op die manier imputeert (i.e. een gemiddelde berekent als er een of meer missing values zijn), zou je eigenlijk ook wat random error moeten toevoegen.

En, wellicht ten overvloedde - als je imputeert, pas op dat je dan de gemiddelden vervangt door de gemiddelden van die persoon op andere items, niet door het gemiddelde van de populatie. Iemand met missing values hoeft niet per se een gemiddeld persoon te zijn tenslotte. Als je wel met populatiewaarden imputeert bias je je schattingen en verlaag je niet alleen de errorvariantie, maar ook de 'true' variantie.

Precies, vandaar mijn advies om EM toe te passen; deze reduceert error niet tot vrijwel niet.

Bij toegang tot R zou ik de voorkeur geven aan Predictive Mean Matching (PMM), maar meestal stel ik R voor omdat ik ervan uitga dat mensen nu nog SPSS gebruiken.

Eigenlijk is de regel nooit een gemiddelde, of een regressiescore (voorspelde Y) invullen. Dat is type 1 fout uitnodigen, en iedereen weet dat die al je drank opdrinkt, je gasten lastigvalt, en in een dronken stupor op je bank blijft slapen tot laat volgende middag.

Beste Ron en Gjalt-Jorn,

Het gaat in dit geval om een ja-nee schaal. Een gemiddelde berekenen, lijkt me in dit geval moeilijk. Ik vermoed dan ook dat hier voor de missing values in een eerdere studie van Al-Janabi van 2010 de waarde werd genomen die het meest voorkomt voor deze respondent (ja=1 of nee=0).

Gezien een respondent vanaf een score van 7 als overbelast wordt beschouwd, vanaf 9 als zwaar overbelast en vanaf 11 als zeer zwaar overbelast, dacht ik met het strengere criterium van 85% (11 van de 13 vragen ingevuld) goed te zitten. Er wordt dan geen rekening gehouden met de missing values gezien deze niet in de somscore worden opgenomen. 

Lijkt dit oké voor jullie of neem ik beter alleen compleet ingevulde vragenlijsten mee te nemen in mijn analyses? Dit laatste leidt immers tot een groter informatieverlies. 

  • Minimum 11 ingevulde items --> N=326
  • Enkel compleet ingevulde vragenlijsten --> N=224
Heel erg bedankt
Hartelijke groeten
Je kunt in plaats van het gemiddelde uiteraard ook de som berekenen. Dat verandert verder weinig aan bovenstaande. Ik zou sowieso NOOIT de methode van Al-Janabi overnemen. Ik zou 'nooit' in grotere letters afdrukken, maar ik wil niet te aggressief overkomen. Stel maar voor dat ik dat in lettertypegrootte 72 heb geschreven.

Wat je aan de discussie tussen gjp en mijzelf merkt is dat je niet blind moet staren op simpele richtlijnen en protocollen. Die zijn niet alleen niet zinvol, ze omzeilen vaak ook het werkelijke probleem. Merk vooral op dat zodra je dataproblemen hebt, je enkel nog suboptimale oplossingen hebt; er is geen beste keus meer. Je zult dus steeds een afweging tussen voors- en tegens moeten maken.

De reden om complete data te willen is om de betrouwbaarheid van een schaal te behouden, of om de validiteit van de schaal niet te schaden. Betrouwbaarheid is direct gelinkt aan power: je koos een steekproefomvang op basis van benodigde power, en als schalen door missings onbetrouwbaarder worden, dus meer variantie opleveren raakt je studie onderpowered. Dit kun je oplossen door erg onbetrouwbare data te verwijderen. Maar(!) als je N gaat weggooien, dan verlies je ook power. Het middel kan dan erger dan de kwaal worden. Probeer een middenweg te vinden die power en validiteit optimaliseert.
Beste Ron,

Heel erg bedankt voor uw antwoord. Ik moest op zoek naar eerdere studies en dit was de enige die ik tegenkwam die de Caregiver Strain Index gebruikte én met missing values te maken had. Zoals ik eerder schreef, werd dit instrument vaker mondeling afgenomen waardoor andere studies weinig tot geen missing values bevatten.

Ik vond het persoonlijk ook een zeer vreemde redenering (bv. een verstoorde nachtrust zegt niets over financiële druk) vandaar dat ik deze niet gevolgd heb en het eerst hier heb voorgelegd. Gelukkig zo bleek! Komt mij ook niet agressief over maar gewoon heel duidelijk.

Ik denk dat ik dan bij mijn eerdere beslissing blijf en een respons van 85% ga hanteren. Dit lijkt me een aanvaardbaar criterium.

Hartelijke groeten en nogmaals veel dank!

Sofie
...