Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
En als je veel missing data hebt, en je besluit om data in te vullen, hoe doe je dat dan?
in Experimenteel Onderzoek (OEO, PB04x2) door (2.2k punten)

1 Antwoord

1 leuk 0 niet-leuks
 
Beste antwoord

Over het algemeen wordt aangehouden (zie bijvoorbeeld Tabachnik & Fidell, 2007) dat vanaf 5% missing data, men niet meer mag aannemen dat de data 'missing at random' is (MAR). Zodra data niet MAR is vermoedt men systematiek.

In de context van PB0402 en S05281 zou ik nog niet zo snel data invullen 'imputeren'. Hier zitten namelijk wat haken en ogen aan die zich niet zo een-twee-drie laten uitleggen. Maar kort gezegd:

- Als je data MAR verondersteld mag worden is het geoorloofd om data te imputeren

- Als je data niet MAR is (of ook niet Missing Completely At Random [MCAR]), dan is het niet geoorloofd om te imputeren, en moet er gezocht worden naar de mogelijke systematiek. Als deze niet gevonden wordt kan alsog besloten worden dat de data MAR is

- De allerslechte imputatiemethode is het gemiddelde voor iedere missing invullen. Het gemiddelde ligt namelijk dichter bij het gemiddelde dan de originele waarde zou liggen, en hierdoor wordt kunstmatig de variantie kleiner, waardoor kunstmatig de standaardmeetfout kleiner wordt, wat de kans op een type 1 fout vergoot. De beste variant is een EM-algortime runnen. Dit baysiaanse algoritme, kort gezegd, gebruikt complete data, om te schatten wat de missende data zou kunnen zijn, en probeert een aantal keren te schatten, totdat het algoritme overtuigd is dat er goed geschat is. Deze waarden komen zeer dicht in de buurt van wat er daadwerkelijk ingevuld zou zijn. Zie bijvoorbeeld: 

Musil, C. M., Warner, C. B., Yobas, P. K., & Jones, S. L. (2002). A Comparison of Imputation Techniques for Handling Missing Data. Western Journal of Nursing Research, 24(7), 815–829. http://doi.org/10.1177/019394502762477004

- Als geimputeerde waarden niet in het bijzonder afwijken van de complete data (te controleren met de Missing Value Analysis in SPSS bijvoorbeeld) dan kan besloten worden dat de data MAR was, en dat imputatie geslaagd is in het behouden van zoveel mogelijk power in de dataset. Als er toch verschillen zijn ontstaan, dan liever niet met geimputeerde data verder rekenen, en het powerverlies door missings maar accepteren.

door (59.6k punten)
geselecteerd door
...