Wanneer heb je relatief veel missing data?

Question

Wanneer heb je relatief veel missing data?

1 Antwoord

Beste antwoord

Over het algemeen wordt aangehouden (zie bijvoorbeeld Tabachnik & Fidell, 2007) dat vanaf 5% missing data, men niet meer mag aannemen dat de data 'missing at random' is (MAR). Zodra data niet MAR is vermoedt men systematiek.

In de context van PB0402 en S05281 zou ik nog niet zo snel data invullen 'imputeren'. Hier zitten namelijk wat haken en ogen aan die zich niet zo een-twee-drie laten uitleggen. Maar kort gezegd:

- Als je data MAR verondersteld mag worden is het geoorloofd om data te imputeren

- Als je data niet MAR is (of ook niet Missing Completely At Random [MCAR]), dan is het niet geoorloofd om te imputeren, en moet er gezocht worden naar de mogelijke systematiek. Als deze niet gevonden wordt kan alsog besloten worden dat de data MAR is

- De allerslechte imputatiemethode is het gemiddelde voor iedere missing invullen. Het gemiddelde ligt namelijk dichter bij het gemiddelde dan de originele waarde zou liggen, en hierdoor wordt kunstmatig de variantie kleiner, waardoor kunstmatig de standaardmeetfout kleiner wordt, wat de kans op een type 1 fout vergoot. De beste variant is een EM-algortime runnen. Dit baysiaanse algoritme, kort gezegd, gebruikt complete data, om te schatten wat de missende data zou kunnen zijn, en probeert een aantal keren te schatten, totdat het algoritme overtuigd is dat er goed geschat is. Deze waarden komen zeer dicht in de buurt van wat er daadwerkelijk ingevuld zou zijn. Zie bijvoorbeeld:

Musil, C. M., Warner, C. B., Yobas, P. K., & Jones, S. L. (2002). A Comparison of Imputation Techniques for Handling Missing Data. Western Journal of Nursing Research, 24(7), 815–829. http://doi.org/10.1177/019394502762477004

- Als geimputeerde waarden niet in het bijzonder afwijken van de complete data (te controleren met de Missing Value Analysis in SPSS bijvoorbeeld) dan kan besloten worden dat de data MAR was, en dat imputatie geslaagd is in het behouden van zoveel mogelijk power in de dataset. Als er toch verschillen zijn ontstaan, dan liever niet met geimputeerde data verder rekenen, en het powerverlies door missings maar accepteren.

beantwoord 3 april 2017 door Ron Pat-El (63.5k punten)
geselecteerd 3 april 2017 door gjp

Categorieën

Wanneer heb je relatief veel missing data?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.

Gerelateerde vragen

Categorieën

Wanneer heb je relatief veel missing data?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.