Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Missing values: hoe te imputeren bij schaalvariabele?

0 leuk 0 niet-leuks
Een vraag vanuit de Bachelorthesis. Volgens studietaak G zijn er meerdere manieren om missing values te imputeren. Wij gebruiken schaalvariabelen met een neutrale middencategorie. Wat kun je dan het beste gebruiken voor imputatie: het groepsgemiddelde of de middencategorie? Studietaak G doet hier niet echt een harde uitspraak over.
gevraagd 3 juli 2013 in Schaalconstructie door 850631081 (350 punten)

3 Antwoorden

2 leuk 0 niet-leuks
 
Beste antwoord

Als je imputeert met een of andere schatting zoals via regressie, een gemiddelde of een groepsgemiddelde dan zal de verdeling van de desbetreffende variabele gepiekter worden. Hoe meer je imputeert, hoe meer waarden in het centrum van de verdeling komen te liggen. De variantie van de variabele zal daardoor afnemen. Dit kan gevolgen hebben voor allerlei statistische analyses.

Vanuit statistisch oogpunt is de beste manier om niet een maar b.v. vijf verschillende waarden in te vullen voor de missing. Dit heet multiple imputatie. Je krijgt dan dus vijf verschillende datasets, en vijf verschilende analyses waarvan je het resultaat tenslotte kan middelen om een uiteindelijk antwoord op je onderzoeksvraag te krijgen. Praktisch gezien is dit nogel omslachtig uiteraard.  Voor meer informatie, zie het standaardboek van Little & Rubin (1987): Statistical Analysis with Missing Data.

Een goed alternatief is om te imputeren met de waarde van een regressie schatting  (gemiddelde imputeren is eigenlijk ook gewoon een vorm van regressie), maar daar een random term aan toe te voegen. Door een random term aan de schatting toe te voegen blijft de variantie van de variabele zo veel mogelijk gelijk.

[ Edit door Gjalt-Jorn: zie ook http://www.uvm.edu/~dhowell/StatPages/More_Stuff/Missing_Data/Missing.html voor een uitgebreide uitleg, en uitleg over hoe je in SPSS met missing data om kunt gaan! ]

beantwoord 4 juli 2013 door Peter Verboon (11,160 punten)
bewerkt 1 augustus 2013 door gjp
Bedankt voor de duidelijke reacties. Het geeft in ieder geval inzicht in de overwegingen die je kunt maken en de alternatieven. Ik ga het bij ons in de groep gooien en hoe dan ook de tip om te beschrijven hoe je het uiteindelijk hebt gedaan ter harte nemen.

Peter (bedankt voor je reactie!); hoe bepaal je uit welke verdeling je die random term neemt?

In SPSS kun je een random term kiezen uit een normaalverderling met de functie RV.NORMAL(mean,sd) en in R met rnorm(n, mean, sd). In ons geval willen we een gemiddelde van 0; maar wat vul je in voor de standaard deviatie? De standard deviatie van de verdeling van de betreffende variabele? Ik wilde eigenlijk een voorbeeld van SPSS syntax invoegen, maar ik kan niet ontdekken hoe je in SPSS het gemiddelde en de standaard deviatie in een COMPUTE statement kunt berekenen (ik vrees dat je dan moet AGGREGATEN en een andere dataset op moet slaan, wat onnodig omslachtig lijkt?), dus sorry, geen voorbeeld :-/

Het makkelijkst is om de SD van de variabele even op te vragen met Descriptives en die waarde dan te gebruiken in de RV.NORMAL functie.

SPSS heeft trouwens ook een vrij vriendelijke procedure voor multiple imputatie. SPSS maakt dan namelijk zelf een nieuwe dataset aan die uit de oorspronkelijke en de (b.v. 5) geimputeerde sets bestaat.  Als je dan b.v een correlatie of een regressie analyse opvraagt obv deze nieuwe dataset, dan geeft SPSS (net als bij split file) voor elke afzonderlijke set een resultaat plus een gemiddeld (gepooled) resultaat.
1 leuk 0 niet-leuks

Goede vraag - en zoals altijd bij goede vragen is er niet echt een antwoord :-) Er zijn veel discussies in de literatuur over wat het beste is om te doen met missing values. Daarom geef ik voor nu mijn 'persoonlijke voorkeur' door, en zal ik de vraag doorgeven aan mijn collega's (dus bij Methodologie & Statistiek) zodat zij hun visie kunnen geven.

Voor de duidelijkheid; ik veronderstel dat je met een schaalvariabele een gemiddelde (of opgetelde) variabele bedoelt, die dus het gevolg is van de middeling of optelling van meerdere items.

Als je items middelt, en iemand heeft bijvoorbeeld een of twee missing values, dan imputeer je automatisch het gemiddelde van die persoon voor die missing values in de resulterende gemiddelde (schaal) variabele. Als iemand na die middeling dus dus nog steeds een missing value heeft, is er niets bekend over hoe hoog zo'n persoon scoort.

Als je door het weglaten van dergelijke personen teveel inboet aan power, kun je inderdaad bijvoorbeeld het groepsgemiddelde gebruiken. Nog iets beter is het om het gemiddelde van vergelijkbare personen in diezelfde groep te gebruiken, dus bijvoorbeeld personen van hetzelfde geslacht die ongeveer even oud zijn. En nog beter is het om met regressie-analyse te voorspellen wat de score van deze persoon geweest zou zijn op basis van een hele serie andere variabelen.

Wat je ook doet, het is heel belangrijk dat je 1) dit vermeldt in je artikel (of bachelorthese) en 2) de analyses tweemaal uitvoert; eenmaal zonder alle personen waarbij je imputeerde, en eenmaal met. Als hier verschillen in zitten, betekent dat dat je imputatie die heeft veroorzaakt, en dan heb je natuurlijk een probleem. Als je dan bijvoorbeeld verkeerd hebt geimputeert, kan het zijn dat je daardoor je analyses hebt gesaboteerd, waardoor je verbanden vindt die er niet zijn, of verbanden die er wel zijn niet vindt.

Hoe je ook imputeert, onthoudt: het is heel belangrijk om duidelijk te vermelden wat je doet, en wat de consequenties zijn. Hierdoor kan de lezer een indruk vormen van de stabiliteit van je analyses.

beantwoord 3 juli 2013 door gjp (63,760 punten)
0 leuk 0 niet-leuks

Gelukkig dat er niet een echt antwoord is, want dan kun je het ook niet fout doen :)

Maar wij maken inderdaad gebruik van een gemiddelde van een Likert schaal met 5 waarden (waarde 3 = neutraal) waarvan studietaak G zegt:

"Het is gebruikelijk om de overige missende waarden te vervangen (ook wel imputeren genoemd). Daarvoor waren er tot zo'n 10 jaar geleden twee regels gangbaar:

  • Bij dichtome of nominale variabelen wordt de missing doorgaans door de modus vervangen
  • Bij interval of schaal variabelen wordt de missing doorgaans door het groepsgemiddelde vervangen

Er kunnen overwegingen zijn om van deze regels af te wijken. Eén daarvan is bij vragen met een neutrale middencategorie. Als iemand daar een vraag niet van heeft in gevuld (of weet niet heeft geantwoord als de mogelijkheid om ‘weet niet’ aan te kruisen aanwezig is) dan wordt dit antwoord naar de middencategorie omgecodeerd. Het idee hierachter is dan de respondent noch positief, noch negatief geantwoord heeft en dus in de midden categorie geplaatst kan worden."

Als ik jouw persoonlijke voorkeur goed lees, dan komen deze 2 mogelijkheden daar niet exact in voor...

Ben ook benieuwd naar de visie van de collega's.

Bedankt zover!

beantwoord 3 juli 2013 door 850631081 (350 punten)
Het klopt dat mijn voorkeuren niet in lijn zijn met het advies in taak G. Persoonlijke voorkeuren zijn soms compexer dan in het curriculum past. De reden dat ik de middencategorie niet zou gebruiken, is dat er niet noodzakelijk een reden is om aan te nemen dat deze persoon daar zou scoren. De middencategorie is niet waarschijnlijker dan een andere categorie. Stel dat je een vraag hebt "Hoe staan jouw ouders er tegenover als jij condooms gebruikt?" met een vijf-puntsschaal van "heel afkeurend" t/m "heel goedkeurend", en een zesde optie "weet ik niet". Als slechts 4% van de deelnemers "weet ik niet" aankruist, lijkt het niet logisch om te veronderstellen dat mensen met een missing value het ook niet weten. Het lijkt logischer om de gemiddelde "goedkeuring" te veronderstellen voor deze persoon. Nog beter is het om de gemiddelde gerapporteerde goedkeuring van vergelijkbare personen te veronderstellen (en dan ga je dus richting regressie). Ditzelfde geldt natuurlijk voor jullie schaal; als iemand geen waarde heeft gerapporteert, is het meest waarschijnlijke scenario niet noodzakelijk dat die persoon er neutraal tegenover staat. Zou je trouwens Peters antwoord kunnen accepteren? Ik geloof dat je dat kunt doen. Dan verschuift hij naar boven als het goed is. Alvast bedankt :-)
Ik heb op leuk geklikt bij het antwoord van Peter. Is dat hetzelfde als accepteren?
Omdat ik nog nooit een vraag heb gesteld die ik niet zelf heb beantwoord, weet ik dat niet zeker :-) Maar als je geen 'accepteer'-achtig knopje of link kan vinden, dan is het selecteren van 1 antwoord msch niet mogelijk in dit systeem (ik ben gewend aan Cross Validated and andere Stack Exchange vraag-antwoord systemen).
...