Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
In mijn analyse (tentamencasus) krijg ik een paar outliers (datapunten die verder dan drie SD liggen van het gemiddelde) op 2 van de variabelen. Moet ik de data van die participanten negeren en uit de data verwijderen? (en hoe?) of mag ik veronderstellen dat ze, zelfs als ze extreem zijn, wel mogelijk zijn?
in Experimenteel Onderzoek (OEO, PB04x2) door (240 punten)
bewerkt door

1 Antwoord

0 leuk 0 niet-leuks

Het is in de eerste plaats van belang deze in-tekst te identificeren; niet zozeer naam en rugnummer, maar hoeveel outliers, en op basis van welk criterium. Bij scheve data zijn boxplots, en dus de mediaan, zinvollere methoden om outliers te identificeren dan z-scores (en dus gemiddelde).

Er zijn geen vaste procedures voor deze situaties. De eerste stap is wel altijd vaststellen of deze outliers enkel extreme waarden zijn relatief aan de overige data, of dat het waarnemingen betreffen die niet tot de populatie behoren. Dus die eigenlijk nooit in de steekproef hadden mogen komen. 

Een voorbeeld hiervan kan bijvoorbeeld zijn: Je doet een onderzoek naar de effecten van een behandeling op depressie. Bij iedereen neem je een depressievragenlijst af. Twee respondenten hebben een extreem lage depressiescore. Van die twee heeft één respondent een erg lage, maar nog wel klinische score. De andere zou volgens de depressievragenlijst geen klinische depressie als diagnose kunnen krijgen. De eerste respondent kun je niet zondermeer uit je data knikkeren, maar de tweede respondent eigenlijk wel. 

Dan is mijn advies eigenlijk altijd stap 2: doe een sensitiviteitsanalyse. Run je analyse tweemaal: een keer met de outlier in je data, en een keer zonder. Als de resultaten dan veranderen kun je je beraden op vervolgstappen. Wat je dan kiest maakt in deze cursus eigenlijk nog niet uit. Belangrijkste is: kies een van de twee resultaten, en rapporteer deze als je resultaat. De andere benoem je in je analyse in termen van 'ook gedraaid met/zonder outliers, en dit veranderde de resultaten wel/niet', zodat je transparant bent naar je lezer over de stabiliteit van je model.

Geavanceerdere oplossingen vergen wat ervaring met data-analyse maar komen meestal neer op:

- De outlier evalueren op basis van invloed op het model, bijvoorbeeld het berekenen van Cook's distance (zie Field)

- Winsorizing: De outlier minder extreem maken door datatransformatie; bijvoorbeeld door alle extreme data de waarde van een bepaald percentiel te geven, bijvoorbeeld een 90% winsorisatie betekent alle top 5% van de data de waarde van het 95e percentiel geven, en alle bodem 5% van de data de waarde van het 5e percentiel geven.

Trimming/Truncation: Alle top en bodem n% van de data wegknippen. Dus vergelijkbaar met winsorization, maar dan worden datapunten verwijderd. Dit kan handig zijn voor distributies met grote staarten (niet zozeer lang, maar 'dik'. De mediaan is in wezen een sterk 'getrimmde' statistiek; het negeert bijna alle data buiten het centrum. Trimming heeft daarom ook geen effect op een mediaan. 

- Reduceren meetniveau. Outliers kunnen ook het gevolg zijn van erg scheve data, en dan kan het wel eens handig zijn om de data als ordinaal te behandelen, en vervolgens een nonparametrische toets te doen 

Dit is geen uitputtende lijst; ik hoop vooral dat je inziet: (a) je moet outliers zoeken; (b) snappen waarom het outliers zijn; (c) wat je ook kiest: laat de lezer duidelijk weten wat je doet en waarom; en (d) dat het belangrijk is te evalueren of conclusies veranderen zodra de outliers worden aangepakt.

door (63.5k punten)
...