Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

wanneer outliers verwijderen uit dataset

0 leuk 0 niet-leuks
In mijn onderzoek heb ik mijn onafhankelijke variabele (prior unit performance) gemanipuleerd waarbij respondenten moesten aangeven of ze de prior unit performance als hoog of laag zouden raten. In enkele gevallen heb ik een paar extreme outliers, omdat er bijvoorbeeld een paar mensen waren die 'laag' hebben geantwoord op deze vraag, terwijl de grote meerderheid 'hoog' heeft geantwoord. Moet ik deze outliers dan verwijderen uit mijn dataset of niet?
gevraagd 12 juni in Online vragenlijsten door Ans (160 punten)

1 Antwoord

0 leuk 0 niet-leuks

Eigenlijk niet. Althans, zonder verdere informatie niet zondermeer.

De eerste (en eigenlijk enige) factor van belang is de vraag of de scores tot de populatie behoren, dus de verzameling van alle mogelijke uitkomsten die tot de populatie behoren. Zoals ik het lees is er geen reden om aan te nemen dat deze datapunten 'onjuist' zijn. Denk bijvoorbeeld aan mensen met een niet-klinische depressiescore in een beoogde populatie van mensen met een klinische depressie(score). 

In het geval van dit soort outliers is stap 2 dan eigenlijk altijd: sensitiviteitsanalyse. Doe de analyse eens met en zonder outliers en kijk of de conclusies veranderen. Dan is het devies: transparantie. Kies een van de twee analyses en maak duidelijk dat het behouden/verwijderen van datapunten wel/geen effect had op de conclusies.

Wat geavanceerder is het spelen met de data. Denk hierbij aan Winsorizing, dus uiteinden van de dataverdeling bijpunten, of een transformatie van de dataverdeling, bijvoorbeeld een logaritmische transformatie. Ik zou alleen met deze technieken aan de slag gaan als je een goed begrip hebt van de voor- en nadelen van deze technieken per context. 

beantwoord 12 juni door Ron Pat-El (44,960 punten)
...