Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Er worden bij de opdrachten gevraagd: zijn er uitbijters?

Ik weet niet precies hoe ik dit moet aanpakken. Als ik een boxplot draai en er komt een outlier in voor, dan weet ik niet wanneer deze nog wel of nog niet binnen de marge ligt. Bij de terugkoppeling staat er "deze is nog binnen de marge".

Bijvoorbeeld opdracht 2.4 vraag 9. Ik zie dat case 50 een outlier is. Maar op de boxplot kan ik niet zien dat deze nog binnen de marge ligt. Als ik dan de zscores erbij pak, zie ik dat alle z-scores binnen de marge -1.84 en 2.40 liggen. Dat betekent dat ook case 50 tussen de -3 en de +3 ligt, toch? Ik weet niet helemaal hoe ik moet zien of de reactietijden groter zijn dan 1.5 IQR. Kan ik dat berekenen met SPSS of moet ik dat zelf berekenen met die ene case?
in Experimenteel Onderzoek (OEO, PB04x2) door (360 punten)

1 Antwoord

0 leuk 0 niet-leuks
De boxplot is een handig grafisch hulpmiddel om te laten zien hoe een variabele verdeeld is. Het gaat bij een boxplot om de verdeling rondom de mediaan.Ligt een punt verder dan de "snorharen" (whiskers) dan "noemen" we dat een outlier en ligt het dus per definitie buiten de gedefinieerde grenzen.

Je kan ook met andere grenswaarden werken om een outlier te definiëren. Dat is niet zozeer een statistische vraag als wel een inhoudelijke.

Overigens: het is weliswaar eenvoudig te definiëren wat een outlier is maar zeker niet wat je er vervolgens mee moet doen.
door (11.7k punten)

Om nog iets meer achtergrond te geven bij wat Peter zei: het gaat er vooral om waarom je naar outliers kijkt.

Extreme waarden komen sowieso voor in je data. Dat is ook niet erg: dat verwacht je ook, op basis van kans.

Meestal zijn er twee redenen om outliers te zoeken:

  1. Een outlier kan indicatief zijn voor een schending van je data-integriteit. Oftewel: bij een vragenlijst is het verkeerde getal ingevoerd, of bij een reactietijden-taak was een deelnemer eigenlijk met iets anders bezig. Als je besluit dat dit een outlier was, dan is de oplossing simpel: je hebt dan geen datapunt, en kunt die waarde vervangen door missing/NA.
  2. Een outlier kan een onevenredig sterke invloed hebben op je analyse. In dat geval herhaal je de analyse met en zonder die outlier(s). Als je verschillende uitkomsten hebt, dan weet je dat je niet goed conclusies kunt trekken. Je conclusies zijn dan immers zeer fragiel, want hangen op een of enkele waarden.

Maar een uitzonderlijke waarde is in zichzelf niet onwenselijk of slecht ofzo.

...