Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Goedemiddag,

Ik kom er even niet meer uit. Als je een analyse doet check je altijd of er outliers zijn. Mijn vraag is voor welke variabelen kijk je of er outliers zijn? Is dit ouur voor de afhankelijke variabeln of geldt dit ook voor onafhanekijle variabelen? Ben echt even de weg kwijt geloof ik.
in Experimenteel Onderzoek (OEO, PB04x2) door (350 punten)

2 Antwoorden

0 leuk 0 niet-leuks
Een beetje een flauw, maar correct antwoord: Alle variabelen waar dit zinvol op is.

Dat houdt sowieso alle onafhankelijke en afhankelijke variabelen in. Echter, wat de procedure van outlier-checking is zal afhangen van het meetniveau. Wanneer de onafhankelijke variabelen categorisch zijn, dan is het controleren van outliers gelijk aan het controleren op invoerfouten. Alle waarden die buiten de gestelde range liggen zijn dan 'onjuist'. Als er drie groepen moeten zijn, dan is alles in de data 'hoger' of 'lager' dan dat een datafout.

Bij numerieke data op intervalmeetniveau of hoger is het berekenen van interkwartielafstand of z-score passend. Dit zal meestal het geval zijn bij de afhankelijke variabele(n), en mogelijk de covariaten, mits deze ook echt gebruikt worden.
door (63.5k punten)
0 leuk 0 niet-leuks

Wat Ron zegt over outliers bij categorische variabelen geldt overigens ook voor outliers bij continue variabelen: het gaat vooral om het controleren van je data-integriteit.

Bij continue variabelen komen zeldzaam hoge of zeldzaam lage scores voor - zelden, maar het kan dus gebeuren. In die gevallen heb je een deelnemers die gewoon erg hoog of laag scoort in de populatie; en de populatie bestaat nu eenmaal voor een gegeven percentage uit extreem scorende mensen.

Bij continue variabelen zijn extreme waarden daarom reden om te verifieren of de data wel goed zijn ingevoerd; en als dat zo is, of de deelnemers wel serieus meedeed, en of die deelnemer op andere variabelen ook afwijkt. Als alles er op wijst dat de extreme score een accurate weergave is van die deelnemer, dan is het prima. Maar vaak zijn extreem scores aanwijzingen dat een deelnemer niet serieus meedeed, of werd gestoord tijdens de studie, of onterecht door de screening is gekomen (als je bijvoorbeeld een studie doet onder ouderen maar er een deelnemer van 18 meedeed).

Hoe dan ook, de bottom line is:

  1. Bestudeer de datareeksen voor elke variabele (met visualisaties, dus histogrammen, boxplots, Q-Q plots, bar charts, etc);
  2. Als er afwijkingen zijn die je niet begrijpt, bestudeer die gevallen dan beter;
  3. En neem zo nodig maatregelen. In extreme gevallen kun je deelnemers of metingen (datapunten) verwijderen.

Houd er rekening mee dat de onderbouwing voor het verwijderen of aanpassen van een datapunt of een deelnemer altijd inhoudelijk moet zijn; een extreme score volstaat nooit in zichzelf. Extreme scores horen immers voor te komen.

door (77.8k punten)
...