Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Outliers verschillen via z-scores of boxplot

0 leuk 0 niet-leuks
Voor het detecteren van outliers zijn er meerdere methoden, heb ik ontdekt. Nu verschillen de uitkomsten die ik voor de verschillende methoden en vraag ik me af hoe dat komt.

Als ik ze via de boxplots zoek, heb ik er 9 voor variabele 'X'. Ik heb ze ook gezocht via de methode van Field (Jane Superbrain, blz. 242,243). Hierbij maak je eerst de variabelen 'zX' aan. Daarna draai ik onderstaande syntax. Hiermee worden de z-scores als het ware ingedeeld in extremiteit en wordt er een frequentietabel gemaakt van hoe vaak welke afwijking voorkomt.

RECODE  
ZX (3.29 thru highest = 1)(2.58 thru highest = 2)(1.96 thru highest = 3)(Lowest thru 1.95 = 4).  
EXECUTE.  
VALUE LABELS ZX  
4 'Normal range' 3 'Potential Outliers (z > 1.96)' 2 'Probable Outliers (z > 2.58)' 1 'Extreme (z - score > 3.29)'.  
FREQUENCIES  
VARIABLES= Zvet1 Zvet2  
/ORDER=ANALYSIS.   

In de frequentietabel die volgt zijn er 10 datapunten die een z-score groter dan 2.58 hebben. Dat is er al 1 meer dan in de boxplots. Daarnaast blijkt uit de cumulatieve percentages in deze tabel dat de hoeveelheid outliers dat er is, past binnen de percentages dat je verwacht binnen een normaalverdeling. Nu heb ik twee vragen: als de 'outliers' binnen de normaalverdeling passen, moet je dat dan wel zien als outliers? En hoe komt het dat het aantal outliers met de boxplot verschilt?
gevraagd 25 april in Experimenteel Onderzoek (PB0402 en S05281) door SanneC (280 punten)

1 Antwoord

0 leuk 0 niet-leuks

De verschillende methodes zijn niet zomaar verschillende wegen naar Rome, maar zijn verschillende benaderingen.

Z-scores gaan uit van een afwijking rond een gemiddelde. Dit werkt het beste bij data die voldoende normaal verdeeld is en continue (interval en ratio meetniveau)

Boxplots gebruiken de mediaan om outliers op te bepalen en dit werkt het beste bij data op ordinaal meetniveau of erg scheve data.

Dus, de schever de data bijvoorbeeld is, de groter de verschillen zullen zijn tussen z-scores en boxplots.

Ook zijn de criteria niet helemaal hetzelfde. Een Z-waarde groter dan 3.29 (waarom 2.58?) komt overeen met een p-waarde van < .001. Dit is op zich ook maar een arbitraire keuze. Maar boxplots werken met interkwartielafstanden. SPSS maakt daar visueel een onderscheidt tussen rondjes (> 1.5 IQR) en sterretjes (> 3* IQR). Hoewel 3 keer interkwartielafstand in de buurt komt van een z > 3.29 criterium is het natuurlijk niet een-op-een hetzelfde.

beantwoord 30 april door Ron Pat-El (41,340 punten)
...