Outliers verschillen via z-scores of boxplot

Question

Outliers verschillen via z-scores of boxplot

Voor het detecteren van outliers zijn er meerdere methoden, heb ik ontdekt. Nu verschillen de uitkomsten die ik voor de verschillende methoden en vraag ik me af hoe dat komt.

Als ik ze via de boxplots zoek, heb ik er 9 voor variabele 'X'. Ik heb ze ook gezocht via de methode van Field (Jane Superbrain, blz. 242,243). Hierbij maak je eerst de variabelen 'zX' aan. Daarna draai ik onderstaande syntax. Hiermee worden de z-scores als het ware ingedeeld in extremiteit en wordt er een frequentietabel gemaakt van hoe vaak welke afwijking voorkomt.

RECODE
ZX (3.29 thru highest = 1)(2.58 thru highest = 2)(1.96 thru highest = 3)(Lowest thru 1.95 = 4).
EXECUTE.
VALUE LABELS ZX
4 'Normal range' 3 'Potential Outliers (z > 1.96)' 2 'Probable Outliers (z > 2.58)' 1 'Extreme (z - score > 3.29)'.
FREQUENCIES
VARIABLES= Zvet1 Zvet2
/ORDER=ANALYSIS.

In de frequentietabel die volgt zijn er 10 datapunten die een z-score groter dan 2.58 hebben. Dat is er al 1 meer dan in de boxplots. Daarnaast blijkt uit de cumulatieve percentages in deze tabel dat de hoeveelheid outliers dat er is, past binnen de percentages dat je verwacht binnen een normaalverdeling. Nu heb ik twee vragen: als de 'outliers' binnen de normaalverdeling passen, moet je dat dan wel zien als outliers? En hoe komt het dat het aantal outliers met de boxplot verschilt?

gevraagd 25 april 2019 in Experimenteel Onderzoek (OEO, PB04x2) door SanneC (350 punten)

1 Antwoord

Ron Pat-El · Answer 1 · 2019-04-30T09:52:44+0000

De verschillende methodes zijn niet zomaar verschillende wegen naar Rome, maar zijn verschillende benaderingen.

Z-scores gaan uit van een afwijking rond een gemiddelde. Dit werkt het beste bij data die voldoende normaal verdeeld is en continue (interval en ratio meetniveau)

Boxplots gebruiken de mediaan om outliers op te bepalen en dit werkt het beste bij data op ordinaal meetniveau of erg scheve data.

Dus, de schever de data bijvoorbeeld is, de groter de verschillen zullen zijn tussen z-scores en boxplots.

Ook zijn de criteria niet helemaal hetzelfde. Een Z-waarde groter dan 3.29 (waarom 2.58?) komt overeen met een p-waarde van < .001. Dit is op zich ook maar een arbitraire keuze. Maar boxplots werken met interkwartielafstanden. SPSS maakt daar visueel een onderscheidt tussen rondjes (> 1.5 IQR) en sterretjes (> 3* IQR). Hoewel 3 keer interkwartielafstand in de buurt komt van een z > 3.29 criterium is het natuurlijk niet een-op-een hetzelfde.

Categorieën

Outliers verschillen via z-scores of boxplot

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.

Gerelateerde vragen

Categorieën

Outliers verschillen via z-scores of boxplot

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.