Voor het detecteren van outliers zijn er meerdere methoden, heb ik ontdekt. Nu verschillen de uitkomsten die ik voor de verschillende methoden en vraag ik me af hoe dat komt.
Als ik ze via de boxplots zoek, heb ik er 9 voor variabele 'X'. Ik heb ze ook gezocht via de methode van Field (Jane Superbrain, blz. 242,243). Hierbij maak je eerst de variabelen 'zX' aan. Daarna draai ik onderstaande syntax. Hiermee worden de z-scores als het ware ingedeeld in extremiteit en wordt er een frequentietabel gemaakt van hoe vaak welke afwijking voorkomt.
RECODE
ZX (3.29 thru highest = 1)(2.58 thru highest = 2)(1.96 thru highest = 3)(Lowest thru 1.95 = 4).
EXECUTE.
VALUE LABELS ZX
4 'Normal range' 3 'Potential Outliers (z > 1.96)' 2 'Probable Outliers (z > 2.58)' 1 'Extreme (z - score > 3.29)'.
FREQUENCIES
VARIABLES= Zvet1 Zvet2
/ORDER=ANALYSIS.
In de frequentietabel die volgt zijn er 10 datapunten die een z-score groter dan 2.58 hebben. Dat is er al 1 meer dan in de boxplots. Daarnaast blijkt uit de cumulatieve percentages in deze tabel dat de hoeveelheid outliers dat er is, past binnen de percentages dat je verwacht binnen een normaalverdeling. Nu heb ik twee vragen: als de 'outliers' binnen de normaalverdeling passen, moet je dat dan wel zien als outliers? En hoe komt het dat het aantal outliers met de boxplot verschilt?