Wat Ron zegt over outliers bij categorische variabelen geldt overigens ook voor outliers bij continue variabelen: het gaat vooral om het controleren van je data-integriteit.
Bij continue variabelen komen zeldzaam hoge of zeldzaam lage scores voor - zelden, maar het kan dus gebeuren. In die gevallen heb je een deelnemers die gewoon erg hoog of laag scoort in de populatie; en de populatie bestaat nu eenmaal voor een gegeven percentage uit extreem scorende mensen.
Bij continue variabelen zijn extreme waarden daarom reden om te verifieren of de data wel goed zijn ingevoerd; en als dat zo is, of de deelnemers wel serieus meedeed, en of die deelnemer op andere variabelen ook afwijkt. Als alles er op wijst dat de extreme score een accurate weergave is van die deelnemer, dan is het prima. Maar vaak zijn extreem scores aanwijzingen dat een deelnemer niet serieus meedeed, of werd gestoord tijdens de studie, of onterecht door de screening is gekomen (als je bijvoorbeeld een studie doet onder ouderen maar er een deelnemer van 18 meedeed).
Hoe dan ook, de bottom line is:
- Bestudeer de datareeksen voor elke variabele (met visualisaties, dus histogrammen, boxplots, Q-Q plots, bar charts, etc);
- Als er afwijkingen zijn die je niet begrijpt, bestudeer die gevallen dan beter;
- En neem zo nodig maatregelen. In extreme gevallen kun je deelnemers of metingen (datapunten) verwijderen.
Houd er rekening mee dat de onderbouwing voor het verwijderen of aanpassen van een datapunt of een deelnemer altijd inhoudelijk moet zijn; een extreme score volstaat nooit in zichzelf. Extreme scores horen immers voor te komen.