De vraag die je eigenlijk eerst moet stellen, is of je echt wel moet dichotomiseren. Er zijn zeer zelden goede redenen om te dichotomiseren, maar er zijn hele goede redenen om niet te dichotomiseren. Kort samengevat zijn dit de belangrijkste redenen om niet te dichotomiseren:
-
Door te dichotomiseren verlies je power (je hebt meer proefpersonen nodig om een verband te vinden). Om een indruk te geven het aantal proefpersonen om een power van 80% te bereiken bij een medium effect size voor bivariate analyses met variabelen op verschillende meetniveau's:
-
correlatie, dus beide variabelen interval; bij Pearson r = .3: N = 84
-
t-toets, dus als een variabele interval is maar de andere dichotoom; bij Cohen's d = .5: N = 128
-
Door te dichotomiseren kan de kans op Type 1 fouten substantieel toenemen;
-
Er zijn vaak geen goed verdedigbare cut-offs (grenswaarden);
-
Na dichotomisering worden mensen met de laagste waarde (bijvoorbeeld 0 op een schaal van 0-100) als gelijk beschouwd aan mensen die nèt onder de cut-off zitten (bv 49) ; terwijl mensen die nèt boven de cut-off zitten (bv 51), en dus meer lijken op de mensen die er nèt onder zitten, opeens als heel anders worden beschouwd. Die groep mensen die nèt boven de cut-off zitten (51) worden als hetzelfde beschouwd als de groep mensen met de maximale score (100).
Situaties waarin je eventueel, als het echt moet, wel mag dichotomiseren zijn:
-
De verdeling van de betreffende variabele is bimodaal (tweetoppig, dus niet normaal verdeeld;
-
De verdeling is heel erg scheef, waarbij veel deelnemers dezelfde score hebben;
-
Je bent geinteresseerd in een reeds bestaande dichotomie; bijvoorbeeld klinische grenzen (is iemand wel of niet depressief, etc)
In al deze gevallen is duidelijk welke cut-off je moet gebruiken; in het eerste geval, het punt precies tussen de twee toppen in; in het tweede geval vergelijk je iedereen met de meest voorkomende score met iedereen die hoger (of lager) scoort; en in het derde geval weet je al bij welke cut-off mensen als depressie worden gediagnosticeerd.
In al deze gevallen heeft niet dichotomiseren vaak nog steeds de voorkeur; alleen als je anders niet meer voldoet aan de aannamen van je analyse, wordt dichotomiseren nodig (zie ook http://oupsy.nl/help/112/wanneer-is-mijn-data-te-scheef-niet-normaal-verdeeld).
Een veel gebruikte manier om te dichotomiseren is de zogenaamde 'median split, waarbij je je deelnemers precies in twee even grote groepen indeelt door de mediaan als cut-off te gebruiken. Dit mag je nooit doen; de mediaan is geen informatieve cut-off, het is alleen precies de middelste waarde.
Zie voor meer infromatie bijvoorbeeld https://bitbucket.org/eyecat/readinglists/src/d8e8010f0b0d/ReadingList_NotreDame/MaxwellDelaney1990MedianSplits.pdf of https://www.researchgate.net/publication/7104819_The_cost_of_dichotomising_continuous_variables.