Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

1 leuk 0 niet-leuks
Als je een variabele wil dichotomiseren, hoe bepaal je dan welke groepen je moet maken?
in Univariate (descriptieve) statistiek door (77.8k punten)

2 Antwoorden

1 leuk 0 niet-leuks

De vraag die je eigenlijk eerst moet stellen, is of je echt wel moet dichotomiseren. Er zijn zeer zelden goede redenen om te dichotomiseren, maar er zijn hele goede redenen om niet te dichotomiseren. Kort samengevat zijn dit de belangrijkste redenen om niet te dichotomiseren:

  1. Door te dichotomiseren verlies je power (je hebt meer proefpersonen nodig om een verband te vinden). Om een indruk te geven het aantal proefpersonen om een power van 80% te bereiken bij een medium effect size voor bivariate analyses met variabelen op verschillende meetniveau's:
    1. correlatie, dus beide variabelen interval; bij Pearson r = .3: N = 84
    2. t-toets, dus als een variabele interval is maar de andere dichotoom; bij Cohen's d = .5: N = 128
  2. Door te dichotomiseren kan de kans op Type 1 fouten substantieel toenemen;
  3. Er zijn vaak geen goed verdedigbare cut-offs (grenswaarden);
  4. Na dichotomisering worden mensen met de laagste waarde (bijvoorbeeld 0 op een schaal van 0-100) als gelijk beschouwd aan mensen die nèt onder de cut-off zitten (bv 49) ; terwijl mensen die nèt boven de cut-off zitten (bv 51), en dus meer lijken op de mensen die er nèt onder zitten, opeens als heel anders worden beschouwd. Die groep mensen die nèt boven de cut-off zitten (51) worden als hetzelfde beschouwd als de groep mensen met de maximale score (100).

Situaties waarin je eventueel, als het echt moet, wel mag dichotomiseren zijn:

  1. De verdeling van de betreffende variabele is bimodaal (tweetoppig, dus niet normaal verdeeld;
  2. De verdeling is heel erg scheef, waarbij veel deelnemers dezelfde score hebben;
  3. Je bent geinteresseerd in een reeds bestaande dichotomie; bijvoorbeeld klinische grenzen (is iemand wel of niet depressief, etc)

In al deze gevallen is duidelijk welke cut-off je moet gebruiken; in het eerste geval, het punt precies tussen de twee toppen in; in het tweede geval vergelijk je iedereen met de meest voorkomende score met iedereen die hoger (of lager) scoort; en in het derde geval weet je al bij welke cut-off mensen als depressie worden gediagnosticeerd.

In al deze gevallen heeft niet dichotomiseren vaak nog steeds de voorkeur; alleen als je anders niet meer voldoet aan de aannamen van je analyse, wordt dichotomiseren nodig (zie ook http://oupsy.nl/help/112/wanneer-is-mijn-data-te-scheef-niet-normaal-verdeeld).

Een veel gebruikte manier om te dichotomiseren is de zogenaamde 'median split, waarbij je je deelnemers precies in twee even grote groepen indeelt door de mediaan als cut-off te gebruiken. Dit mag je nooit doen; de mediaan is geen informatieve cut-off, het is alleen precies de middelste waarde.

Zie voor meer infromatie bijvoorbeeld https://bitbucket.org/eyecat/readinglists/src/d8e8010f0b0d/ReadingList_NotreDame/MaxwellDelaney1990MedianSplits.pdf of  https://www.researchgate.net/publication/7104819_The_cost_of_dichotomising_continuous_variables.

door (77.8k punten)
bewerkt door
0 leuk 0 niet-leuks

Uit twee bronnen leerde ik hierover veel. Uit de eerste (MacCallum, Zhang, Preacher & Rucker, 2002) dat het zelden een goed idee is om te dichotomiseren (maar dat het helaas nog steeds veel te vaak wordt toegepast). Ik vond het erg aanschouwelijk uitgelegd. Uit de tweede (DeCoster, Iselin & Gallucci, 2009) dat het soms toch OK was, bijvoorbeeld wanneer je twee 'extreme' groepen wil vergelijken (eentje die heel hoog scoort om een variabele met eentje die heel laag scoort op dezelfde variabele). Dat artikel was voor mij nog wat te zwaar maar de conclusies zijn begrijpbaar...

Zelf krijg ik vaak de indruk dat auteurs het toepasten nadat ze niet veel zinnigs ontdekten, maar er door een 'goede' keuze van de cut-off score toch nog in slagen om iets Significants te melden. Een milde vorm van Stapelisatie, zeg maar :)

Luc

DeCoster, J., Iselin, A.-M. R. & Gallucci, M. (2009). A conceptual and empirical examination of justifications for dichotomization. Psychological Methods, 14(4), 349.

MacCallum, R. C., Zhang, S. B., Preacher, K. J. & Rucker, D. D. (2002). On the practice of dichotomization of quantitative variables. Psychological Methods, 7(1), 19-40. doi: 10.1037//1082-989x.7.1.19

[edit: links toegevoegd aan referenties]

door (7.9k punten)
bewerkt door
Bedankt voor deze toevoeging en de referenties!
...