Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Thema 6 : effect van hercoderen van een veranderlijke op anova

0 leuk 0 niet-leuks
Bestaan er regels om veranderlijken te hercoderen. Voor dit thema hercodeert men de ouderdom. Stel dat men met drie groepen wil verder werken.  Deelt men gewoon de schaal door 3? Of bepaalt men het 33 en 67 percentiel? Of is er nog een andere regel? Ik vind met geen van deze twee regels de uiteindelijk gehanteerde regel in het casus. Als ik de schaal 61-24 deel door drie vind ik 24+12,3=36,3 zeg maar 36 en 36,3+12,3= 48,6 zeg maar 49. De percentielen liggen op respectievelijk 37 en 46. Hierbij aansluitend ook de vraag of het iets uit maakt voor bevoorbeeld een anova? Plus ook de vraag of het voor de anova een verschil uitmaakt moest men hercoderen in vier groepen in plaats van drie. Bedankt op voorhand mvg Jan De Smet
gevraagd 18 oktober 2013 in Kwantitatieve Data Analyse (KDA) door Jan DS (330 punten)

1 Antwoord

1 leuk 0 niet-leuks
Ik veronderstel in deze uitleg dat je met een 'veranderlijke' een 'variabele' bedoelt.

Er zijn zeer zelden goede argumenten om een interval-variabele in groepen in te delen.

De belangrijkste reden is dat er bijna nooit redenen zijn om het te doen; een andere belangrijke reden is dat je power verliest, dus dus meer proefpersonen nodig hebt, wat middelen (tijd en geld) kost en minder ethisch is omdat je beslag legt op de tijd en energie van meer proefpersonen; en tot slot is een goede reden om variabelen niet in te delen in categorieen dat er zelden betekenisvolle categorieen bestaan.

Dit laatste punt raakt al aan je vraag; er is geen regel voor hoe je een interval-variabele in categorieen in kunt delen. Met percentielen kun je bijvoorbeeld drie ongeveer even grote groepen maken; percentiel 0-33, 34-66, en 67-100. Het probleem hiervan is, dat mensen in het 33ste percentiel opeens als heel anders worden beschouwd dan mensen in het 34ste percentiel; maar diezelfde mensen in het 33ste percentiel worden als identiek beschouwd aan de mensen in het 1ste percentiel.

Dit probleem kan worden opgelost door meer categorieen te kiezen (vier, of vijf, of zes, of ...) met als meest adequate oplossing evenveel categorieen te kiezen als er waarnemingen zijn (het equivalent van uberhaupt niet hercoderen in categorieen, dus).

Het aantal categorieen dat je kiest heeft direct invloed op de power. Een dichotome variabele (twee categorieen) heeft het minste power; met drie categorieen heb je al iets meer power; en een interval-variabele heeft het meeste power.

Als je dus een verband onderzoekt tussen leeftijd als onafhankelijke variabele, en een andere interval-variabele zoals extraversie als afhankelijke variabele, ga je leeftijd niet in categorieen indelen om een anova te kunnen doen. Je berekent simpelweg een correlatie-coefficient (Pearson's r).

Je kunt dit zelf uitproberen door een dataset te pakken, Pearson's r te berekenen, daarna een interval-variabele in categorieen in te delen, en een eenweg variantieanalyse te doen. Je zult zien dat de p-waarde lager is (tenzij je toevallig aparte categorieen hebt gekozen, maar dat wordt te ingewikkeld om nu op in te gaan).

PS: heel soms bestaan er overigens wel zinvolle grenswaarden om een interval-variabele in subcategorieen in te delen. Hoewel depressie in principe op een schaal wordt gemeten, is er pas wanneer mensen boven een bepaalde waarde scoren sprake van de diagnose 'depressie'. Hiermee kunnen proefpersonen dus wel zinvol worden ingedeeld. In de meeste gevallen bestaan er echter geen zinvolle grenswaarden. Een alternatieve aanpak die meer te verdedigen is, is proefpersonen selecteren die erg hoog en erg laag scoren; bijvoorbeeld in het eerste versus het derde tertiel (dus percentielen 0-33 versus 66-100). In dat geval is er nog steeds power-verlies natuurlijk, des te meer omdat de middelste groep wordt verwijderd, maar de groepen verschillen tenminste wezenlijk van elkaar.
beantwoord 18 oktober 2013 door gjp (69,340 punten)
bewerkt 18 oktober 2013 door gjp
Inderdaad uitgeprobeerd. Met drie categoriën en een one way anova bekom ik een p=0,032. Een regressie op dezelfde niet gecategoriseerde variabele geeft een p=0,005.mvg Jan De Smet
...