Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Wanneer moet ik overgaan op het dichotomiseren van (één van) mijn criterium variabele vanwege bimodaliteit van de verdeling? Ik vermoed een bimodale verdeling op basis van het histogram, maar zekerheid heb ik niet vanwege ontbreken van een diptest functie in SPSS. Zijn er nog alternatieve manieren om meer zekerheid te krijgen mbt dit fenomeen?

Ik dichotomiseer namelijk liever niet vanwege power verlies.

(NB: het lukt mij jammer genoeg niet om het histogram hier te plakken...)
in Cross-sectioneel Onderzoek (OCO, PB08x2) door (320 punten)

2 Antwoorden

0 leuk 0 niet-leuks
Dichotomiseren is meestal niet goed, inderdaad, vanwege verlies van power. In deze cursus doen we dat soms wel, i.c. om te kunnen oefenen met logistische regressie.

MvG, Rolf
door (13.1k punten)
0 leuk 0 niet-leuks

Wel - je kunt de dip test natuurlijk toepassen in R :-)

(om het histogram op te nemen moet je het als plaatje inladen; dus eerst opslaan. Maar ik kan me er wel iets bij voorstellen :-))

Maar om wat dieper op je vraag in te gaan: je moet hier eigenlijk anders naar kijken.

Statistiek is eigenlijk de makkelijkste/oppervlakkigste van drie lagen die belangrijk zijn bij wetenschappelijk onderzoek.

Statistiek betreft de analyse van datareeksen die zijn verkregen middels toepassing van operationalisaties in steekproeven. De statistiek maakt het mogelijk om door de 'ruis' in die datareeksen in kaart te brengen inschattingen te maken over dingen die niet in je steekproef zitten, zoals over de populatie.

Maar, die statistiek is uitsluitende een middel: een middel dat doelgericht en met beleid moet worden toegepast. Vreemde uitkomsten in een analyse zijn meestal een indicatie dat er iets niet goed zit op een fundamentel niveau. Hier zijn er twee van.

Een niveau 'dieper' ligt de methodologie. Is je operationalisatie wel valide? Is je steekproef wel goed geworven? Als de validiteit van je operationalisaties of je procedures in het geding is, heb je al een antwoord op je vraag. De datareeksen die door de operationalisaties van je constructen zijn gegenereerd zijn dan niet goed te interpreteren. De uitkomsten van statistische analyses die je op die datareeksen los laat zijn dus niet interessant meer. Als een operationalisatie, zoals een meetinstrument, bijvoorbeeld niet valide is, dan weet je gelijk niet meer wat je eigenlijk hebt gemeten. Het bestuderen van een datareeks met onbekende oorsprong kan tot weinig inzichten leiden. Soms kan het hypothesegenererend zijn, maar dat is het dan wel.

Als je methodologie in orde is, kan het zijn dat er iets niet klopt met je theorie. Het zou bijvoorbeeld simpelweg zo kunnen zijn dat het betreffende theoretische construct zo is gedefinieerd dat deze een bimodale verdeling heeft onder bepaalde omstandigheden.

Probeer bij verwarrende of verrassende uitkomsten van je statistische analyses dus altijd eerst vanuit de methodologie en theorie te interpreteren of je kunt plaatsen wat er is gebeurd: hoe die datareeks tot stand kan zijn gekomen.

Als je dit niet begrijpt, dan loop je hier vast. Dichotomiseren is dan niet te rechtvaardigen: je hebt immers reden om aan te nemen dat je validiteit serieus is bedreigd. Domweg dichotomiseren kan wel, maar is niet integer vanuit wetenschappelijk oogpunt.

Als je wel begrijp wat er is gebeurd, dan zullen vervolgstappen vervolgens ook duidelijk zijn. Dichotomiseren kan een vervolgstap zijn, bijvoorbeeld als je concludeert dat je een fout hebt gemaakt bij de ontwikkeling of keuze van de operationalisatie (e.g. de cognitieve validiteit van de operationalisatie was te laag).

Als je dichotomiseert zou je zoektocht naar wat er nu precies speelde ook helderheid moeten geven over waar je dichotomiseert. De 'cut-off' die je kiest moet immers wel te verdedigen zijn; die moet eigenlijk een waarde hebben (e.g. een klinisch gehanteerde grens bij diagnose, 'slagen'/'falen' bij een toets, etc).

door (77.8k punten)

Hartelijk dank voor de reactie. Dit is trouwens het figuur. Mag ik dit nog beschouwen als een normaalverdeling?

De (sub)schaal bestaat uit 4 items met Likert schaal 1 t/m 7, 4 = neutraal. Het gemiddelde van de samengestelde schaal = 3.2, Dus de cut-off zou niet op de neutrale waarde zijn, waardoor er geen betekenisvolle tweedeling zou kunnen worden gemaakt (wel of geen 'Y'). 

Bij factoranalyse waarbij 2 factoren werden getrokken laden alle 4 de items mooi op één sterke factor. De Cronbach's Alpha van de schaal = .72. Onderlinge correlaties liggen tussen de 0.29 en 0.56.Geen enkel item heeft een item-restcorrelatie < 0.4. Dit is dus in orde. Wat verder wel opvalt is dat 1 item een nogal rechtsscheve verdeling heeft en 1 item een nogal linksscheve, maar beide < |3|. Zou dit toch een oorzaak kunnen zijn? Verder heb ik jammer genoeg onvoldoende informatie over de procedure om een zinvolle uitspraak te kunnen doen hierover. 

De theorie achter het psychologisch construct lijkt prima in orde. Maar misschien is er toch een soort wel/niet fenomeen opgetreden bij deze schaal wat in eerste instantie niet is verwacht.

...