Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Als er geen 0 voorkomt in het betrouwbaarheidsinterval van een t-test, betekent dit dat er wel of geen effect/verschil is?

0 leuk 0 niet-leuks
gevraagd 16 januari 2017 in Inleiding Data Analyse (IDA) door Ivonne Lipsch (2,210 punten)

1 Antwoord

0 leuk 0 niet-leuks

Nee, dit betekent het niet. Of er in de populatie een effect/verschil/verband/associatie/relatie is, weet je nooit.

Het betrouwbaarheidsinterval geeft (met een gegeven betrouwbaarheid) aan wat plausibele populatiewaarden zijn. Als je het betrouwbaarheidsinterval van een $t$-waarde berekent (wat je normaal niet doet - ik ken ook geen analyse die dit doet, trouwens?), dan weet je dus wat in de populatie plausibele waarden van $t$ zijn. En als je het betrouwbaarheidsinterval van Cohen's $d$ berekent, dan weet je wat in de populatie plausibele waarden van Cohen's $d$ zijn; en als je het betrouwbaarheidsinterval van het ruwe verschil tussen gemiddelden berekent, dan weet je wat in de populatie plausibele waarden voor het verschil tussen de gemiddelden zijn.

Als 0 in een van die intervallen niet ligt, ligt het ook niet in de andere twee. Maar, je weet dan niet of er een verband/relatie/associatie/effect/verschil is. Van steekproef tot steekproef verschilt immers de puntschatting die je vindt, en je betrouwbaarheidsinterval schuift dus ook van steekproef tot steekproef heen en weer.

Stel dat je een steekproef neemt van 100 deelnemers, en we nemen even aan dat het verband in de populatie gelijk is aan Cohen's $d = .3$. Dan kunnen we tien van die steekproeven simuleren met het volgende commando in R:

sampleSize <- 100; populationCohensD <- .3;
round(matrix(sapply(1:10, function(x) {
  cohensdCI(rd(1,
               sampleSize-2,
               populationCohensD),
            sampleSize);
  }),
  ncol=2, byrow=TRUE,
  dimnames=list(1:10, c('lo', 'hi'))), 2);
      lo   hi
1   0.00 0.79
2  -0.54 0.24
3   0.10 0.89
4  -0.11 0.67
5   0.11 0.90
6  -0.03 0.76
7  -0.24 0.54
8  -0.16 0.62
9   0.05 0.84
10 -0.16 0.62

(dit hoef je natuurlijk niet zelf te kunnen - maar geinteresseerde studenten kunnen hier natuurlijk wel zelf mee spelen door sampleSize en populationCohensD te veranderen)

Zoals je hier ziet ligt 0 soms wel (steekproeven 2, 4, 6, 7, 8, en 10, en misschien ook 1, dat hangt er vanaf of dit van een negatief getal of een positief getal is afgerond), en soms niet in het interval. In deze situatie weten we dat Cohen's $d$ gelijk is aan .3, en dat er dus daadwerkelijk een verband/verschil/effect bestaat in de populatie. We zouden dus in zes of misschien zeven van deze steekproeven de verkeerde conclusie trekken.

Dus, nee, of nul in het betrouwbaarheidsinterval ligt, betekent niet of er een effect/verschil/verband is of niet.

Wel is het zo dat als je nulhypothese significantie toetsing (NHST) toe zou passen, dat als 0 niet een betrouwbaarheidsinterval van een gegeven betrouwbaarheid ligt, dat betekent dat de puntschatting ook significant zou zijn bij een alpha die gelijk is aan 1 minus die betrouwbaarheid. Oftewel, als je een 95% betrouwbaarheidsinterval uitrekent, en 0 ligt er niet in, dan betekent dat vaak (maar niet altijd! Dit hangt er onder andere van af welke aannames worden gehanteerd bij de berekening van de toetsingsgrootheid (bijvoorbeeld $t$) en bij de berekening van het betrouwbaarheidsinterval. Wordt er bijvoorbeeld vanuit gegaan dat de varianties in beide groepen gelijk zijn? Wordt Cohen's $d$ gecorrigeerd voor bias in kleine steekproeven? Etc) dat als je NHST zou toepassen, je een $p$-waarde onder de $.05$ zou vinden.

Maar, dat betekent nog niet dat er een effect is, of juist niet, natuurlijk. Zoals hierboven in de tabel zichtbaar is, zou je in zes of zeven van de steekproeven een Type 2-fout maken.

Het is belangrijk om statistische analyses niet te zien als middelen om een 'ja/nee' besluit (oftewel, een dichotoom besluit) te nemen. In plaats daarvan leveren analyses evidentie, en die evidentie accumuleert over verschillende studies om beter schattingen van effectgroottes op te leveren. Die schattingen van de effectgroottes kunnen vervolgens bijvoorbeeld worden gecombineerd met 'real world information' om bijvoorbeeld beleid te formuleren.

Maar op basis van een enkele studie concluderen of er wel of geen effect/verschil is, kan nooit.

beantwoord 17 januari 2017 door gjp (64,700 punten)
...