Waarom wordt bij eenzijdige toetsing een 90% betrouwbaarheidsinterval berekend als een 95% betrouwbaarheidsinval wordt gezocht?

Question

Waarom wordt bij eenzijdige toetsing een 90% betrouwbaarheidsinterval berekend als een 95% betrouwbaarheidsinval wordt gezocht?

1 Antwoord

gjp · Answer 1 · 2013-12-13T13:11:39+0000

Een betrouwbaarheidsinterval is beter dan een p-waarde, omdat een p-waarde je alleen vertelt hoe groot de kans is op een gegeven uitkomst, aangenomen dat de nulhypothese waar is. In bijna alle gevallen is de nulhypothese "er is geen verschil", "alles is gelijk", "er is geen verband", dus in het geval van een t-toets betekent de nulhypothese "beide gemiddelden zijn gelijk", en in het geval van een anova "alle gemiddelden zijn gelijk". Als je een p-waarde uitrekent, gebeurt er achter de schermen het volgende.

Bij een t-toets wordt de t-verdeling volgens de nulhypothese gebouwd. Als je 250 deelnemers per groep hebt, ziet deze er zo uit:

Dit zijn alle mogelijke t-waarden die je kunt vinden; en de oppervlakte van deze grafiek is precies 1. Dat betekent dat de oppervlakte onder een deel van de grafiek (bijvoorbeeld tussen t = -1 en t = 1) de kans uitdrukt op de corresponderende t-waarden (dus bijvoorbeeld de kans op een t tussen -1 en 1). Vervolgens wordt de t-waarde die bij jouw gemiddelden hoort opgezocht. Stel je bijvoorbeeld voor dat we in die twee groepen twee gemiddelden vinden van 6.2 en 7.64, en een standaardfout van .8. Dan is onze t-waarde dus (7.64 - 6.2) / .8 = 1.8:

Zoals je ziet is de kans dat je een t-waarde van 1.8 of groter vindt, gelijk aan 3.6%, onder aanname dat de nulhypothese waar is (deze t-verdeling is immers gebaseerd op die aanname). Echter, normaal toets je tweezijdig*, en kunnen gemiddelden dus op twee verschillende manieren afwijken; de ene kan hoger zijn, of de andere kan hoger zijn. Omdat je nooit kunt weten wat het geval is, toets je tweezijdig. Dat betekent dat hoewel de kans op een hogere t-waarde 3.6% is, de kans op een meer extremere t-waarde 2*3.6 = 7.2% is. De t-waarden kan immers ook negatief zoveel afwijken (zie de rode oppervlakte aan de linkerkant van de grafiek).

Stel dat we wel een significant resultaat hadden gehad. Dan hadden we de nulhypothese verworpen; maar we hadden nog geen idee gehad van wat het verschil tussen de gemiddelden nu eigenlijk is. Eigenlijk weten we dus nog niets.

This is where confidence intervals come in.

Betrouwbaarheidsintervallen vertellen ons wat de meest aannemelijke waarden zijn van dat verschil tussen gemiddelden. Hoe aannemelijk 'aannemelijk' is, hangt af van de betrouwbaarheid. Een betrouwbaarheidsinterval met 100% betrouwbaarheid bevat per definitie alle mogelijke waarden; en de aannemelijkheid van een willekeurige puntschatting is per definitie 0%. Meestal worden betrouwbaarheidsintervallen van 95% gehanteerd. De 95% aannemelijke waarden rondom het gemiddelde volgens de nulhypothese gebruik je bij je toetsing; als je t-waarde niet aannemelijk is gegeven de nulhypothese, verwerp je die nulhypothese. In het figuur hieronder zijn de gebieden die buiten dat 95% betrouwbaarheidsinterval om de nulhypothese vallen, rood gemaakt:

Zoals je ziet wordt de nulhypothese verworpen bij een t-waarde die lager is dan -1.96 of hoger dan 1.96.

Zo'n interval met plausibele waarden van t (of, van het verschil tussen gemiddelden, als je weer terugrekent van de t-verdeling naar de gemiddelden door te vermenigvuldigen met de standaardfout) kun je ook om je eigen verschil tussen gemiddelden heenleggen. Hiervoor zoek je de kritieke t-waarde (bij twee groepen van 250 deelnemers dus 1.96; maar vaak hoger, zie https://google.com/search?q=t+values), vermenigvuldig je die met je standaardfout, en leg je de uitkomst om je verschil heen (door die er vanaf te trekken en er bij op te tellen).

Nu komen we bij de eenzijdige toetsing. Als je eenzijdig toetst, stel je dat een afwijking maar naar één kant mogelijk is. Laten we nu even stellen dat de afwijking alleen positief kan zijn. In dat geval is je betrouwbaarheidsinterval dus per definitie oneindig lang, omdat alle negatieve waarden van t sowieso plausibel zijn; deze representeren immers allemaal steekproeftoeval, want we hebben immers gesteld dat 'echte' negatieve afwijkingen hoe dan ook nooit voor kunnen komen. Ons interval bestaat dus eigenlijk alleen uit de waarde die de 5% bovenste t-waarde begrenst. Dat kun je in dit figuur zien:

Zoals je ziet is slechts 5% van de t-waarden hoger dan 1.645. Natuurlijk is dan ook 5% van de t-waarden lager dan -1.645; maar nogmaals, dit negeren we, want we zitten in een situatie waarin dit onmogelijk is, anders zouden we niet eenzijdig toetsen. Een tweezijdig betrouwbaarheidsinterval dat correspondeert met die 5% aan de bovenkant (en onderkant) is dus 100% - 5% - 5% = 90%.

Om de relevante grenswaarde van het eenzijdige 95% betrouwbaarheidsinterval te vinden, moeten we dus een tweezijdig 90% betrouwbaarheidsinterval berekenen, en dan alleen de bovenste of onderste grenswaarde gebruiken.

* In de psychologie, tenminste; in de psychologie kun je hoogstens een hypothese hebben die impliceert dat een verschil een bepaalde richting uit gaat. Echter, je toets altijd onder aanname van de nulhypothese. Je veronderstelt tijdens toetsing dus dat je alternatieve hypothese incorrect is; je wordt dus 'gedwongen' om tweezijdig te toesen.

Categorieën

Waarom wordt bij eenzijdige toetsing een 90% betrouwbaarheidsinterval berekend als een 95% betrouwbaarheidsinval wordt gezocht?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.

Gerelateerde vragen

Categorieën

Waarom wordt bij eenzijdige toetsing een 90% betrouwbaarheidsinterval berekend als een 95% betrouwbaarheidsinval wordt gezocht?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.