Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Waarom wordt bij eenzijdige toetsing een 90% betrouwbaarheidsinterval berekend als een 95% betrouwbaarheidsinval wordt gezocht?

0 leuk 0 niet-leuks
Ik weet inmiddels dat 90 % betrouwbaarheidsinterval bij eenzijdige toetsing hoort en 95 % bij tweezijdige toetsing. Mij is niet helemaal duidelijk waarom, dus de achtergrond. Ik neem het nu gewoon voor waar maar leer dingen makkelijker als ik het snap.
Ook zit ik met die betrouwbaarheidsinterval als ik al een t toets of annova heb gedaan waaruit significantie blijkt waarom dan ook nog betrouwbaarheids interval. Wat voegt het toe?
gevraagd 29 november 2013 in Methodologie door roosdamstra (300 punten)
bewerkt 13 december 2013 door gjp

1 Antwoord

1 leuk 0 niet-leuks

Een betrouwbaarheidsinterval is beter dan een p-waarde, omdat een p-waarde je alleen vertelt hoe groot de kans is op een gegeven uitkomst, aangenomen dat de nulhypothese waar is. In bijna alle gevallen is de nulhypothese "er is geen verschil", "alles is gelijk", "er is geen verband", dus in het geval van een t-toets betekent de nulhypothese "beide gemiddelden zijn gelijk", en in het geval van een anova "alle gemiddelden zijn gelijk". Als je een p-waarde uitrekent, gebeurt er achter de schermen het volgende.

Bij een t-toets wordt de t-verdeling volgens de nulhypothese gebouwd. Als je 250 deelnemers per groep hebt, ziet deze er zo uit:

Dit zijn alle mogelijke t-waarden die je kunt vinden; en de oppervlakte van deze grafiek is precies 1. Dat betekent dat de oppervlakte onder een deel van de grafiek (bijvoorbeeld tussen t = -1 en t = 1) de kans uitdrukt op de corresponderende t-waarden (dus bijvoorbeeld de kans op een t tussen -1 en 1). Vervolgens wordt de t-waarde die bij jouw gemiddelden hoort opgezocht. Stel je bijvoorbeeld voor dat we in die twee groepen twee gemiddelden vinden van 6.2 en 7.64, en een standaardfout van .8. Dan is onze t-waarde dus (7.64 - 6.2) / .8 = 1.8:

Zoals je ziet is de kans dat je een t-waarde van 1.8 of groter vindt, gelijk aan 3.6%, onder aanname dat de nulhypothese waar is (deze t-verdeling is immers gebaseerd op die aanname). Echter, normaal toets je tweezijdig*, en kunnen gemiddelden dus op twee verschillende manieren afwijken; de ene kan hoger zijn, of de andere kan hoger zijn. Omdat je nooit kunt weten wat het geval is, toets je tweezijdig. Dat betekent dat hoewel de kans op een hogere t-waarde 3.6% is, de kans op een meer extremere t-waarde 2*3.6 = 7.2% is. De t-waarden kan immers ook negatief zoveel afwijken (zie de rode oppervlakte aan de linkerkant van de grafiek).

Stel dat we wel een significant resultaat hadden gehad. Dan hadden we de nulhypothese verworpen; maar we hadden nog geen idee gehad van wat het verschil tussen de gemiddelden nu eigenlijk is. Eigenlijk weten we dus nog niets.

This is where confidence intervals come in.

Betrouwbaarheidsintervallen vertellen ons wat de meest aannemelijke waarden zijn van dat verschil tussen gemiddelden. Hoe aannemelijk 'aannemelijk' is, hangt af van de betrouwbaarheid. Een betrouwbaarheidsinterval met 100% betrouwbaarheid bevat per definitie alle mogelijke waarden; en de aannemelijkheid van een willekeurige puntschatting is per definitie 0%. Meestal worden betrouwbaarheidsintervallen van 95% gehanteerd. De 95% aannemelijke waarden rondom het gemiddelde volgens de nulhypothese gebruik je bij je toetsing; als je t-waarde niet aannemelijk is gegeven de nulhypothese, verwerp je die nulhypothese. In het figuur hieronder zijn de gebieden die buiten dat 95% betrouwbaarheidsinterval om de nulhypothese vallen, rood gemaakt:

Zoals je ziet wordt de nulhypothese verworpen bij een t-waarde die lager is dan -1.96 of hoger dan 1.96.

Zo'n interval met plausibele waarden van t (of, van het verschil tussen gemiddelden, als je weer terugrekent van de t-verdeling naar de gemiddelden door te vermenigvuldigen met de standaardfout) kun je ook om je eigen verschil tussen gemiddelden heenleggen. Hiervoor zoek je de kritieke t-waarde (bij twee groepen van 250 deelnemers dus 1.96; maar vaak hoger, zie https://google.com/search?q=t+values), vermenigvuldig je die met je standaardfout, en leg je de uitkomst om je verschil heen (door die er vanaf te trekken en er bij op te tellen).

Nu komen we bij de eenzijdige toetsing. Als je eenzijdig toetst, stel je dat een afwijking maar naar één kant mogelijk is. Laten we nu even stellen dat de afwijking alleen positief kan zijn. In dat geval is je betrouwbaarheidsinterval dus per definitie oneindig lang, omdat alle negatieve waarden van t sowieso plausibel zijn; deze representeren immers allemaal steekproeftoeval, want we hebben immers gesteld dat 'echte' negatieve afwijkingen hoe dan ook nooit voor kunnen komen. Ons interval bestaat dus eigenlijk alleen uit de waarde die de 5% bovenste t-waarde begrenst. Dat kun je in dit figuur zien:

Zoals je ziet is slechts 5% van de t-waarden hoger dan 1.645. Natuurlijk is dan ook 5% van de t-waarden lager dan -1.645; maar nogmaals, dit negeren we, want we zitten in een situatie waarin dit onmogelijk is, anders zouden we niet eenzijdig toetsen. Een tweezijdig betrouwbaarheidsinterval dat correspondeert met die 5% aan de bovenkant (en onderkant) is dus 100% - 5% - 5% = 90%.

Om de relevante grenswaarde van het eenzijdige 95% betrouwbaarheidsinterval te vinden, moeten we dus een tweezijdig 90% betrouwbaarheidsinterval berekenen, en dan alleen de bovenste of onderste grenswaarde gebruiken.

 

* In de psychologie, tenminste; in de psychologie kun je hoogstens een hypothese hebben die impliceert dat een verschil een bepaalde richting uit gaat. Echter, je toets altijd onder aanname van de nulhypothese. Je veronderstelt tijdens toetsing dus dat je alternatieve hypothese incorrect is; je wordt dus 'gedwongen' om tweezijdig te toesen.

beantwoord 13 december 2013 door gjp (68,400 punten)
Als ik het goed begrijp wordt er bij de anova toets altijd een 95% interval aangehouden, omdat er standaard tweezijdig wordt getoetst, ook als de hypothese kennelijk eenzijdig is geformuleerd?
Ja, dit klopt!
Maar waarom vinken we dan bij een correlatieanalyse tussen twee variabelen one-tailed aan? Dat is iets wat ik heb aangenomen maar eigenlijk weet ik niet goed waarom.
Als het goed is doe je dat niet . . . Waar las je dat dat de bedoeling is? Wellicht een foutje in het cursusmateriaal, dat we dan zo snel mogelijk moeten corrigeren!
Ik vond het al zo onlogisch. Het staat op de sheet van de begeleidingsbijeenkomst Zwolle dd 17/3/2015, op de sheet 'Pearson's r in SPSS. In het plaat je staat er One-tailed aangevinkt bij het toetsen samenhang tussen 2 variabelen: ervaring met pesten en ervaring met agressie. De volgende sheets geeft dus een Sig 1-tailed aan. Ik begrijp dat je dus beter altijd 2-zijdig moet toetsen. Maar wanneer vink je dan optie one-tailed aan?
Nooit :-) Tenzij je heel sterk kunt beargumenteren dat het onmogelijk is dat een effect (en belangrijker, je meetfout) negatief dan wel positief is, maar in de psychologie kan dat vrijwel nooit.

Op die sheet zal dan een foutje staan - weet je van welke begeleider dat was? Dan kan ik er achteraan gaan. Alvast bedankt!
Inge Noback. Het staat dan dus op twee sheets fout. Want op de sheet erna staat ook one-tailed. Verder was ik overigens erg tevreden over de begeleidingsbijeenkomst.
Ah, ik zal haar even mailen! Zoals ik zei, omdat eenzijdige toetsing vroeger als didactisch instrument werd ingezet kom je het soms nog tegen in onderwijsmateriaal. Dit soort 'heads ups' zijn dus erg handig, dankjewel! :-)
...