Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Beste docent,

Wat is de relatie tussen de formules M-1.96*S / M+1.96*S en M-1.96*SE /M+1.96*SE? (zie bron Betrouwbaarheidsinterval pag. 2)

In de bron staat dat met S het interval wordt berekend en met SE wordt bepaald. Wat is het verschil? En hoe verhoudt dit zich tot elkaar?

Prettig weekend alvast!
in Inleiding Onderzoek (OIO, PB02x2; was Inleiding Data Analyse, IDA) door (510 punten)

1 Antwoord

1 leuk 0 niet-leuks

De definitie van een betrouwbaarheidsinterval is ALTIJD dat deze gelijk is aan:

$$\text{interval}=\text{waarde}\pm\text{breedte-coefficient}*\text{standaardfout}$$

Dus, om een interval te krijgen, pak je de waarde waar je het interval voor wilt hebben (vaak een gemiddelde, maar kan ook een correlatie, een regressie-coefficient, of een effect size zijn), en de bijbehorende standaardfout. Dan heb je de eerste en laatste term in de formule al te pakken. Dan vervolgens moet je je 'breedte-coefficient' bepalen (zo heet dat ding helemaal niet, maar ik heb geen idee wat de technische term is, en omdat dit de coefficient is die de breedte bepaalt, vond ik dat wel een toepasselijke naam :-)).

Deze hangt af van hoe breed je het interval wil hebben - en dus van hoeveel vertrouwen je in het interval wil hebben. Als je een interval wil hebben waar je 100% vertrouwen in hebt, dan kan dat natuurlijk alleen maar als het interval oneindig breed is. Tegelijkertijd, als je een heel eng interval wil hebben (een hele exacte schatting), dan is de meeste extreme vorm een puntschatting (oftewel, alleen het gemiddelde). Zo'n interval heeft een breedte van 0, en dus kun je er 0% vertrouwen in hebben. De kans dat het gemiddelde in de populatie precies in dat interval met breedte 0 ligt, is natuurlijk 0% (als je maar op genoeg decimalen doorgaat).

In de praktijk kies je dus een mate van vertrouwen tussen 0% en 100% in; de meest gangbare breedtes zijn 95%, 90%, en 80%. Hoe minder vertrouwen je hebt dat het populatiegemiddelde in je interval ligt, hoe smaller het interval wordt.

Als je het percentage vertrouwen hebt bepaald, moet je de bijbehorende coefficient opzoeken. Zo'n coefficient kan een Z-waarde, een t-waarde, of nog iets anders zijn; dit hangt er vanaf om welke waarde je een interval wil bepalen. De kritieke waarde van Z, of t, etc, is de waarde die 95% (of 90%, of 80%) van de oppervlakte van de t-verdeling (of Z-verdeling, etc) omvat. Dit is moeilijk in woorden te vatten, die, een plaatje! :-)

Je ziet hier de t-verdeling voor een steekproef van 500 mensen. Het rode deel omvat 2.5% van deze verdeling aan de linkerkant, en 2.5% aan de rechterkant. Tussen de twee t-waarden (-1.96 en 1.96) die dit rode deel begrenzen ligt dus precies 1 - 2.5% - 2.5% = 95% van de verdeling. Dit betekent dat deze t-waarde de kritieke t-waarde is voor een 95% betrouwbaarheidsinterval.

Gewone gemiddelden zijn in de steekproevenverdeling verdeeld volgens de t-verdeling, dus dan moet je de juiste t-waarde zoeken. Als we nu een 95% betrouwbaarheidsinterval willen maken, en onze steekproef is toevallig 500 man groot, dan is deze betreffende kritieke t-waarde dus 1.96. Maar, als onze steekproef maar 128 man groot is (dit is 'toevallig' wat je nodig hebt om een gemiddelde effect size met 80% power aan te tonen), ziet de curve er al wat anders uit:

(hoewel het maar weinig scheelt - de kritieke t-waarde is nu 1.98)

En met een uitzonderlijk lage gepowerede t-test (nooit doen!!!) met bijvoorbeeld 20 mensen in elke conditie, krijg je dit:

Je ziet dat de kritieke t al iets hoger wordt (2.03).

De manier waarop je de kritieke t bepaalt, is dus door het vertrouwen voor je confidence interval af te trekken van 1 ((95% is gelijk aan .95; 80% is gelijk aan .80; etc). Dus, stel je voor dat we een 95% confidence interval (betrouwbaarheidsinterval, of eigenlijk, 'vertrouwensinterval', da's een letterlijker vertaling) willen hebben.

1 - .95 = .05. Dit is het deel van de t-curve dat we uit willen sluiten; dit betreft dus 2.5% aan de linkerkant van de curve, en 2.5% aan de rechterkant. Dus, we moeten nu de t-waarde opzoeken die de 2.5% aan de linkerkant ('onderkant') en 2.5% aan de rechterkant ('bovenkant') van de curve begrenst. Dit kan in Excel of LibreOffice Calc (ook gratis) bijvoorbeeld met de functie TINV. Deze functie geef je twee parameters mee; de eerste is de totale proportie van de curve die je 'over wil houden' (dus aan de onderkant en aan de bovenkant, het rode deel in de plaatjes hierboven dus), oftewel .05 in ons geval. De tweede parameter is de vrijheidsgraden. Als we bijvoorbeeld 128 mensen in onze steekproef hebben, is dat 126 (want Df = N - 2). In Excel of LibreOffice Calc geeft TINV(.05, 126) dan 1.978970602.

Dit is de ontbrekende waarde, en de waarde waarmee we de standaardfout moeten vermenigvuldigen om het getal te krijgen dat we van de betreffende waarde (e.g. gemiddelde etc) moeten aftrekken en optellen.

Dus, om terug te komen op je vraag: dit is een verschil in notitie :-)

Het laatste getal in de confidence interval-formule is altijd de standaardfout / standard error / SE. De standard error wordt normaal SE genoemd, maar net zoals je in een psychologisch artikel concepten definieert in het begin, kun je in de statistiek in principe ook andere definities hanteren als je dat wil . . .

door (77.4k punten)
Hartelijk bedankt. Volgens mij is het me allemaal duidelijk. Kan je bijvoorbeeld zeggen dat M-SE / M+SE een interval oplevert van 68%?
...