Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Wat is een zuivere schatter en hoe staat die in relatie tot de verwachtingswaarde?

0 leuk 0 niet-leuks
In H2 wordt dit genoemd en er staat ook een vraag over in de oefententamens. Ik dacht eerst dat een zuivere schatter gewoon een woord is voor 'test statistic', maar na de stof nog eens goed gelezen te hebben begrijp ik eigenlijk niet wat er wordt bedoeld. Kan iemand mij helpen?
gevraagd 5 januari in Inleiding Data Analyse (IDA) door clairevdwal (510 punten)

2 Antwoorden

1 leuk 0 niet-leuks
 
Beste antwoord

De verwachtingswaarde is de waarde die je verwacht te vinden voor een gegeven schatter. Als je bijvoorbeeld een willekeurige steekproef neemt uit een populatie, dan is de verwachtingswaarde van het gemiddelde in die steekproef gelijk aan het gemiddelde in de populatie. Dat is zo omdat onder die voorwaarden, het gemiddelde uit een willekeurige steekproef een zuivere schatter is van het populatiegemiddelde.

Maar, stel je voor dat de steekproef niet willekeurig is, maar dat je een vragenlijst online zet, en mensen zelf kiezen of ze die invullen. In dat geval heb je geen aselecte steekproef, en is het gemiddelde in die steekproef geen zuivere schatter voor het populatiegemiddelde.

Een 'test statistics' is een grootheid die je berekent als hulpmiddel om een statistische test uit te kunnen voeren. Dit gebeurt meestal in de context van nulhypothese significantietoetsing, waarbij het doel is om een p-waarde uit te rekenen. Die p-waarde is de kans op de gevonden effectgrootte (of andere uitkomst), onder aanname dat die effectgrootte in de populatie de 'nul waarde' (meestal ook 0) heeft. De berekening van die p-waarde vereist dat je iets berekent waarvan je de verdelingsvorm van de steekproevenverdeling kent, en dat is geval geval voor bijvoorbeeld $t$ en $F$. Die 'halverwege waarden' worden daarom 'test statistics' genoemd.

beantwoord 6 januari door gjp (66,080 punten)
geselecteerd 7 januari door clairevdwal
Maar als je verwachtingswaarde het gemiddelde is van de populatie, terwijl je die niet weet, vind ik het verwarrend dat bij NHST 0 wordt genomen als verwachte waarde - maar dit is dus niet de verwachtingswaarde toch?

Het helpt om bij het bespreken van biased en unbiased estimators de 'wet van de grote getallen' te kennen (https://nl.wikipedia.org/wiki/Wetten_van_de_grote_aantallen). In het kort: als een random proces eindeloos herhaald dan zal het gemiddelde van de uitkomsten neigen naar het theoretisch gemiddelde. Let op: dus niet de absolute uitkomsten. Als twee tennisspelers die exact even goed zijn tegen elkaar spelen dan winnen ze na oneindig aantal potjes ongeveer 50% van de wedstrijden ieder. Echter: het daadwerkelijke aantal gewonnen potjes loopt uiteen met een wetmatigheid van wortel(n). 

Een biased estimator kun je dus het makkelijkste zien als deze regel schendend. Varianties zonder de (n-1) onder de deelstreep zijn zo'n voorbeeld: theoretisch zal deze vriijwel altijd een onderschatting van de populatievariantie opleveren. De correctie van N-1 (ipv N) maakt de schatter juist weer unbiased (https://en.wikipedia.org/wiki/Bessel's_correction) . Dus, dat op eindeloos aantal steekproeven gemiddeld genomen de populatiewaarde ermee geschat wordt. 

Per steekproef heb je niet direct wat aan deze kennis. Maar de aanname dat je met een statistiek werkt (gemiddelde, mediaan, etc.) die in staat is om de 'werkelijke' (populatie) statistiek te vinden is tamelijk centraal aan statistische analyses. Zoals gjp daarom aangeeft: als je assumpties schendt, zoals de assumptie dat de residuals (meetfout) gemiddeld nul zijn door aselecte steekproeven, of zeer geneste data, dan is je estimator niet meer unbiased; dus niet in de basis in staat om 'gemiddeld genomen' roos te treffen.

Goed aanvulling Ron!

En Claire, om nog even terug te komen op je vraag over nulhypothese significantietoetsing: de 'null' waarde (meestal inderdaad 0, hoewel dat niet is waar de 'null' voor staat) kies je juist omdat je nooit kunt weten wat het gemiddelde in de populatie is. Maar je moet toch wat; daarom kies je de 'null' waarde, meestal inderdaad 0. Je toetsts vervolgens hoe groot de kans is dat de waarde die je vond, uit een populatie komt waar het gemiddelde de null waarde had (meestal dus: 0 is).

Als je uitkomst significant is, weet je jammer genoeg niets meer over het populatiegemiddelde - daar is je procedure niet op ontworpen. Dat is een van de fundamentele problemen van nulhypothese significantietoetsing, en een van de redenen waarom dat steeds vaker wordt afgeraden.
0 leuk 0 niet-leuks
Helder, bedankt!
beantwoord 7 januari door clairevdwal (510 punten)
...