Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Hoi!

Waarom wordt bij de berekening van de standaardfout eigenlijk gedeeld door de wortel van de steekproefgrootte?

Groetjes,
Chantal
in Inleiding Data Analyse (IDA) door (140 punten)

1 Antwoord

0 leuk 0 niet-leuks
Het is lastig om dit toe te lichten zonder ver van de veronderstelde kennis van de cursus af te drijven. Ik zal het beknopt proberen te houden.

Het is belangrijk om te weten dat 'gemiddelde' en 'variantie' en 'standaarddeviatie' wel gangbare termen zijn in statistische wiskunde, maar dat het speciale gevallen zijn van wat specifieker de 'verwachte waarde' (E) van een kansverdeling genoemd wordt. Er zijn dan verschillende methoden om tot de verwachte waarden van een verdeling te komen. Een gemiddelde is echter altijd de verwachte waarde van de verdeling uitgedrukt als de som van alle individuele observaties gedeeld door het totaal aantal observaties. De variantie is de verwachte waarde van (gekwadrateerde) individuele afwijkingen van de verwachte waarde van de verdeling. Neem dit als een gegeven.

Dus: de definitie van een variantie is:

$$ Var(X) = E \left[ \left( X_{i} - E \left[ X_{i} \right] \right)^2 \right] = \sigma^2 $$

Hier wordt het waarschijnlijk lastig als je nog niet echt bekend bent met rekenregels en wiskundige functie 'regels'. Maar door slim herschrijven van bovenstaande kan afgeleid worden dat het voor een steekproefvariantie nodig is om de populatievariantie te delen door N, de steekproefgrootte.

Dit komt omdat we hier aannemen dat de steekproevenverdeling (onder de centrale limietstelling) normaal verdeeld is. De steekproevenverdeling is een optelling van een oneindig aantal steekproeven. Dus de variantie:

$$ Var(X) = E \left[ \left( X_{i} - E \left[ X_{i} \right] \right)^2 \right] = \sigma^2 $$

Is wellicht de variantie van de populatie, maar als we uit die populatie een enkele steekproef trekken, dan moeten we de verwachte waarde van de variantie van die ene steekproef uit het oneindige berekenen.

Dus dit punt kort en eenvoudiger samenvatten: je kunt de steekproevenverdeling zien als een plot van de gemiddelden van een oneindig aantal steekproeven. Het gemiddelde van al die gemiddelden is dan het populatiegemiddelde. De variantie van de steekproevenverdeling is dan hoe ieder individueel steekproefgemiddelde gemiddeld (gekwadraateerd) afwijkt van het populatiegemiddelde.

We weten dat de verwachte waarde van een verdeling, het gemiddelde, is:

$$ E[X] = \frac{\sum{X_{i}}}{n} $$

als we dat in de definitie van de variantie substitueren dan krijgen we:

$$ Var(X) = E \left[ \left( \frac{\sum{X_{i}}}{n} - E \left[ \frac{\sum{X_{i}}}{n} \right] \right)^2 \right] $$

Als we de n buiten de haakjes halen dan:

$$ Var(X) = \frac{1}{n^2}E \left[ \left( \sum{X_{i}} - E\left[ \sum{X_{i}} \right] \right)^2 \right] $$

Om tot een schatting van de steekproefvariantie te komen is het belangrijk om te realiseren wat de aannames zijn, namelijk dat in een oneindig aantal steekproeven en bij random meetfout rond het gemiddelde dat de variantie van de steekproevenverdeling, de variantie van de som van alle steekproefvarianties, gelijk is aan de som van de varianties van alle steekproeven. Dat is eigenlijk wat bovenstaande al uitdrukt

Dit kunnen we visueel vereenvoudigen, want de verwachte waarde van alle X_i kennen we als het gemiddelde, en heeft als vereenvoudigde notatie X_bar:

$$ Var(X) = \frac{1}{n^2} E \left[ \left( \sum{X_{i}} - \sum{\bar{X}} \right)^2 \right] $$

Dus, de verwachte standaardafwijking van de steekproevenverdeling is de verwachte waarde van de standaardafwijking van de som van alle mogelijke steekproeven. Om deze som terug te brengen tot de schatting van een enkele steekproef moeten we het gemiddelde ervan nemen, dus delen door n, hiertoe komen we via eerst een verdere vereenvoudiging:

$$ Var(X) = \frac{1}{n^2} \sum E \left( X_{i} - \bar{X} \right)^2 $$

Deze vereenvoudiging is gebaseerd op de regel dat:

$$ E \left[ \sum{X_i} \right] = \sum {E \left[ X_i \right]} $$

Omdat het deel 'E' nu letterlijk de formulie van de populatievariantie is kunnen we dit vereenvoudigen tot:

$$ Var(X) = \frac{1}{n^2} \sum \sigma^2 $$

wat weer verder te vereenvoudigen is tot:

$$ Var(X) = \frac{1}{n} \sigma^2 $$

Dus, samengevat: omdat de variantie van het gemiddelde het gemiddelde het gemiddelde (1/n) is van de variantie van de steekproevenverdeling wordt door n gedeeld. Om de standaarddeviatie te berekenen moet de wortel van de variantie getrokken worden, of in dit geval kan worden volstaan met de wortel door n, omdat

$$ \frac{1}{n} \sigma^2 = \frac{\sigma^2}{n} $$

dus

$$ s = \sqrt{\frac{\sigma^2}{n}} = \frac{\sigma}{\sqrt{n}} $$
door (52.0k punten)
bewerkt door
...