Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Waarom door n-1 (groepen) delen bij ANOVA

0 leuk 0 niet-leuks
In de bron "vergelijken van meer dan twee gemiddelden, ANOVA" van Kwantitatieve Data analyse, wordt op blz. 5 gesteld: "In de variantieanalyse wordt echter de 'between groups sum of squares' niet gedeeld door het totaal aantal groepen, maar door het totaal aantal groepen minus 1. Hier wordt n-1 gebruikt en niet n omdat de variantie van de populatie geschat wordt op basis van de steekproef."

Dit begrijp ik niet zo goed. Door de variantie binnen de afzonderlijke groepen te berekenen wordt toch al de n-1 gebruikt omdat het gaat om een steekproef? Hier wordt echter het gemiddelde verschil tussen de varianties berekend van de groepen. De hoeveelheid groepen is toch geen steekproef?

Ik kan me voorstellen dat n-1 voortkomt uit het feit dat er tussen 5 groepen 4 verschillen zitten.

Klopt dit, of maak ik een denkfout? Is het in dat geval mogelijk duidelijker uit te leggen waarom het logisch is in dit geval door n-1 te delen omdat het een steekproef betreft (je maakt namelijk in dit geval de F groter door n-1 te doen t.o.v. delen door n)?
gevraagd 11 februari 2016 in Methodologie door 851894069 (260 punten)

1 Antwoord

0 leuk 0 niet-leuks
De variantie is op dat moment nog niet berekend. In de ANOVA-tabel staan een aantal zaken van belang mbt het toetsen van verschillen tussen groepen:

SS: de sum of squares

df: de vrijheidsgraden

MS: de SS/df

F: de MS van de groepen gedeeld door de MS van de residuen (within-variantie)

p: de kans op de gegeven F als de nulhypothese (F=0) zou kloppen

Merk op dat SS: sum of squares niet hetzelfde is als de variantie. De variantie is een som van opgetelde gekwadrateerde afwijkingen van het gemiddelde gedeeld door de n -1 (het aantal vrijheidsgraden). In een ANOVA tabel is dus de SS enkel nog het deel van de variantie BOVEN de deelstreep (de opgetelde gekwadrateerde afwijkingen van het algemene gemiddelde). In de ANOVA wordt per groep een gemiddelde berekend en het gemiddelde van iedere groep wordt afgetrokken van het algemene gemiddelde over alle groepen heen (en dit verschil wordt steeds gekwadrateerd). Om tot de variantie te komen moet eerst nog door het aantal gemeten afwijkingen van het algemene gemiddelde (in dit geval het aantal groepen) min 1 worden gedeeld. Merk op dat in de ANOVA tabel de MS dus eigenlijk pas de klassieke variantie is: een SS gedeeld door het aantal vrijheidsgraden.

Je zat dus op de goede weg: er is echter nog geen variantie berekend: de MS is de variantie en de F wordt dus nog steeds berekend door twee varianties op elkaar te delen (MSB en MSE).
beantwoord 12 februari 2016 door Ron Pat-El (40,900 punten)
Heel hartelijk dank voor het antwoord, dit verheldert een aantal punten zeker voor me (en wijst me ook op een fout in mijn redenatie).

 

Mijn vraag sloeg ook op de uitleg dat n-1 moest worden genomen omdat het een steekproef betreft. Boven de streep kon ik deze redenering niet goed volgen omdat het hier alle 5 de groepen betreft en geen steekproef uit de groepen. Moet hier n-1 worden genomen omdat de groepen zijn opgebouwd uit respondenten die in een steekproef van de totale populatie zijn genomen?
Hoewel de formulering dat de n-1 gebruikt wordt in steekproeven klopt, is het niet altijd helemaal duidelijk hoe breed wiskundigen 'steekproeven' definieren. Het gaat namelijk niet zozeer om een steekproef van mensen, maar over het aantal waarnemingen in een parameterschatting.

In een ANOVA wordt een algemeen gemiddelde geschat. Iedere 'groep' is een observatie die gebruikt kan worden om dat algemene gemiddelde te berekenen. Er is echter informatie 'teveel' in steekproeven: als we het algemene gemiddelde weten, en het gemiddelde van alle groepen (en N is gelijk in alle groepen), dan weten we al bij K-1 groepen welk gemiddelde de laatste groep heeft. Om dit te compenseren nemen we daarom ook bij het vergelijken van groepen een groep weg in het bepalen van de vrijheidsgraad: slechts k-1 waarnemingen zijn vrij: de laatste is niet vrij, want altijd bekend bij een gegeven algemeen gemiddelde.

Het helpt om vrijheidsgraden niet als n-1 te zien; het aantal vrijheidsgraden is namelijk afhankelijk van het aantal 'vaste' elementen in een schatting. Zie het eerder als het aantal observaties min het aantal noodzakelijke verbanden tussen deze observaties'. In het berekenen van de variantie is bijvoorbeeld het gemiddelde een vaste waarde, en alle losse waarnemingen (die vrij mogen varieren) worden in verband gebracht met die ene vaste waarneming (het gemiddelde) vandaar in een variantie n-1. Echter, bij de within variance wordt de variantie binnen iedere groep berekend, en hierdoor zijn de gemiddelden van iedere groep fixed, en vandaar N-k ipv N-1.
...