Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Mijn vraag gaat over 5.4. Daar staat na het rekenvoorbeeld van de F-waarde: 'Onder de nulhypothese is de verwachting daarom dat de F-waarde in de populatie gelijk is aan 1.'

Waarom is dat 1? Ik vind dat niet logisch. Als de verklaarde en onverklaarde variantie even groot zijn, dan wordt het 1. in dat geval is nog steeds de helft wel verklaard zijn en de andere helft onverklaard (dus ruis)?
Mij lijkt het logischer dat we meer bewijs voor de nulhypothese hebben als de onverklaarde variantie groter is dan de verklaarde variantie, dan is er immers een groter gedeelte onverklaard. Dat zou echter betekenen dat we juist onder de 1 uitkomen? Waarom is de F-waarde dan toch 1 als de nulhypothese in de populatie juist is?

Ik heb het antwoord onder deze vraag (https://onderzoeksvragen.ou.nl/2983/waarom-is-f-1-onder-de-van-de-nulhypothese) al bestudeerd. Daaruit begrijp ik dat de F-waarde nooit 0 kan worden, maar ik vind er geen antwoord op mijn vraag.
in Inleiding Onderzoek (OIO, PB02x2; was Inleiding Data Analyse, IDA) door (350 punten)

1 Antwoord

0 leuk 0 niet-leuks

Ik volg je redenering - hij gaat bijna goed, behalve een verkeerde aanname.

De term boven de streep in de F-formule is niet de verklaarde variantie.

De term boven de streep in de F-formule is de som van de verklaarde variantie en de errorvariantie.

Want:

$$F = \frac{MS_{\text{tussen groepen}}}{MS_{\text{binnen groepen}}}$$

Als er helemaal geen effect is, en dus niets verklaard kan worden, is alle variantie errovariantie.

De variantie binnen de groepen is sowieso alleen errorvariantie - die term is dus een zuivere schatter van de errorvariantie.

De variantie tussen de groepen bevat sowieso ook die errorvariantie; maar als de groepen verschillen, bevat die tussen-groepen-variantie bovendien ook nog die variantie door de groepsverschillen.

Als er geen groepsverschillen zijn, bevat de tussen-groepen-variantie dus uitsluitend errorvariantie.

In dat geval zijn zowel de binnen-groepen als de tussen-groepen varianties zuivere schatters van hetzelfde: de errorvariantie (in de populatie).

Behoudends toeval zouden die dus hetzelfde moeten zijn. Als je een getal door hetzelfde getal deelt, vindt je nul een.

Behoudens toeval is F dus nul een, als de groepen gelijk zijn.

door (77.8k punten)
bewerkt door

Bedankt voor het antwoord. Ik kan uw redenering volgen en begrijp dan ook dat de F nul wordt. Dit kan ik echter nog steeds niet helemaal rijmen met wat er in de werkwijzer en het boek van Field staat. Ik loop tegen de volgende punten aan:

  • U geeft aan dat de term boven de streep niet de verklaarde variantie is. Toch staat dit in de werkwijzer aangeduid als 'MS verklaard' en volgt de MSm in het boek van Field uit de SSm, waar het gaat om verschil in variatie tussen de groepen, zonder de ruis van de afzonderlijke datapunten. Dit concludeer ik uit afbeelding 12.4, blz 530. Hoe ik u begrijp en deze afbeelding lees, komt de MStussengroepen, zoals u hierboven omschrijft, meer overeen met de SSt. Dat is immers de variatie van de ruis tov het model samen met de variatie van de groepen tov het gemiddeld. Waar ga ik hier de mist in?
  • Als laatste geeft u aan dat er bij F=0 geen verschil is tussen de groepen. De nulhypothese die we toetsen in 5.4 is dat het model de afhankelijke variabele niet verklaard en dat dat F gelijk is aan 1. Hoe moet ik deze twee stellingen met elkaar rijmen?
  • Tot slot geeft Andy Field op pagina 533 onder de formule van F het volgende aan: 'Because F is the ratio of systematic to unsystematic variance, if it is less than 1 it means that MSr is greater than MSm and that there is more unsystematic than systematic variance.' Deze stelling sluit precies aan op mijn gedachtegang in mijn vraag hierboven, maar dus niet op wat de werkwijzer in 5.4 stelt. Hoe kan ik dit verschil verklaren? 
Hopelijk heb ik zo duidelijk uitgelegd waar ik tegen aan loop en kunt u mij helpen de verschillende puzzelstukjes weer aan elkaar te lijmen. 

Ik reageer ook even puntsgewijs.

  • Je gaat nergens de mist in; MS verklaard wordt zo genoemd, maar dat is dus eigenlijk een 'misnomer'. De ruis van de afzonderlijke datapunten zit er ook nog in. Dit zie je ook in die afbeelding 12.4 - want die ruis zit in de groepsgemiddelden. Dat zijn ook schattingen uit een steekproef, en dus ook onderhevig aan error. Dit zijn niet opeens de 'ware' gemiddelden.
  • Wow, dat tweede punt is een goed punt - dat is een typo. Ik pas gelijk gelijk aan. Er zou 1 moeten staan, niet 0! Als je een getal door hetzelfde getal deelt is dat 1, niet 0!
  • Dit kan verklaard worden doordat Field zich niet goed uitdrukt :-) Of hij definieert 'systematic' vs 'unsystematic' niet als "door groepsverschillen" vs "door error". Dat zou kunnen maar zou ook verwarrend zijn... Zoals Andy Field als eerste al bevestigen is hij ook maar een mens :-)

Wat msch helpt om te snappen waarom het niet logisch is dat tussen-groepen MS alleen de variantie door groepsverschillen is (dus zonder dat er ook error in zit): als dat wel zo zou zijn, waarom zou de error dan een logisch referentiepunt zijn? Waarom zou de ratio met de error dan de toetseenheid vormen?

Wat ook kan helpen is het zogenaamde anova-model nog eens te bestuderen:

$$y_{ij} = \overline{y} + y_j + e_i$$

Waar $y_{ij}$ de score van individu $i$ in groep $j$ is, $\overline{y}$ het algemene gemiddelde van $y$, $y_j$ het groepseffect van groep j (dus de afwijking van het groepsgemiddelde in groep j van het algemene gemiddelde), en $e_i$ de individuele afwijking van persoon $i$ (de error dus).

De variantie is de spreiding om $\overline{y}$ heen; die bestaat dus uit twee componenten; de verschillen tussen de groepen ($y_j$ voor alle groepen) en de individuele verschillen, de error ($e_i$ voor alle personen).

$MS_\text{within}$ kan alleen bestaan uit de som van $e_i$ voor alle personen, dus ten opzichte van hun groepsgemiddelde. $MS_\text{between}$ bestaat uit beide stukjes (dus $y_j + e_i$, want die groepsgemiddelden komen dus ook tot stand door error, want die worden berekend uit de scores van de personen in die groep, en daar zit ook error in - in de groepsgemiddelden heb je minder error, want het 'event out', maar je deelt ook maar door $k-1$, oftewel, het aantal groepen min 1), en als er geen groepseffecten zijn is $y_j$ nul, en dus zijn beide varianties aan elkaar gelijk.

...