Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Interpretatie F-statistiek bij Anova

0 leuk 0 niet-leuks
Beste lezer

Voor zover ik het begrepen heb, test de F-statistiek het model (in het kader van ANOVA is dat het verschil tussen gemiddelden) tav het nulmodel (in dit geval het algemene gemiddelde alsof er geen verschil tussen de gemiddelden zou zijn).

Als je in de ANOVA-tabel een F-waarde van 27 vindt, en een bijhorend p-waarde van 0,000 dan gaan we er dus vanuit dat het verschil tussen de gemiddelden een goed gekozen model is.

Als ik dan echter naar de SS ga kijken in diezelfde tabel dacht ik begrepen te hebben dat hoe meer variantie er tussen (between) de groepen zit, hoe beter de groepen de afhankelijke variabele voorspellen.

Nu staat in mijn tabel echter bij SS between 28 en bij SS within 116. Ik interpreteer dan dat er minder variatie door het model verklaard wordt en meer variatie verklaard wordt door de groepen zelf.

Welke denkfout maak ik hier?
gevraagd 29 december 2020 in Inleiding Data Analyse (IDA) door Veerle (170 punten)
opnieuw getoond 29 december 2020 door Veerle

1 Antwoord

0 leuk 0 niet-leuks
De samenvatting van wat de F-waarde precies betekent kan ik niet helemaal volgen, maar ik krijg de indruk dat de interpretatie wellicht te streng is, maar op een aantal punten ook onjuist.

Je maakt volgens mij een aantal aannames over de F-waarde:

1) De F-waarde wordt vergeleken met een nulmodel

2) een p-waarde < alfa (significant) zegt iets over de kwaliteit van de  alternatieve hypothese (over over de kwaliteit van de nulhypothese)

3) De SS-between kan op zichzelf geinterpreteerd worden als de voorspellende kracht van de groepen (model).

Alleen de eerste stelling zou dan kloppen: Echter is stelling 2 altijd fout. Bij significantietoetsing (of specifieker: nulhypothese-significantietoetsing) moet de p-waarde puur als proportie geinterpreteerd worden. Dus bijvoorbeeld: Als de F-waarde '0' zou moeten zijn, dan zou in een oneindig aantal waarnemingen slechts een proportie 'p' (bijvoorbeeld .05) een F-waarde hebben gelijk of groter dan wat op de data berekend is.

De p-waarde geeft dus eigenlijk weinig meer dan de zeldzaamheid van een observatie aan. Om op basis daarvan de nulhypothese te verwerpen zegt eigenlijk weinig over de kwaliteit van nul- of alternatieve hypothese. Dat mensen de lotto winnen in Nederland heeft een kans van p < .001 (fors kleiner dan dat). Als iemand de lotto wint betekent dit niet dat dit bewijs is voor de oneerlijkheid van de lotto. Zeldzame gebeurtenissen kunnen voortkomen.

Het beste kun je de F-waarde zien als een signal-to-noise-ratio, een signaal-ruisverhouding. De gemiddelde verschillen tussen de groepen zijn het signaal dat je hoopt op te pikken. De gemiddelde individuele verschillen van de groepsgemiddelden zijn de ruis die het signaal verstoren. De F-waarde drukt uit hoeveel signaal je hebt in verhouding tot ruis.

Hier komt de denkfout bij stelling 3. De SS is 'slechts' de optelling van alle gekwadrateerde verschillen. Voor de between betreft het de optelling van alle gekwadrateerde verschillen van de groepsgemiddelden t.o.v. het algemene gemiddelde. Voor withing betreft het de optelling van alle gekwadrateerde individuele verschillen van ieder gropsgemiddelde. Dit zijn nog geen varianties. Om hier varianties van te maken, dus gemiddelde verschillen van het gemiddelde, moet er nog gedeeld worden door de vrijheidsgraden. De SS zijn daarom niet goed te interpreteren, ze moeten nog relatief gemaakt worden aan het aantal relevante observaties. De MS heb je daarom nodig om de F-waarde te berekenen. Het is alsof je een gemiddelde wilt interpreteren slechts door alle observaties bij elkaar op te tellen, maar niet te delen door het aantal observaties.

De meer signaal je hebt in verhouding tot ruis, de duidelijker het signaal, de groter F zal zijn. Afhankelijk van de vrijheidsgraden zal een verhouding die voldoende afwijkt van de nulhypothese steeds zeldzamer worden en op een gegeven moment onder alfa zakken.
beantwoord 11 januari door Ron Pat-El (49,140 punten)
...