De samenvatting van wat de F-waarde precies betekent kan ik niet helemaal volgen, maar ik krijg de indruk dat de interpretatie wellicht te streng is, maar op een aantal punten ook onjuist.
Je maakt volgens mij een aantal aannames over de F-waarde:
1) De F-waarde wordt vergeleken met een nulmodel
2) een p-waarde < alfa (significant) zegt iets over de kwaliteit van de alternatieve hypothese (over over de kwaliteit van de nulhypothese)
3) De SS-between kan op zichzelf geinterpreteerd worden als de voorspellende kracht van de groepen (model).
Alleen de eerste stelling zou dan kloppen: Echter is stelling 2 altijd fout. Bij significantietoetsing (of specifieker: nulhypothese-significantietoetsing) moet de p-waarde puur als proportie geinterpreteerd worden. Dus bijvoorbeeld: Als de F-waarde '0' zou moeten zijn, dan zou in een oneindig aantal waarnemingen slechts een proportie 'p' (bijvoorbeeld .05) een F-waarde hebben gelijk of groter dan wat op de data berekend is.
De p-waarde geeft dus eigenlijk weinig meer dan de zeldzaamheid van een observatie aan. Om op basis daarvan de nulhypothese te verwerpen zegt eigenlijk weinig over de kwaliteit van nul- of alternatieve hypothese. Dat mensen de lotto winnen in Nederland heeft een kans van p < .001 (fors kleiner dan dat). Als iemand de lotto wint betekent dit niet dat dit bewijs is voor de oneerlijkheid van de lotto. Zeldzame gebeurtenissen kunnen voortkomen.
Het beste kun je de F-waarde zien als een signal-to-noise-ratio, een signaal-ruisverhouding. De gemiddelde verschillen tussen de groepen zijn het signaal dat je hoopt op te pikken. De gemiddelde individuele verschillen van de groepsgemiddelden zijn de ruis die het signaal verstoren. De F-waarde drukt uit hoeveel signaal je hebt in verhouding tot ruis.
Hier komt de denkfout bij stelling 3. De SS is 'slechts' de optelling van alle gekwadrateerde verschillen. Voor de between betreft het de optelling van alle gekwadrateerde verschillen van de groepsgemiddelden t.o.v. het algemene gemiddelde. Voor withing betreft het de optelling van alle gekwadrateerde individuele verschillen van ieder gropsgemiddelde. Dit zijn nog geen varianties. Om hier varianties van te maken, dus gemiddelde verschillen van het gemiddelde, moet er nog gedeeld worden door de vrijheidsgraden. De SS zijn daarom niet goed te interpreteren, ze moeten nog relatief gemaakt worden aan het aantal relevante observaties. De MS heb je daarom nodig om de F-waarde te berekenen. Het is alsof je een gemiddelde wilt interpreteren slechts door alle observaties bij elkaar op te tellen, maar niet te delen door het aantal observaties.
De meer signaal je hebt in verhouding tot ruis, de duidelijker het signaal, de groter F zal zijn. Afhankelijk van de vrijheidsgraden zal een verhouding die voldoende afwijkt van de nulhypothese steeds zeldzamer worden en op een gegeven moment onder alfa zakken.