Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Waarom is F = 1 onder de van de nulhypothese?

0 leuk 0 niet-leuks

In studietaak 5.4 wordt onderstaande beschreven:

De nulhypothese die met deze F-waarde wordt getoetst is dat het model de afhankelijke variabele niet verklaard, oftewel, dat R2=0. Als dat zo is, dat bestaat de verklaarde variantie (MSverklaardMSmodel, of MSeffect) uitsluitend uit ruis; er is dan immers geen effect om van te spreken. De verklaarde variantie is dan even groot als de onverklaarde variantie (MSonverklaardMSerror, of MSresidu), die de mate van ruis uitdrukt. Onder de nulhypothese is de verwachting daarom dat de F-waarde in de populatie gelijk is aan 1.

Ik kan deze redenering niet volgen. Boven deze paragraaf staat beschreven dat de Verklaarde variatieR2 * SStotaal  en  MSverklaard=SSverklaard / Dfverklaard

Volgens deze formules is de verklaarde varantie toch 0 als R2 = 0? En als de verklaarde variantie = 0, dan is F toch ook gelijk aan 0?

En als de waarde van F onder de nulhypothese toch gelijk is aan 1, waarom begint de waarde van F op de F-verdeling dan vanaf 0? 

gevraagd 3 januari 2017 in Inleiding Data Analyse (IDA) door nils.demurie (450 punten)

1 Antwoord

0 leuk 0 niet-leuks

Dit is inderdaad complex. Er spelen drie zaken door elkaar:

  • Een soort 'ideaal model' met theoretische waarden onder $H_0$:
    • Onder $H_0$ is de populatiewaarde van $r$ en dus bij enkelvoudige regressie ook van $R$ gelijk aan $0$.
    • Onder $H_0$ is de populatiewaarde van $r$ en dus bij enkelvoudige regressie ook van $R^2$ gelijk aan $0$.
    • Onder $H_0$ is de populatiewaarde van $F$ gelijk aan $1$ - hoewel dit een moeilijk concept is, want in die ideale wereld is er geen eenduidige definitie van het concept van 'errorvariantie' (dus de noemer van de F-formule).
    • Echter, die theoretische populatiewaarden zijn theoretisch: je rekent nooit met de populatie-$F$, of met de populatie-$R$. De hele statistiek is gebaseerd op het gegeven dat er spreiding is: errorvariantie. Statistiek is een middel om die errorvariantie in kaart te brengen en zo op basis van steekproeven uitspraken te doen over de populatie. Zo gauw je met varianties gaat rekenen werk je niet meer in die 'ideale theoretische wereld', maar in de wereld van 'onbereikbare populatiewaarden', errorvariantie, en steekproevenverdelingen. Dus, door naar puntje twee.
  • De verwachtingswaarde van zuivere schatters van de populatiewaarden van $r$, $R$ en $F$. Dit zijn de waarden van $r$, $R$ en $F$ die je uitrekent in je steekproef, en deze zijn verdeeld volgens de bijbehorende steekproevenverdeling, waarvan je er hierboven eentje hebt neergezet (die van $F$).
    • De verwachtingswaarde van $F$ is $1$: je verwacht dat als je oneinding veel steekproeven neemt in een populatie waar geen verband is, en je middelt alle $F$-waarden, dat je een gemiddelde van $1$ vindt.
    • De verwachtingswaarde van $R$ en $r$ is ook gelijk aan $0$: als je oneindig veel steekproeven neemt uit een populatie waar geen verband bestaat, en je middelt alle correlaties die je vindt, dan is dat gemiddelde $0$.
    • De verwachtingswaarde van $R^2$ en $r^2$ is niet nul. Dat komt omdat een correlatie ook negatief kan zijn, maar een proportie verklaarde variantie niet. Als je dus door ruis (error) een negatieve correlatie vindt in een steekproef uit een populatie waar geen verband bestaat, dan is de bijbehorende proportie verklaarde variantie positief. Als je dus oneindig veel steekproeven berekent en je middelt alle proporties verklaarde variantie, dan kun je nooit op $0$ uitkomen. De verwachtingswaarde van $R^2$ en $r^2$ is dus positief (en hoe groot die is hangt af van je steekproefomvang: de steekproevenverdeling van $r$ en dus $R$ (bij enkelvoudige regressie) wordt immers smaller als $N$ stijgt, en dus wordt de verwachtingswaarde van $R^2$ en $r^2$ lager).
  • Het hoogste punt van de steekproevenverdeling, oftewel de modus van de steekproevenverdeling. Dit is niet  gelijk aan de verwachtingswaarde. De $F$-verdeling onder $H_0$ hierboven is een goed voorbeeld (de grijze lijn dus). De modus is $0$ (bij benadering; dit is een limiet, want $F$ kan nooit precies nul zijn, als je maar op genoeg decimalen kijkt). Maar in deze verdeling staan ook $F$-waarden van $1$, $2$, $3$, $4$ en $5$. Als je alle mogelijke $F$-waarden in deze verdeling zou middelen, dan kom je op . . . (tromgeroffel) $1$ uit: de verwachtingswaarde van $F$. Oftewel, de $F$ die je zou vinden als je oneindig veel steekproeven zou nemen, en de $F$ uit elke steekproef zou middelen.

Ik hoop dat dit het heeft kunnen verhelderen. Zoals ik zei, dit is erg complex: we gaan nu heel erg de diepte in, tegen de wiskundige onderbouwing aan, en dit gaat dus buiten het curriculum. Maar ik hoop dat je wat aan de uitleg hebt gehad!

beantwoord 5 januari 2017 door gjp (69,620 punten)

Ik had er inderdaad niet bij stilgestaan dat de verwachtingswaarde van Rniet nul is. Bedankt voor de verduidelijking.

...