Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

klopt het rekenvoorbeeld van "de test van het model" van studietaak 5.4?

0 leuk 0 niet-leuks

In Studietaak 5.4 wordt bovenstaand rekenvoorbeeld gegeven. Maar klopt dit voorbeeld wel?

Waarom wordt de verklaarde SS gedeeld door 1? deze moet toch door 18 gedeeld worden? Voor R2=0,26 is F toch gelijk aan 0,34?

gevraagd 27 december 2016 in Inleiding Data Analyse (IDA) door nils.demurie (450 punten)

1 Antwoord

0 leuk 0 niet-leuks
De verklaarde SS wordt gedeeld door de vrijheidsgraden van het model, en die is in dit geval 1 (zie de alinea boven die formule). Daarom delen we de SS door 1.

Waarom denk je dat als $R^2$ gelijk is aan .26, de $F$-waarde gelijk is aan .34? je kunt voor een gegeven $R^2$ nooit weten wat de bijbehorende $F$-waarde is, omdat de $F$-waarde, als toetsingsgrootheid (een toetsingsgrootheid is een tussenstap naar de berekening van een $p$-waarde), afhankelijk is van de steekproefomvang. $R^2$ is, als gekwadrateerde correlatie, een effectgrootte, en is voor een verband van een gegeven sterkte dus altijd even groot, ongeacht de steekproefomvang. Om $R^2$ om te rekenen in een $F$-waarde moet je dus altijd de steekproefomvang meenemen: daarom kun je een $R^2$ in zichzelf nooit relateren aan een $F$-waarde.

Bij een gegeven $R^2$ (dus, een gegeven verband) wordt de $F$-waarde altijd groter naarmate de steekproefomvang stijgt. Daarom is de $F$-waarde ook niet nuttig behalve als tussenstap op de $p$-waarde te berekenen.
beantwoord 2 januari 2017 door gjp (68,750 punten)

Bedankt voor de feedback.

Kan je juist nog even verduidelijken waarom Dfverklaard = aantal voorspellers en Dfonverklaard = Dftotale variatie - Dfonverklaard. Waarom zijn Dfverklaard en Dfonverklaard niet gelijk aan Dftotale variatie?

Ik had de assumptie gemaakt dat Dftotale variatie = Dfverklaard = Dfonverklaard. In dat geval zou F niet meer afhankelijk zijn van het aantal vrijheidsgraden aangezien die elkaar zouden wegdelen.

Um. Geen idee waarom dat zo is :-) Ik weet wel dat je datapunten (je totale aantal vrijheidsgraden) af gaat nemen als je termen gaat schatten. Hoe meer je schat, hoe minder vrijheidsgraden je overhoudt voor de errorterm (de onverklaarde variantie), en hoe sterker elk verband dus moet zijn om 'significant' te zijn. Bij sommige analysemethoden, zoals Structural Equation Modeling (SEM) kun je zelfs door je vrijheidsgraden heenraken, omdat je tegenlijkertijd tientallen of honderden parameters probeert te schatten. Ik zal je vraag voorleggen aan de tweede examinator en aan mijn leidinggevende, misschien weten zij het antwoord.

Volgens mij is DFtotaal wel gelijk aan DFmodel + DFresidu.

Zie Field, pag 436 e.v.

Ja, dat klopt: de vrijheidsgraden van het model (= aantal voorspellers) en de error (n - aantal voorspellers - 1) zijn samen wel de totale vrijheidsgraden (n-1)! Maar die drie zijn dus niet elk aan elkaar gelijk zeg maar.

Ok, ik begrijp nu waarom Dfverklaard en Dfonverklaard niet gelijk zijn aan Dftotale variatie.

Ik heb er enkel nog moeite mee om te begrijpen wat nu precies de definitie van k is omdat dit onder studietaak 5.4 en door Field op een andere manier wordt uitgelegd.

Uitleg van k volgens studietaak 5.4:

Het aantal vrijheidsgraden van het model is gelijk aan het aantal voorspellers (1 dus, bij enkelvoudige regressie), en aangezien de vrijheidsgraden net als de variaties worden opgedeeld, zijn de resterende vrijheidsgraden voor de errorvariatie (n1k, waarbij k staat voor het aantal voorspellers in het model).

dus:

k = aantal voorspellers

Dfverklaard = k

Dfonverklaard = n -1 -k

Uitleg van k volgens Field pg. 439 - 440:

The degrees of freedom (dfM) fro SSM will always be one less than the number of things used to calculate the SS. We use the three group means so this value will be the number of groups minus one (which you'll see denoted as k-1). So, in the three-group case the degrees of freedom is 2.

The degrees of freedom for SSR (DfR) are the total degrees of freedom minus the degrees of freedom for the model (dfR = dfT - dfM = 14 - 2 = 12). Put another way, it's N - k. the total sample size, N, minus the number of groups, k.

dus:

k =  aantal groepen (= aantal voorspellers?)

Dfverklaard = k -1

Dfonverklaard = n - k

Waarom is dfverklaard in studietaak 5.4 gedefinieerd als k en door field als k - 1?

Dit is inderdaad verwarrend, hetgeen wordt veroorzaakt door de verschillende definities van k. Bij regressie zijn er k voorspellers die corresponderen met k df's. Bij ANOVA zijn er k groepen, maar dat zijn k-1 voorspellers. Je hebt namelijk k-1 zogenaamde dummy variabelen nodig om k groepen te representeren. Bijvoorbeeld bij drie groepen: dummy 1 geeft aan of je in groep 1 zit of niet, dummy 2 of je in groep 2 zit of niet. En is het antwoord twee keer niet dan zit je automatisch in groep 3, daar is geen aparte dummy (predictor, dus df) voor nodig. Aantal predictoren in ANOVA is dus aantal groepen - 1.
...