Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

hoe werkt het met vrijheidsgraden

0 leuk 0 niet-leuks
IDA 21., p 47. Help me graag even?

"Stel dat we ...in essentie."     n-1 snap ik voldoende en dat dit = Df snap ik nu (eindelijk ) ook. Maar hoe lees ik dit nu toch? Ik zie niet in hoe de datapunten 1,2,3 --> 0,0,0 kunnen worden als 4 'niet vrij is' en blijft staan; want 4/4=1 en dús is de essentie veranderd want het gemiddelde is dan geen 2,5 meer maar 1. Ik neem aan dat ik de klemtoon verkeerd leg bij het lezen maar kan niet ontdekken waar.
gevraagd 1 december 2016 in Inleiding Data Analyse (IDA) door 851928612 (1,800 punten)

3 Antwoorden

0 leuk 0 niet-leuks

Sorry, dit was dan niet duidelijk. Met dat dat laatste datapunt niet vrij is wordt bedoeld dat het niet langer vrij kan varieren. De waarde van dat laatste datapunt staat al vast doordat de waarde van de eerste drie datapunten al is bepaald. Om het gemiddelde van $2.5$ ($\frac{1+2+3+4}{4}=2.5$) te handhaven moet dat laatste datapunt wel de waarde $10$ aannemen.

Dat laatste datapunt staat dus niet vast op de waarde die hij voorheen had ($4$), maar hij staat vast op een nieuwe waarde die wordt bepaald door het gemiddelde en de 'nieuwe waarden' van de overige punten in de datareeks. Hij moet dus wel $10$ zijn. Hij heeft geen vrijheid; en de datareeks heeft dus maar $3$ vrijheidsgraden.

beantwoord 2 december 2016 door gjp (63,910 punten)
0 leuk 0 niet-leuks
Begrijp jij het antwoord van Gjalt-Jorn?

Ik had (heb) dus hetzelfde probleem, ik snap de Df maar deze uitleg snap ik nog steeds niet.
beantwoord 16 januari 2018 door Fadoua (240 punten)
0 leuk 0 niet-leuks
Het antwoord van Gjalt-Jorn dekt de lading, maar ik kan mij voorstellen dat df nog steeds abstract blijft. Ik zal openen met een beetje een flauw antwoord: vrijheidsgraden zijn een wiskundig concept, en binnen die wiskunde zo abstract, dat het zich niet wiskundeloos helder laat toelichten. Dit is helaas een beetje een geval van 'accepteer dat een df bestaat en leave it at that'.

Dat geschreven hebbende: het gemiddelde gebruiken om df's toe te lichten is een lastig voorbeeld, omdat het een situatie is die niet intuitief leidt tot een begrip van df. Het gemiddelde contrastren met variantie kan misschien een extra invalshoek bieden:

De kern is dat iedere waarneming een vrije variatie mag hebben. Echter, bij het schatten van het gemiddelde is eigenlijk iedere waarneming informatief en in wezen nodig. Als ik twee datapunten heb, bijvoorbeeld een 4 en een 2 dan kan ik het gemiddelde berekenen ( = 3).  Zolang ik het gemiddelde nog niet weet, dan kan ik niet op basis van alleen de 4, of de 2 weten wat het tweede getal moet zijn. Ik moet alle getallen hebben om het gemiddelde te berekenen. Dit gaat een beetje tegen het voorbeeld in de vraag in, want daar wordt er ook vanuitgegaan dat je het gemiddelde weet. De situatie wordt daarmee een beetje tegenintuitief, want hoe weten we het gemiddelde als we het eerst nog willen schatten? Eenvoudiger en eigenlijk een beter voorbeeld is de variantie

De variantie is het gemiddelde van de gekwadrateerde afwijking van het gemiddelde. Stel ik heb twee waarnemingen 4 en 2, waarvan we eenvoudig berekenen dat het het gemiddelde 3 is. Op basis van deze informatie kunnen we een populatievariantie berekenen:

$ \sigma^2 =  \frac{ \Sigma(X_{i} -  \mu)^{2}}{N} = \frac{(4 - 3)^2 + (2-3)^2}{2} = \frac{(1 + 1)}{2} = 1 $

In dit voorbeeld heb ik twee datapunten, en eigenlijk heb ik dan 1 meer dan ik nodig heb om de variantie te schatten. Bij twee datapunten weet ik namelijk dat als het eerste getal 1 punt boven het gemiddelde ligt, dan moet(!) de andere 1 punt onder het gemiddelde liggen; dat is namelijk de aard van een gemiddelde afwijking van het gemiddelde. Dus bij twee waarnemingen heb ik niet twee waarnemingen nodig om de variantie te berekenen: de eerste waarneming volstaat.

Het wordt misschien iets ingewikkelder bij meer waarnemingen, maar het principe blijft hetzelfde, iedere keer ga je de variantie berekenen, maar steeds heb je de laatste waarneming in je berekening eigenlijk niet meer nodig, die kun je gewoon invullen om tot het berekenen van de variantie te komen, nog voordat je de variantie zelf weet. Dus bij alle varianties meet je dus eigenlijk steeds een observatie meer dan je eigenlijk voor je berekening nodig hebt. Die ene waarneming 'teveel' staat vast zodra je alle overige waarnemingen weet, en die wordt dan de vrijheidsgraad genoemd.

Dit is ook de reden dat je bijvoorbeeld bij correlaties 2 vrijheidsgraden hebt, omdat je de variantie berekent in twee variabelen, dus heb je bij iedere variabele een redundante waarneming.
beantwoord 16 januari 2018 door Ron Pat-El (40,810 punten)
bewerkt 16 januari 2018 door Ron Pat-El
...