Het antwoord van Gjalt-Jorn dekt de lading, maar ik kan mij voorstellen dat df nog steeds abstract blijft. Ik zal openen met een beetje een flauw antwoord: vrijheidsgraden zijn een wiskundig concept, en binnen die wiskunde zo abstract, dat het zich niet wiskundeloos helder laat toelichten. Dit is helaas een beetje een geval van 'accepteer dat een df bestaat en leave it at that'.
Dat geschreven hebbende: het gemiddelde gebruiken om df's toe te lichten is een lastig voorbeeld, omdat het een situatie is die niet intuitief leidt tot een begrip van df. Het gemiddelde contrastren met variantie kan misschien een extra invalshoek bieden:
De kern is dat iedere waarneming een vrije variatie mag hebben. Echter, bij het schatten van het gemiddelde is eigenlijk iedere waarneming informatief en in wezen nodig. Als ik twee datapunten heb, bijvoorbeeld een 4 en een 2 dan kan ik het gemiddelde berekenen ( = 3). Zolang ik het gemiddelde nog niet weet, dan kan ik niet op basis van alleen de 4, of de 2 weten wat het tweede getal moet zijn. Ik moet alle getallen hebben om het gemiddelde te berekenen. Dit gaat een beetje tegen het voorbeeld in de vraag in, want daar wordt er ook vanuitgegaan dat je het gemiddelde weet. De situatie wordt daarmee een beetje tegenintuitief, want hoe weten we het gemiddelde als we het eerst nog willen schatten? Eenvoudiger en eigenlijk een beter voorbeeld is de variantie
De variantie is het gemiddelde van de gekwadrateerde afwijking van het gemiddelde. Stel ik heb twee waarnemingen 4 en 2, waarvan we eenvoudig berekenen dat het het gemiddelde 3 is. Op basis van deze informatie kunnen we een populatievariantie berekenen:
$ \sigma^2 = \frac{ \Sigma(X_{i} - \mu)^{2}}{N} = \frac{(4 - 3)^2 + (2-3)^2}{2} = \frac{(1 + 1)}{2} = 1 $
In dit voorbeeld heb ik twee datapunten, en eigenlijk heb ik dan 1 meer dan ik nodig heb om de variantie te schatten. Bij twee datapunten weet ik namelijk dat als het eerste getal 1 punt boven het gemiddelde ligt, dan moet(!) de andere 1 punt onder het gemiddelde liggen; dat is namelijk de aard van een gemiddelde afwijking van het gemiddelde. Dus bij twee waarnemingen heb ik niet twee waarnemingen nodig om de variantie te berekenen: de eerste waarneming volstaat.
Het wordt misschien iets ingewikkelder bij meer waarnemingen, maar het principe blijft hetzelfde, iedere keer ga je de variantie berekenen, maar steeds heb je de laatste waarneming in je berekening eigenlijk niet meer nodig, die kun je gewoon invullen om tot het berekenen van de variantie te komen, nog voordat je de variantie zelf weet. Dus bij alle varianties meet je dus eigenlijk steeds een observatie meer dan je eigenlijk voor je berekening nodig hebt. Die ene waarneming 'teveel' staat vast zodra je alle overige waarnemingen weet, en die wordt dan de vrijheidsgraad genoemd.
Dit is ook de reden dat je bijvoorbeeld bij correlaties 2 vrijheidsgraden hebt, omdat je de variantie berekent in twee variabelen, dus heb je bij iedere variabele een redundante waarneming.