Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Proportie verklaarde variantie of Proportie verklaarde variatie?

0 leuk 0 niet-leuks
Vraag 19 van oefententamen 2 van OKD is als volgt::

Beoordeel de juistheid van de volgende twee stellingen.

I De totale variantie van de Y-scores kan in een regressiemodel opgesplitst worden in de door X verklaarde variantie en de niet door X verklaarde variantie.
II De proportie verklaarde variantie van Y door X wordt weergegeven door R2.

Het antwoord is: beide stellingen zijn juist.
Maar gaat het bij stelling 2 niet om de proportie verklaarde variatie in plaats van variantie?
gevraagd 10 juni 2015 in Kwantitatieve Data Analyse (KDA) door Frank van Marwijk (1,020 punten)

2 Antwoorden

0 leuk 0 niet-leuks

Dit is een uitstekende vraag, en eentje waar ik zelf ook nog geen bevredigend antwoord op heb. Toen ik dit lang geleden aan mijn statistiekdocent vroeg, melde hij dat de variantie simpelweg gemiddelde variatie is; de implicatie was dat ze dus eigenlijk hetzelfde zijn, behalve dat de variantie is gecorrigeerd voor het aantal datapunten waar hij op is gebaseerd.

In het Engels zie je dat ook een beetje in de termen MS en SS: SS is Sum of Squares, en MS is Mean Sum of Squares; allebei een vorm van Sum of Squares dus.

In het Engels heb je verder alleen de term 'variance'; in het Nederlands hebben we variatie en variantie, maar 'zij' niet. In het Engels wordt, in de literatuur die ik tegenkom, 'variance' ook gebruikt voor wat wij variatie noemen; dat is dan alleen 'dus' de ongecorrigeerde varantie.

Maar formeel/technisch heb je gelijk, volgens mij: $R^2$ is de proportie verklaarde variatie, niet de proportie verklaarde variantie.

Ik hoop eigenlijk dat Ron straks een bevredigender antwoord heeft :-)

beantwoord 11 juni 2015 door gjp (63,300 punten)
0 leuk 0 niet-leuks
In de statistiek is eigenlijk enkel de term 'variantie' van toepassing. Variatie is een volksmondachtige manier om over ruis te praten. Alles wat dan niet constant is in een set van observaties is dan variatie, maar met variantie wordt specifiek aan een wiskundig concept gerefereerd: de gemiddelde gekwadrateerde afwijking rond het gemiddelde. Door hier de wortel van te trekken komen we tot de gemiddelde afwijking rond het gemiddelde, wat de standaarddeviatie wordt genoemd.

In een statistische context wordt dus enkel gesproken over de variantie, of de wortel ervan, de standaarddeviatie. Dat zijn termen met wiskundige eigenschappen. Variatie heeft die wiskundige eigenschappen nog niet tegekend gekregen. De variatie kan in spraak wel slaan op de 'puntenwolk' als het ware, maar zodra we deze variatie ergens in moeten uitdrukken wordt het eigenlijk automatisch iets specifieks wiskundig, zoals variantie. Laten we zeggen dat variatie een set waarnemingen is die per observatie kunnen verschillen). Variantie is dan de centrummaat van alle waargenomen verschillen in die set van waarnemingen. Variantie is handig, want door afwijkingen te kwadrateren worden grotere afwijkingen van het gemiddelde belangrijker, en daarmee informatiever, gemaakt.

Het is ook logisch om te communiceren en te rekenen met zo'n centrummaat voor variatie, want anders zouden we altijd hele datasets moeten overhandigen wanneer we over spreiding willen spreken. Wanneer mensen vragen naar hoe een groep studenten het tentamen hebben gemaakt dan mailen we hen ook niet gelijk de hele dataset; we geven ze het gemiddelde tentamencijfer. Als we vragen naar hoe de studenten varierden in dat cijfer, dan wederom geven we niet de hele dataset: we geven ze de gemiddelde (gekwadrateerde) afwijking rond het gemiddelde

In een model met predictoren (verklarende variabelen) zal er altijd een deel van alle variatie (volksmond) op Y, verklaard kunnen worden door het model (de set van predictoren) plus meetfout (alle afwijkingen binnen de predictoren). (De bekende Y = FIT + ERROR). Zodra al die variatie op Y in getallen wiskundig moet worden geduid (zodat we kunnen rekenen) gebruiken we de variantie: een centrummaat om variatie in uit te kunnen drukken. Een deel van de variantie is logisch; als X veranderd veranderd Y mee. Dit is verklaarde variantie. Wat we niet snappen is waarom er weer variabiliteit is binnen X op Y. Dit drukken we ook uit in een samenvattende centrummaat: de binnengroepenvariantie.

Hoeveel variantie tussen groepen (X) er ten opzichte van de totale variantie van Y (de samenvatting van alle variatie) is wordt dan ook in een enkel getal uitdrukbaar: de proportie verklaarde variantie.

Maw: als variatie al iets is, dan is het niet iets dat zich goed laat uitdrukken; het is de hele dataset. Variantie is een manier om de data samen te vatten en om ermee verder te rekenen.
beantwoord 12 november 2015 door Ron Pat-El (39,900 punten)
...