Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Waarom kwadrateren bij Sum of Squares/ Variatie?

0 leuk 0 niet-leuks

Ter illustratie van mijn vraag, eerst het volgende citaat uit het digitale werkboek:

'Tabel 2.1.1: De afwijking van het gemiddelde voor elk datapunt.

fixatiebias mean differences
151 44.3 106.7
-124 44.3 -168.3
78 44.3 33.7
1070 44.3 1026
-315 44.3 -359.3
46 44.3 1.7
-93 44.3 -137.3
-450 44.3 -494.3
-136 44.3 -180.3
216 44.3 171.7

Nu kunnen we die afwijkingen van het gemiddelde, oftewel die verschilscores, bij elkaar optellen:

106.7+−168.3+33.7+1025.7+−359.3+1.7+−137.3+−494.3+−180.3+171.7=0

Dit is logisch: het gemiddelde ligt immers, letterlijk per definitie, precies in het midden van alle datapunten. De positieve afwijkingen, van datapunten die boven het gemiddelde liggen, zijn samen dus precies evenveel als de negatieve afwijkingen, van datapunten die onder het gemiddelde liggen, en de optelsom van alle afwijkingen is dus altijd precies 0.'
Dat is een probleem: als we de afwijkingen van het gemiddelde niet bij elkaar kunnen optellen, hoe kunnen we dan een indruk krijgen van hoe ver alle punten in de datareeks van het gemiddelde afliggen?

Gelukkig is er een oplossing: we kunnen deze afwijkingen kwadrateren. Vermenigvuldiging van een negatief getal met zichzelf resulteert immers in een positief product!'

Mijn gedachtegang hierover is als volgt: 
De laatste kolom 'differences' wordt gekwadrateerd. Dat is het aantal punten verschil met het gemiddelde. Hij wordt gekwadrateerd zodat het gemiddelde geen '0' meer is en ermee gerekend kan worden. 

Nu mijn vraag: als het gaat om het aantal punten verschil met het gemiddelde en als we ermee mogen gaan rekenen, waarom kunnen we dat aantal punten verschil met het gemiddelde niet gewoon direct als positief getal nemen? Dus -168.3 wordt 168.3. Het heeft vast een goede reden dat we het eerst kwadrateren en dan weer wortel trekken, maar ik zie nu niet waarom.

Ik kan me voorstellen dat het antwoord hierop iets met verhoudingen en de berekening die tussen het kwadrateren en wortel trekken ligt te maken heeft, maar ik begrijp niet hoe dat werkt. Om goed inzicht te krijgen in hoe deze berekeningen werken en de getallen zich ten opzichte van elkaar verhouding, zou ik dit graag weten. 

gevraagd 28 november 2018 in Inleiding Data Analyse (IDA) door SanneC (280 punten)

2 Antwoorden

0 leuk 0 niet-leuks
Dit is een uitstekende vraag.

Ik heb geen idee.

Ik vermoed dat je gelijk hebt dat het iets te maken heeft met het soort gemiddelde dat de variantie is - door die kwadratering tellen grotere afstanden relatief zwaarder mee.

Maar eerlijk gezegd weet ik het gewoon niet.

Ik snap dat dat ergens frustrerend kan zijn, dus mijn excuses.

Aan de andere kant is het misschien ook geruststellend :-)

(of juist niet :-))
beantwoord 30 november 2018 door gjp (64,270 punten)
0 leuk 0 niet-leuks
Wellicht heeft deze vraag al een antwoord hier: https://onderzoeksvragen.ou.nl/5488/standaarddeviatie-daadwerkelijke-meetwaarden-gemiddelde

De belangrijkste samenvatting:

Kwadrateren heeft een aantal functies, een daarvan is het meer gewicht geven aan groter wordende afwijkingen van het gemiddelde. Het is niet zonder controverse, en het is ook afhankelijk van de verdeling. De variantie in een poisson-verdeling is namelijk gelijk aan het gemiddelde, en wordt bijvoorbeeld niet gekwadrateerd.

Een ander voordeel (maar heeft een wat ingewikkeld wiskundig bewijs) ligt in de eigenschappen die een kwadraat van afwijkingen heeft. Wij gebruiken vaak gemiddelde en variantie afgekort als M en Sigma^2, maar in kanstheorie is het eigenlijk corrrecter om te spreken van de verwachte waarde van een verdeling. Deze 'verwachte waarde' is een flexibere manier om met kansverdelingen om te gaan en wiskundigen rekenen graag allerlei varianten van verwachte waarden naar elkaar om. Een afwijking op basis van gekwadrateerde afwijkingen is makkelijker om mee te werken, omdat het een aantal eigenschappen heeft die absolute verschillen niet hebben.

Maar, zoals in het gelinkte antwoord al aangegeven: de sum-of-squares methode is niet zonder controverse, en iemand die een absolute benadering zou willen toepassen doet niets fout.
beantwoord 30 november 2018 door Ron Pat-El (40,860 punten)
...