Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Waarom heeft het geen zin een frequentietabel te betsellen voor continue waarden?

0 leuk 0 niet-leuks
Ik ben er op aan het kauwen. Misschien dat het kwartje nog echt valt. Mag ik er anders op terugkomen?  Het verheldert nu iets maar roept ook direct een vraag op:

Waarom heeft het geen zin een frequentietabel te vragen voor continue waarden, je kunt toch willen weten hoe frequent die voorkomen? Of is dat .. wacht even, rolt het kwartje nou?...., omdat je dan veel te veel waardes hebt/kunt hebben en dat er dan nog geen overzicht komt?
gevraagd 2 januari 2017 in Inleiding Data Analyse (IDA) door 851928612 (1,800 punten)

1 Antwoord

0 leuk 0 niet-leuks
Precies, dat is het antwoord. Bij een continue variabele (dus intervalniveau of rationiveau) zijn er tientallen, honderden of duizende verschillende meetwaarden. Pas als je data weg gaat gooien door bijvoorbeeld af te ronden wordt het zinvol om frequentietabellen te genereren.

Neem leeftijd. Als je leeftijd een beetje nauwkeurig meet, op de dag nauwkeurig bijvoorbeeld door de geboortedatum van mensen te gebruiken, en je neem alle studenten die op dit moment ingeschreven staan voor IDA (waarschijnlijk tussen de 200 en 300 studenten), hebben maar een paar mensen dezelfde geboortedatum (zie de 'Birthday Paradox': https://en.wikipedia.org/wiki/Birthday_problem). Bijna iedereen heeft dus andere geboortedata, en je krijgt dus voor bijna alle leeftijden een frequentie van 1. Dat is niet erg zinvol.

Als je data weg gaat gooien door leeftijd te categoriseren naar hele jaren wordt het al zinvoller. De meeste mensen zijn waarschijnlijk tussen de 18 en de 70 of 80, en wellicht is dit zelfs een normale verdeling, zodat je al een beetje fatsoenlijke frequenties en percentages krijgt.

Als je nog meer data weggooit door categorieen van 10 jaar breed te maken, wordt de frequentietabel nog bruikbaarder.

Maar, je data zijn wel veel minder bruikbaar. Je hebt veel informatie weggegooid, zonder iets te winnen. Als je wil weten hoe leeftijd (of een andere intervalvariabele) is verdeeld, kun je immers gewoon een histogram bestellen. Het statistische programma kiest dan automatische breedtes voor de categorieen en laat de verdeling visueel zien.

Dus inderdaad, het kwartje is gevallen. Of gerold :-)
beantwoord 2 januari 2017 door gjp (69,380 punten)
...