Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
In R wordt onderscheid gemaakt tussen 'numeric' variabelen en 'factoren'. Wat houdt dit onderscheid in?
in Anders door (77.8k punten)

1 Antwoord

0 leuk 0 niet-leuks
Variabelen hebben een meetniveau. De grofste indeling van deze meetniveau's is in categorische variabelen en continue variabelen. De categorische variabelen worden gekenmerkt doordat elke mogelijke meetwaarde een categorie representeert, terwijl bij de continue variabelen de meetwaarden getallen representeren. Categorische variabelen zijn bijvoorbeeld geslacht, haarkleur, lievelingskleur, automerk, en opleidingsniveau; en continue variabelen zijn temperatuur, leeftijd, extraversie, optimisme, en intentie om XTC te gebruiken.

Categorische variabelen kunnen verder worden ingedeeld in nominale en ordinale variabelen. Bij nominale variabelen zijn de meetwaarden niet gerangschikt, zoals bij geslacht, haarkleur, en lievelingskleur. Bij ordinale variabelen wel, zoals bij opleidingsniveau.

Continue variabelen kunnen verder worden ingedeeld in interval en ratio variabelen. Het verschil tussen deze twee betreft het bestaan van nul, en dus of breuken kunnen bestaan. Dit is erg abstract en niet relevant voor psychologisch onderzoek, dus daar zal ik hier verder niet op ingaan. 'For all practical purposes' kun je de termen 'continu', 'interval', en 'ratio' als uitwisselbaar beschouwen; er zijn geen statistische analyses die onderscheid maken.

In R worden categorische variabelen 'factoren' genoemd. Continue variabelen worden 'numeric' variabelen genoemd. Categorische variabelen kunnen eventueel 'ordered' zijn; dan zijn het dus ordinale variabelen. In SPSS is het ook mogelijk om deze meetniveau's aan te geven, hoewel categorische variabelen in SPSS altijd worden gerepresenteerd door getallen.

Het is belangrijk dat je in je dataframe (R) of dataset (SPSS) goed aangeeft wat het meetniveau van je variabelen is. In R kun je makkelijk converteren met functies als as.factor() en as.numeric(). In R gedragen variabelen zich ook anders; als je summary() gebruikt bij een factor, krijg je frequenties; als je summary() gebruikt bij een numeric variabele, krijg je het minimum en maximum, het eerste en derde kwartiel en de mediaan, en het gemiddelde.
door (77.8k punten)
bewerkt door
...