Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Vreemde waarden in databestand oplossen?

0 leuk 0 niet-leuks
In mijn databestand staan vreemde waarden bij 'groep' (hoort 6, 7 of 8 te zijn, hier komt een 1 in voor) en sekse (hoort 1 of 2 te staan, hier komt een 3 in voor). Wat kan ik hier het beste mee doen? Niets? Gewoon aangeven bij respondenten dat iemand niet heeft aangegeven in welke groep de persoon zit en voor sekse idem?
gevraagd 6 juli in Methodologie door Pregunta (3,180 punten)

2 Antwoorden

0 leuk 0 niet-leuks
Als er waarden in je data staan die niet kloppen dan is het goed om te achterhalen waar dit door komt. Heb jij iets verkeerd geprogrammeerd of hebben mensen iets foutiefs ingevuld. In beide gevallen kun je de waardes zien als missing values.
beantwoord 7 juli door Natascha de Hoog (8,860 punten)
0 leuk 0 niet-leuks
Eigenlijk heb je het juiste al gedaan: het uberhaubt opmerken. Veel mensen (studenten, maar ook wetenschappelijk personeel) vergeten dikwijls om deze check te maken.

Afhankelijk van de dataset en ondersteundende materialen zijn er een aantal opties. Deze hebben gemeen met elkaar dat het een zoektocht betreft naar 'zijn dit herstelbare fouten, of onherstelbare fouten?'

1) Als er een codeboek of labjournaal is, dan kan daarin vaak nog uitgevogeld worden wat er gebeurd is. Zijn de waarden toe te schrijven aan een omstandigheid (zoals falende aparatuur, of een anomaliteit, bijvoorbeeld een leerling te gast uit een andere klas). Dit is de meest directe bron om vast te stellen wat er met vreemde waarden aan de hand is.

2) Ruwe data raadplegen. Het wil nog wel eens gebeuren dat bij het werken van een databestand er fouten in ontstaan, bijv. door verkeerde knoppen drukken, scripts per ongeluk runnen en bestand opslaan etc. Check in gevallen waar er nog een ruw data bestand is of er verschillen zijn tussen ruwe data en huidige data.

3) De meest ruwe data raadplegen. Eigenlijk het vorige punt, maar dan check je of fouten toe te schrijven zijn aan echt gegeven antwoorden. Bijv. een vragenlijst waar iemand zelf een '3' heeft ingevuld bij geslacht, of iemand die zelf een klas invult die niet op de lijst staat. Ik heb wel eens meegemaakt dat iemand aan een lijst van opleidingen zelf nog 'bijbel' toevoegde bijvoorbeeld, of dat iemand niet de 1-7 in een Likert schaal omcirkelde, maar de labels 'helemaal bij oneens' en 'helemaal mee eens' die voor en na de 1 en 7 stonden.

Als dit alles niet mogelijk is, of geen antwoord geeft over de aard van de 'vreemde waarden' dan kun je eigenlijk weinig anders doen dan vaststellen dat deze waarden niet tot de populatie (de beoogde verzameling van mogelijke uitkomsten) behoren en daarom niet in de steekproef horen.

Bij respondenten kun je dan inderdaad aangeven hoe vaak zulke invoerfouten zijn voorgekomen en wat je ermee gedaan hebt; waarschijnlijk deze waarden verwijderen. Bij veel data wordt ook nog wel eens de hele case verwijderd. Het is handig om dit per situatie te beoordelen.
beantwoord 7 juli door Ron Pat-El (47,040 punten)
...