Vreemde waarden in databestand oplossen?

Question

Vreemde waarden in databestand oplossen?

2 Antwoorden

Natascha de Hoog · Answer 1 · 2020-07-07T08:43:38+0000

Als er waarden in je data staan die niet kloppen dan is het goed om te achterhalen waar dit door komt. Heb jij iets verkeerd geprogrammeerd of hebben mensen iets foutiefs ingevuld. In beide gevallen kun je de waardes zien als missing values.

Ron Pat-El · Answer 2 · 2020-07-07T08:52:33+0000

Eigenlijk heb je het juiste al gedaan: het uberhaubt opmerken. Veel mensen (studenten, maar ook wetenschappelijk personeel) vergeten dikwijls om deze check te maken.

Afhankelijk van de dataset en ondersteundende materialen zijn er een aantal opties. Deze hebben gemeen met elkaar dat het een zoektocht betreft naar 'zijn dit herstelbare fouten, of onherstelbare fouten?'

1) Als er een codeboek of labjournaal is, dan kan daarin vaak nog uitgevogeld worden wat er gebeurd is. Zijn de waarden toe te schrijven aan een omstandigheid (zoals falende aparatuur, of een anomaliteit, bijvoorbeeld een leerling te gast uit een andere klas). Dit is de meest directe bron om vast te stellen wat er met vreemde waarden aan de hand is.

2) Ruwe data raadplegen. Het wil nog wel eens gebeuren dat bij het werken van een databestand er fouten in ontstaan, bijv. door verkeerde knoppen drukken, scripts per ongeluk runnen en bestand opslaan etc. Check in gevallen waar er nog een ruw data bestand is of er verschillen zijn tussen ruwe data en huidige data.

3) De meest ruwe data raadplegen. Eigenlijk het vorige punt, maar dan check je of fouten toe te schrijven zijn aan echt gegeven antwoorden. Bijv. een vragenlijst waar iemand zelf een '3' heeft ingevuld bij geslacht, of iemand die zelf een klas invult die niet op de lijst staat. Ik heb wel eens meegemaakt dat iemand aan een lijst van opleidingen zelf nog 'bijbel' toevoegde bijvoorbeeld, of dat iemand niet de 1-7 in een Likert schaal omcirkelde, maar de labels 'helemaal bij oneens' en 'helemaal mee eens' die voor en na de 1 en 7 stonden.

Als dit alles niet mogelijk is, of geen antwoord geeft over de aard van de 'vreemde waarden' dan kun je eigenlijk weinig anders doen dan vaststellen dat deze waarden niet tot de populatie (de beoogde verzameling van mogelijke uitkomsten) behoren en daarom niet in de steekproef horen.

Bij respondenten kun je dan inderdaad aangeven hoe vaak zulke invoerfouten zijn voorgekomen en wat je ermee gedaan hebt; waarschijnlijk deze waarden verwijderen. Bij veel data wordt ook nog wel eens de hele case verwijderd. Het is handig om dit per situatie te beoordelen.

Categorieën

Vreemde waarden in databestand oplossen?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

2 Antwoorden

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om een opmerking te plaatsen.

Gerelateerde vragen

Categorieën

Vreemde waarden in databestand oplossen?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

2 Antwoorden

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om een opmerking te plaatsen.