Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Wat is de uitwerking van 5.2.8? Data beschouwing

0 leuk 0 niet-leuks
Ik zie de bomen door het bos niet meer qua data analyse en het op de juiste wijze verkrijgen van de data. Naar mijn idee zijn er oneindig mogelijkheden en gooi ik alles door elkaar. Voor de duidelijkheid, ik heb het nu over je data verkennen en checken op normaliteit etc.

Bij de opdracht 5.2.8 'controleer data' zou ik graag willen weten hoe je dat nu gestructueerd aanpakt, want de data vraagt om verschillende analyse methoden, en niet alles is nuttig om te weten bij elke variabele.

Ik heb er zelf al erg veel tijd ingestoken, graag zou ik een antwoord ontvangen waar ik ook echt iets mee kan, bedankt alvast.
gevraagd 22 oktober in Experimenteel Onderzoek (PB0402 en S05281) door MVerduijn (260 punten)

1 Antwoord

0 leuk 0 niet-leuks

In het boek van Andy Field wordt verwezen naar relevante hoofdstukken, en in de verwerkingsopdrachten van thema 2 staan extra tips. Om het een samen te vatten:

Er zijn globaal 3 dingen die je wilt exploreren:

  1. missing data
  2. outliers
  3. de verdeling van residuele meetfout

1. Missing data

Vraag frequencies op, of check deze via explore, maar vergeet absoluut niet om ook naar de data zelf te kijken. Het belangrijkste om naar te zoeken is percentage van missing data en patronen in missing data. In een goed experiment is een logboek (labjournaal) bijgehouden zodat bijvoorbeeld nagezocht kan worden of data ontbreekt door apparatuurfalen, etc. 

Er zijn geen harde regels hier. Globaal wordt als een losse richtlijn gesteld dat minder dan 5% missing op een variabele nog als 'missing at random' (MAR) gezien mag worden, en meer dan 5% als systematisch (not missing at random, NMAR). Voor deze cursus, of de cursussen in de bachelor, maakt het eigenlijk niet uit. 

Een voorbeeld van NMAR data kan zich bijvoorbeeld voordoen bij vragen die controversieel zijn. Het gebeurd nog wel eens dat mensen deelname aan een experiment staken als er vragen komen over topics die gevoelig liggen (zoals detailvragen over inkomen, of ideeen over immigratie). Hoge uitval vanaf vragen in deze thema's kan dan een systematiek bevatten.

Patronen identificeren is meer een gevoel dan iets dat toetsbaar is. Als 75% van proefpersonen een vragenlijst over depressie niet afmaken, dan kan het mogelijk zijn dat de vragenlijst selection-bias veroorzaakt, bijvoorbeeld doordat juist de meest depressieven de puf niet hebben om de vragenlijst af te maken. Vaak is het maar giswerk, maar als er variabelen in de data zijn om dit gevoel op te onderbouwen dan loont het om daarnaar te kijken.

2. Outliers

De enige belangrijke regel over outliers is dat het pas echt problematische data betreft wanneer de observatie niet tot de populatie behoort. 

De makkelijkste voorbeelden daarvan zijn invoerfouten, zoals een 77 op een 7-puntschaal. Lastiger wordt het als iets 'slechts' een extreme waarde is relatief aan de overige data, maar nog steeds binnen de populatie valt. Denk aan een vragenlijst onder middelbare scholieren waar een leerling antwoord dat deze 130.000 euro per jaar verdient. In vergelijking met peers een onwaarschijnlijk en extreem afwijkende observatie, maar op zich is het mogeljk dat een middelbare scholier een goede baan heeft naast school (hoog niveau voetballer, succesvolle smartlap-zanger, etc.). 

Er zijn geen kant-en-klare oplossingen of trucjes. Slechts statistische hulpmiddelen om extreme waarden te identificeren. Welke methode bruikbaar is hangt grofweg af van het meetniveau van de variabele in kwestie, dus:

nominaal meetniveau: geen statistiek nodig, gewoon frequencies runnen, of een tabel maken, en observeren of er categorieen boven komen drijven die niet in de data horen.

ordinaal meetniveau (of erg scheve data): beste centrummaat is de mediaan, dus extreme waarden zoeken met de bijhorende spreidingsmaat, de interkwartielafstand (3x de IKW is extreem). Een manier om met ikw outliers te identificeren is de boxplot.

interval meetniveau: beste centrummaat is gemiddelde, dus extreme waarden zoeken met de standaardeviatie (3.29x de SD heeft een p < .001, en is extreem). De makkelijkste manier om te zien of een waarneming > 3,29SD afwijkt van gemiddeld is om de waarden te standaardiseren en met frequencies te zoeken naar aantal en grootte van afwijkingen.

Field bespreekt ook geavanceerdere technieken, die niet alleen de 'extremiteit' van de observatie terugkoppelt, maar ook het gewicht dat de observatie heeft op de analyse, zoals de Cook's distance. 

Voor alles geldt: statistiek is slechts een hulpmiddel; in onze cursussen is het eigenlijk alleen van belang om te demonstreren dat je weet hoe je outliers kunt vinden, maar wat ermee gebeurd laten we bewust open. In extreme gevallen, zoals in Thema 2 kan het zelfs zo zijn dat de outliers de enige zinvolle data zijn. Altijd per geval evalueren wat er aan de hand is met de data. 

3. Verdelingen

Korte samenvatting: 

bij ANOVA, t-toets, etc. Per 'groep' (conditie, of combinatie van condities) de normaliteit van de afhankelijke variabele checken. Hoe dat gedaan wordt maakt niet uit. Ik geef de voorkeur aan visualeren omdat toetsen vaak te streng is, en het eigenlijk niet nodig is. (Lange discussie). Dus:

  • P-P of Q-Q plot
  • skewness / kurtosis
  • Shapiro-Wilks of Kolmogorov-Smirnov (liever niet; véél te streng voor 'ons' soort data).

De reden dat er per groep gekeken moet worden is omdat niet de assumptie is dat de afhankelijke variabele normaal verdeeld is, maar dat de residuen normaal verdeeld zijn. In een factoriele ANOVA betekent dit dat iedere groep normaal verdeeld moet zijn. Ingewikkelder wordt dit verhaal bij ANCOVA’s of bij regressies, maar in SPSS kan eventueel nog de residuals als variabele opgeslagen worden bij het uitvoeren van de analyse. Met alle bovenstaande methoden kunnen deze residuals op normaliteit gecontroleerd worden.

Over het algemeen heeft het weinig zin om streng te zijn over de normaliteit van de data. De assumptie is niet dat de data normaal verdeeld is, maar dat de populatie normaal verdeelde residuals heeft, dus met name gecentreerde error met M = 0. Waarom dit verschil belangrijk is maakt een heel topic op zichzelf.

beantwoord 22 oktober door Ron Pat-El (49,020 punten)
Bedankt voor het uitgebreide antwoord Ron, hier kan ik wel iets mee!

Groeten, Monique
...