Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Is er een minimum en maximum waardebepaling voor Dip Test, skewness en kurtosis?

0 leuk 0 niet-leuks
Betreft IDA 2.2.

Kort zou je kunnen zeggen dat alle normaal waardes bij of op 0 liggen, Voor kurtosis geldt des te platter,des te negatiever (<0) en dus omgekeerd des te groter des te spitser (>0). Voor skewness geldt <0 = linksscheef, >0=rechtsscheef. Is daar een maximum aan verbonden?, bijvoorbeeld van -1.0 tot aan 1.0  oid? Waaraan je dan dus kunt afzien dat 0.9 voor kurtosis heel erg spits is maar nog niet maximaal spits?  En mbt de Dip Test: is daar een maximale waarde voor?

Of is dat nu juist het ingewikkelde en subjectieve aspect er aan?

Dank en groet en fijne Kerst!

Petra
gevraagd 24 december 2016 in Inleiding Data Analyse (IDA) door 851928612 (1,800 punten)

1 Antwoord

0 leuk 0 niet-leuks

Spitsheid (kurtosis) en scheefheid (skewness) kunnen in theorie oneindig groot of klein worden. De Dip Test kan maximaal 1 worden, en hiervoor geldt dat relatief kleine waardes (bijvoorbeeld .1) al indicatief kunnen zijn voor meertoppigheid. In principe is de Dip Test vooral zinvol als je slechtziend of blind bent: als je de histogrammen kunt bekijken kun je de toppigheid daarmee bepalen.

Voor alle maten (en voor alle statistiek) geldt dat 'harde grenswaarden' niet goed te verdedigen zijn. Het interpreteren van patronen in de data, of je dat nu doet op basis van visuele of kwantitatieve representaties, is intrinsiek een subjectief proces. Hoewel je grenswaarden kunt gebruiken als richtlijn, moet je je realiseren dat je die grenswaarden flexibel moet hanteren, en dus nooit simpelweg moet kijken of een getal groter of kleiner is dan een gegeven waarde.

Dus ja: dat is het ingewikkelde en subjectieve aspect :-)

Statistiek is op zich niet moeilijk. Er zijn formules, er zijn richtlijnen om grafieken op te stellen, en regels over wanneer je wat mag/moet gebruiken. Dat is allemaal te leren, en je kunt er mee oefenen, en dan kun je het je allemaal eigen maken. En die hoeft de formules etc voor het grootste deel niet eens te kennen want de analyses worden uitgevoerd door software. Dus hoewel het allemaal kennis en vaardigheden zijn, en het misschien veel is dat je moet leren, is het niet moeilijk op zich: door er voldoende tijd in te investeren en er voldoende met mensen over te praten is dat doebaar (tenzij je moeite hebt met abstracte concepten, maar dat is sowieso een probleem als je een wetenschappelijke opleiding wil volgen).

Het moeilijke zit hem dus niet zozeer in de statistiek. Dat is misschien tijdrovend en koste een hoop moeite om te leren, maar dat is niet hetzelfde als dat het moeilijk is: als ik wil leren een marathon te lopen kost dat ook een hoop tijd en moeite, maar dat kan ik gewoon gaan doen: het is niet heel moeilijk (tenzij het morgen al moet :-)). Nee, bij statistiek zit het moeilijke hem in andere dingen, ik denk vooral twee zaken.

Ten eerste moet je leren omgaan met (en leren je comfortabel te voelen bij) onzekerheid. Wetenschap is per definitie onzeker: je bent bezig met de 'cutting edge' van de menselijke kennis. Die is dus een stuk onzekerder dan een recept voor hummus, de handleiding voor het monteren van een expedit, of de houding die je moet hebben als je air squats uitvoert. Er is geen methode om ergens zekerheid over te krijgen: wat we als 'zekerheid' beschouwen is gewoon een hele grote verzameling aan evidentie. Mensen leren vaak te zoeken naar zekerheid, naar vaste principes. Dat moet je loslaten. Je moet leren dat alle kennis die wij over psychologie en onderwijswetenschappen hebben, fout is. We gaan over tijd, door de wetenschappelijke methodes consequent toe te blijven passen, ontdekken waar de fouten zitten, en onze theorieen bijstellen: maar de psychologische wetenschap is nog maar iets meer dan 100 jaar oud, en de onderwijswetenschappen is nog jonger. Onze huidige theorieen kloppen dus niet. En dat is niet erg: ze zijn in bepaalde situaties bruikbaar, dus dat ze geen accurate omschrijving van de realiteit geven is niet zo erg. Maar je moet dus leren dat er geen zekerheid is als je psychologie of onderwijswetenschappen studeert. Er zijn alleen heel veel onzekerheden, sommige onzekerder dan anderen. Hiermee leren omgaan is misschien het moeilijkste.

De tweede moeilijkheid is leren om die onzekerheid te interpreteren op basis van patronen in je data: dus leren inzien of een gegeven histogram aanleiding is om te denken dat er iets fout ging met je dataverzameling. Dit leer je pas door het heel veel te doen. En dat ga je tijdens deze studie, en je BT en MT, doen. Dus dit ga je vanzelf leren, zeg maar. En met betrekking tot verdelingsvormen is het niet eens zo heel belangrijk.

Want, nog even wellicht ten overvloedde: de verdeling van je steekproefscores hoeft bijna nooit normaal te zijn. De normale verdeling is een handige verdeling die heel belangrijk is in de statistiek, maar het is niet een soort norm waar je datareeksen altijd aan moeten voldoen. Sterker nog, er bestaan bijna geen analyses die normaal verdeelde data nodig hebben. De effecten van 'abnormale' verdelingen op de correlatie staan uitgewerkt in de extra-curriculaire stof in thema 4. Voor de t-toets geldt alleen dat de steekproevenverdeling van het verschil tussen gemiddelden volgens de $t$-verdeling verdeeld moet zijn: en dat is altijd zo vanwege de centrale limietstelling. Behalve als je populatie echt bizar afwijkt van normaliteit. Maar dat gebeurt bijna nooit, en als het wel gebeurt, als je bijvoorbeeld iets onderzoekt waarop 98% van de mensen '1' scoort, en die overige 2 procent is verdeeld over scores 2-10 bijvoorbeeld, dan heb je duidelijk de verkeerde populatie te pakken. Die 98% kunnen je immers bijna niets vertellen: al die deelnemers zijn identiek/inwisselbaar, want ze scores op die relevante variabele allemala hetzelfde. In zo'n gevak heb je kennelijk de verkeerde methode gekozen, en had je beter een subpopulatie kunnen onderzoeken. Bij mijn onderzoek gebeurt dat bijvoorbeeld: ik onderzoek onder andere recreatief middelengebruik. Als ik de algemene populatie vragen zou stellen over de intentie om ecstasy te gebruiken, zouden veruit de meeste mensen de onderste score geven: want bijna niemand (van de algemene populatie) wil ecstasy gebruiken. Dus onderzoek je de relevante sub-populatie. Dit soort dingen weet je altijd van te voren: zonee, dan is het te prematuur om een kwantitatieve studie te doen.

Dus, ik wil maar zeggen: hoe normaal je verdeling van steekproefscores is maakt meestal niet uit. Je gebruikt al deze beschrijvingsmaten en plotjes om te zoeken naar schendingen van je data-integriteit: bijvoorbeeld een probleem met het kastje dat reactietijden meet, of deelnemers die de vragenlijst niet serieus invulden, of vragenlijsten die verkeerd zijn ingevoerd. Behalve als middel om data-integriteit te verifieren heb je beschrijvingsmaten en plotjes meestal niet nodig.

Ik hoop dat dat een lichtpuntje is in deze donkere (maar warme) dagen :-)

Fijne feestdagen en een gelukkig 2017!

beantwoord 25 december 2016 door gjp (69,620 punten)
bewerkt 25 december 2016 door gjp
...