Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Anova : hoe indelen in groepen

0 leuk 0 niet-leuks
Ik kom nog even terug op dit punt en wel naar aanleiding van een kleine  test die ik uitvoerde. Wetend dat het maken van een regressieanalyse meer power heeft, heb ik toch een anova gedaan op het verband tussen tussen ouderdom en oordeel over het werkklimaat(thema6) Ik heb de leeftijdsschaal op drie verschillende wijzen ingedeeld. De SPSS uitdraai stuurde ik op per mail. Wat blijkt? In de drie gevallen zijn F en p van die aard om te besluiten dat er verschillen zijn. In de drie gevallen bleken de varianties voldoende gelijk zodat de Tukey als post hoc test het meest aangewezen was. Bij de posthoc test zijn er zeer grote verschillen aan welke paartjes de veschillen moeten toegekend worden. Dit gaat van alle paartjes zijn verschillend tot -een beetje verrassend- geen van de paartjes zijn verschillend. Hoe je in groepen indeelt blijkt dus van invloed te zijn op de conclusie. Ik denk ook na je reply op vorige vragen te hebben doorgenomen en na het onderwerp gegoogeld te hebben dat bij anova de groepen idealiter evenveel waarden bevatten (n is gelijk), tenminste wanneer de groepsindeling niet gegeven is. Nu de vraag- die eigenlijk pragmatisch is- is het volgende een goede manier om een gelijke indeling tot stand te brengen. op de variabele analyse/frequencies/statistics cut points of ...equal groeps ? En dan die cut points te gebruiken als grenzen voor de groepen met de recode optie.  Als men de optie "binning" gebruikt, is het via de keuze "equal percentiles on scanned cases" Klopt dit? mvg Jan De Smet
gevraagd 25 oktober 2013 in Kwantitatieve Data Analyse (KDA) door Jan DS (330 punten)
bewerkt 25 oktober 2013 door Jan DS

1 Antwoord

0 leuk 0 niet-leuks

Nee, dit klopt niet.

De reden hiervoor is eigenlijk al wat je zelf aangeeft - zo gauw je een variabele in groepjes gaat indelen, kun je makkelijk verbanden vinden die er niet zijn - of falen verbanden te detecteren die wel wel zijn - juist door waar je de grenzen tussen de groepjes legt.

Om die reden vermijd je dit. In het geval dat je beschrijft moet je een correlatie uitrekenen om het verband tussen de variabelen te onderzoeken (je hebt immers twee interval-variabelen). Het is bovendien zinvol om een scatterplot te bestellen, zodat je het verband kunt bekijken. Onderschat de waarde van datavisualisatie niet; als visuele inspectie geen verband laat zien, hoef je vaak geen statistische analyses meer uit te voeren. Zelfs als een verband dan significant zou blijken te zijn, is het immers triviaal - het verband is tenslotte niet te onderscheiden van het patroon dat je zou zien bij onafhankelijkheid.

De enige te rechtvaardigen methode om een interval-variabele in subgroepen in te delen, is op basis van echt bestaande grenswaarden. Deze staan dan van te voren vast, en zul je dus nooit zelf nog hoeven bepalen op basis van de data, en de verdeling van die data, die je toevallig in je steekproef hebt.

De aanbeveling om in elke groep evenveel datapunten te laten vallen, staat helemaal los van of dit verstandige cut points zouden zijn. Deze is gebaseerd op het feit dat de variantieanalyse in geval van ongelijke varianties in de verschillende groepen niet robuust is als de groepsgrootten verschillen. Dit betekent dat als de groepsgrootten en de varianties per groep verschillen, de uitkomsten minder betrouwbaar worden. Hiermee is dus absoluut niet gezegd dat de subgroepen betekenisvol of te rechtvaardigen worden bij gelijke groepsgrootten.

Dus: maak nooit subgroepen; en als je subgroepen maakt, doe dat dan niet door subgroepen van gelijke grootte te creeeren.

Subgroepen zijn alleen te rechtvaardigen als ze zijn gebaseerd op echte, 'kwalitatieve' verschillen tussen de mensen in elk van die subgroepen. Artificiele indelingen in subgroepen zijn slecht omdat ze 1) gegarandeerd tot power-verlies leiden, en dus de kans op type-2 fouten vergroten; en 2) bovendien tot meer type-1 fouten kunnen leiden.

Los hiervan: het creeeren van gelijke subgroepen kan inderdaad via frequencies, en dan 'cut points'.

Nog een keer voor de zekerheid: nooit subgroepen maken, behalve misschien als academisch experimentje om te kijken wat er gebeurt! :-)

beantwoord 28 oktober 2013 door gjp (69,780 punten)
...