Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Moet ik gepaarde t-toets of de wilcoxon signed ranks gebruiken bij twee metingen van dezelfde groep van n=9?

0 leuk 0 niet-leuks
Hallo,

Ik heb een groep van 9 proefpersonen waarbij twee metingen gedaan zijn op t1 en t2 (van diverse variabelen). De variantie is niet normaal verdeeld, wat waarschijnlijk te maken heeft met de grootte van de groep. Ik kan niet duidelijk opmaken of ik dan voor de gepaarde t-toets kan gaan. Is de Wilcoxon signed ranks dan een betrouwbaarder alternatief? Het gaat om interval variabelen.
gevraagd 22 maart 2017 in Methodologie door Marieke Trompert (120 punten)

2 Antwoorden

0 leuk 0 niet-leuks
Bij 9 proefpersonen zijn er meer issues om af te lopen dan de keuze voor wicoxon signed ranks.

Non-parametrische toetsen (zoals de wilcoxon) hebben minder power dan parametrische toetsen (zoals de t-toets) en bij 9 proefpersonen is de power al zo gering dat het middel soms erger kan zijn dan de kwaal.

Het aantal proefpersonen maakt een goede evaluatie van de verdeling van de steekproef tov populatie vrijwel onmogelijk. Echter weet ik niet wat je bedoeld met 'variantie is niet normaal verdeeld'. Ik neem aan dat je hiermee bedoeld dat de scores op de variabele niet normaal verdeeld zijn (itt de normaliteit van de residuen).

Het is hier daarom om het even: 9 personen over twee meetmomenten kunnen in beide toetsen worden getoetst en vergelijkbaar resultaat opleveren. Ik zou niet op basis van de verdeling een afweging maken maar op basis van de data zelf: nonparametrische toetsen in de familie van de wilcoxon reduceren (of behandelen) dat op het ordinale meetniveau. Als je data gekke sprongen maakt en niet meer met goed geweten als interval/ratio behandeld kan worden, dan is dat op zichzelf een goede reden om de data als ordinaal te behandelen en daarom geen paired t-toets te kiezen.

Bij zulke lage N ben ik persoonlijk ook nog van mening dat er naar meer kwalitatieve technieken gekeken zou kunnen worden, maar dit advies is een beetje controversieel, zeker onder mensen die negatief zijn over kwalitatief onderzoek (helaas bestaan deze onderzoekers nog echt)
beantwoord 22 maart 2017 door Ron Pat-El (41,340 punten)
0 leuk 0 niet-leuks

Je moet geen onderzoek doen met negen deelnemers die je twee keer meet en waar je meerdere variabelen meet :-)

Tenminste, het kan wel, maar de steekproevenverdeling van de verschilscores is zo breed dat je resultaten niet repliceerbaar gaan zijn: alle getallen die je vindt kunnen in een vervolgstudie anders zijn. Echt heel, heel erg anders.

Bovendien, als je meerdere variabelen meet, wil je waarschijnlijk meer dan 1 $p$-waarde berekenen; dan moet je dus corrigeren voor multiple testing, waardoor de alpha die je moet hanteren dus lager wordt dan de gebruikelijke .05 (tenzij je een hoge kans op Type 1-fouten acceptabel vindt).

En, met 9 deelnemers die je twee keer meet is je power om een effect te vinden verwaarloosbaar. Zelfs met een alpha van .05 en met een groot effect is je power onder de 50%. Oftewel: zelfs als dat grote effect bestaat, dan is de kans dat je dat vindt kleiner dan 50%. En de meeste effecten zijn een stuk kleiner (e.g. $d = 0.5$), dus als je dat combineert met een alpha van, zeg $\alpha = .05$, dan kom je er op uit dat de kans dat je een verband detecteert verwaarloosbaar is.

Stel je bijvoorbeeld voor dat je 5 variabelen meet. Je hebt een voormeting en een nameting, en je verwacht een 'middelsterk' effect van $d = 0.5$. Als je 5 variabelen meet en volgens de Bonferroni correctie corrigeert, gebruik je een alpha van $\alpha = .01$, dus dan kun je in R je power uitrekenen met:

> pwr.t.test(d=.5, n=9, sig.level=.01)

     Two-sample t test power calculation 

              n = 9
              d = 0.5
      sig.level = 0.01
          power = 0.05281077
    alternative = two.sided

NOTE: n is number in *each* group

Hierbij ga ik uit van een between subjects design, en je kunt liberaler corrigeren voor multiple testing dan met de Bonferroni correctie, dus jij hebt ietsje meer power. Maar je zult niet ver boven de 10% uitkomen.

Dat is ook logisch: met 9 mensen komen de verbanden die je toetst uit extreem brede steekproevenverdelingen. Uitgaande van een Cohen's d van .5 ongeveer uit deze steekproevenverdeling:

Zoals je ziet is de kans op een verschil tussen je voor- en nameting van -1 en 2 standaarddeviaties niet irreeel. Oftewel: wat je gaat vinden tussen voor- en nameting is grotendeels het gevolg van toeval.

Dus, ik zou sterk adviseren tegen toetsing. Rapporteer in plaats daarvan de 95% betrouwbaarheidsintervallen voor je verschilscores. Deze geeft SPSS als je de t-toets uitvoert. Die zijn misschien niet helemaal accuraat (want je populatieverdeling is misschien niet normaal verdeeld, en je hebt te weinig deelnemers om de centrale limietstelling te 'activeren'), maar geven wel een goede indruk van in welke range plausibele populatiewaarden voor de verschilscores zoal zouden kunnen liggen.

beantwoord 22 maart 2017 door gjp (64,700 punten)
...