Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Wat is een ‘trend’? Geeft een p-waarde tussen .05 en .10 (bij psychologisch onderzoek) een trend aan?

Hoeveel belang moet ik hechten aan een trend, en moet ik een trend rapporteren, en hoe?

dankjewel alvast! :)

T
in Experimenteel Onderzoek (OEO, PB04x2) door (770 punten)
bewerkt door

1 Antwoord

1 leuk 0 niet-leuks

Trends zijn een uitvinding om inderdaad niet-significante uitkomsten toch te rapporteren en de indruk te wekken dat ze significant zijn. Dit is in het beste geval discutabel en in het ergste geval niet integer. Zie de groene  tekst onderaan voor het korte antwoord.

Dit verschijnsel is ontstaan omdat journals, waarin onderzoek wordt gepubliceerd, een sterke bias hebben richting significante uitkomsten. Niet-significante uitkomsten hebben veel minder kans om gepubliceerd te worden. Dat is natuurlijk desastreus voor de opbouw van wetenschappelijke kennis, en erger nog, brengt onderzoekers er toe significantie te waarderen en als doel te zien. Er zijn veel onderzoekers die teleurgesteld zijn door niet significante uitkomsten. Dat is natuurlijk volslagen onzin, en volledig irrationeel, maar jammer genoeg wel realiteit.

Een bijkomende oorzaak van dit fenomeen is dat de meeste onderzoekers geen, of geen goede, power-analyses doen van te voren. Power analyses vertellen je hoeveel deelnemers je nodig hebt om een rdelijke kans van slagen te hebben om de verbanden waarnaar je op zoek bent, ook daadwerklijk te detecteren. Als je grondige power analyses doet, komen hier vaak forse aantallen proefpersonen uit. Onderzoekers kunnen hier niet altijd middelen voor krijgen, of hebben geen zin om de nodige investeringen in tijd en moeite te doen (en proefpersonen zijn ook vaak schaars).

Verder is er, grotendeels door onbegrip over het belang van power (zie bijvoorbeeld Cohen's Power Primer op http://drsmorey.org/bibtex/upload/Cohen:1992.pdf) bijna een soort traditie om serieus 'underpowered' onderzoek te doen. Experimenteel psychologen hebben bijvoorbeeld vaak de neiging om 15 of 20 deelnemers per cel in hun design te onderzoeken. Dat is veel te weinig; bij een simpele t-toets heb je, als je een gemiddelde effect size verwacht en 80% kans wil hebben om die te detecteren, 64 deelnemers per cel nodig (dus 128 in totaal). Als je effect wel eens klein zou kunnen zijn, en je 90% kans wil maken dat te detecteren, heb je 527 proefpersonen per cel nodig (dus ruim 1000 in totaal). Als je een 2x3 design hebt, gelden deze getallen nog steeds, tenzij je er heel zeker van bent dat je geen interactie gaat vinden. Als je wel interactie vindt, moet je immers naar simpele effecten kijken, per niveau van de andere variabele. Dat betekent concreet dat je alle cellen los met elkaar moet vergelijken. Bij een 2x3 design geldt ook dat als je geen interactie vindt, je de drie groepen die gevormd worden door de tweede factor sowieso met post-hoc testen wil kunnen vergelijken als je een significant hoofdeffect hebt; dat betreft dus weer drie paarsgewijze vergelijkingen, waarbij je je alpha ook nog eens (grofweg) door drie moet delen.

Kort samengevat: veel onderzoekers voeren (zwaar) underpowered onderzoek uit, maar willen (moeten) dat vervolgens publiceren in journals die bijna alleen significante uitkomsten accepteren. Daarom proberen mensen niet-significante uitkomsten toch te verkopen als een trend, wat iets betekent als 'er is hoop' :-)

Er staat een briljante lijst van dit soort abominaties op http://mchankins.wordpress.com/2013/04/21/still-not-significant-2/. Een greep uit deze lange, lange lijst:

(barely) not statistically significant (p=0.052)
a barely detectable statistically significant difference (p=0.073)
a borderline significant trend (p=0.09)
a clear trend (p<0.09)
a considerable trend toward significance (p=0.069)
a favourable statistical trend (p=0.09)
a little significant (p<0.1)
a margin at the edge of significance (p=0.0608)
roughly significant (p>0.1)
approaches but fails to achieve a customary level of statistical significance (p=0.154)
just barely insignificant (p=0.11)
slight significance (p=0.128)
probably not statistically significant (p=0.14)

Zie in dit artikel ook hun uitleg van de trends: "[...] “a trend towards significance” expresses non-significance as some sort of motion towards significance, which it isn’t: there is no ‘trend’, in any direction, and nowhere for the trend to be ‘towards’."

Dus, kort samengevat:

  1. een 'trend' bestaat niet, en;
  2. nee, je mag nooit een trend rapporteren

MAAR, en dit is heel belangrijk: je moet altijd AL je resultaten rapporteren! Ook de niet-significante resultaten! Maak dus nooit een selectie om daarna alleen de significante resultaten te rapporteren, of om die uitgebreider te rapporteren. In de wetenschap leren we niet door enkele studies, maar door meta-analyses en systematische reviews; in enkele studies zitten te veel kansen op Type-1 en Type-2 fouten om er echt beleid en behandelingen op te baseren (om over de publication bias nog maar te zwijgen). En in die systematische reviews en meta-analyses moeten dus juist de niet-significante resultaten ook worden meegenomen.

Dus, als je een 'trend' hebt: beschrijf dat verband volledig, net als significante resultaten en helemaal niet significante resultaten. Geef altijd p-waarden met 3 decimalen (tenzij ze kleiner zijn dan < .001, maar zelfs dan mag je meer decimalen geven als je wil, desnoods met de wetenschappelijke notatie) en rapporteer altijd effect sizes (liefste met betrouwbaarheidsintervallen), gemiddelden, standaard deviaties, en je toetsingsgrootheid (F, t, $\chi^2$ etc) met de bijbehorende vrijheidsgraden. En bespreek in je discussie je niet significante resultaten net zo grondig als je significante resultaten; en als je beter gepowered was dan andere studies die daar wel significante resultaten vonden, bespreek dan de mogelijkheid dat deze significante resultaten Type-1 fouten waren (en anders ook eigenlijk). Helemaal gegeven de publication bias staan er in de literatuur een hoop Type-1 fouten die zijn verkocht als 'waar', en het is belangrijk dat we dit gaan oplossen.

PS: de commandos' voor deze power analyses in R zijn:

install.packages('pwr');
require('pwr');
pwr.t.test(d=.5, power=.80);
pwr.t.test(d=.2, power=.90);

 
door (77.8k punten)
bewerkt door

Bedankt voor je uitgebreide en verhelderende antwoord. Ik heb gelachen om de lijst met bijna-significant-omschrijvingen :)

R ken ik niet, ik gebruik alleen SPSS. Misschien komt dit later in de bachelor?

Nog een vraag: je schrijft:

rapporteer altijd effect sizes (liefste met betrouwbaarheidsintervallen), gemiddelden, standaard deviaties, en je toetsingsgrootheid (F, t, etc) met de bijbehorende vrijheidsgraden

-effectsize: mijn OU-bron zegt dat omega kwadraat het beste is. Je schrijft dat betrouwbaarheidsintervallen beter zijn. Mijn kennis over betrouwbaarheidsintervallen gaat niet verder dan dat het een alternatief is voor de p-waarde, als ik het goed heb. Hoe kan een betrouwbaarheidsinterval gebruikt worden voor effectsize?

-in onderzoeksverslagen zie ik de ene keer het hele rijtje van bijv F, df, p, eta square; maar soms alleen (F < 1) of alleen een p-waarde. Adviseer je dus altijd alles te noemen of zijn er uitzonderingen?

 

R is een soort betere SPSS; een open source versie, waar dus veel meer analyse-mogelijkheden in zitten. Zie http://oupsy.nl/help/24/wat-is-r-en-hoe-installeer-ik-het voor wat meer informatie.

Een betrouwbaarheidsinterval is een interval met de plausibele waarden die een bepaalde grootheid in de populatie kan hebben. Je puntschatting is immers op basis van je steekproef, en heeft, als je die uit zou rekenen, per definitie een betrouwbaarheid van 0%. Als je bijvoorbeeld een correlatie vindt van 0.32346932672539832 in je steekproef, dan weet je zeker dat deze correlatie in de populatie een andere waarde heeft, als je maar genoeg decimalen ver kijkt. Je weet alleen niet hoe anders. Een betrouwbaarheidsinterval bevat een aantal mogelijke waarden voor je correlatie in de populatie. Dit is dus veel waardevoller dan een puntschatting.

Er is geen situatie waarin je alleen een F-waarde wil noemen:

  1. Het allerbelangrijkste om te noemen is de effect size en de steekproefomvang (en het aantal groepen bij een anova) waar die effect size op is gebaseerd. Hiermee kan iedereen de toetsingsgrootheid (e.g. t of F) berekenen. Daarmee kun je dan weer de p-waarde berekenen. Idealiter rapporteer je natuurlijk het betrouwbaarheidsinterval voor je effect size, maar dit zit vaak niet in SPSS, dus dan heb je wel R of een ander geavanceerder programma nodig (ow, tip: als je R installeert: installeer dan R Studio, dat maakt het werken met R een stuk prettiger!).
  2. Daarna is de p-waarde het belangrijkst. Als mensen dat de bijbehorende vrijheidsgraden hebben, kunnen ze weer de t of F-waarde berekenen, en de effect size.
  3. Daarna is je toetsingsgrootheid (F, t, $\chi^2$) pas van belang. Dit is immers alleen een tussenstap op weg naar de p-waarde. Omdat je eigenlijk bij onderzoek altijd je dataset, analysescripts ('syntax' in SPSS), en je output mee moet publiceren, kunnen mensen daar altijd controleren wat je F, t, of $\chi^2$ was. Als je dit niet allemaal meepubliceert, is het natuurlijk wel belangrijk om deze te vermelden in je artikel.

Ow, en - een betrouwbaarheidsinterval is dus geen alternatief voor een effect size zoals $\omega^2$ - het is iets dat je voor $\omega^2$, of $\eta^2$, of Cohen's d, of Pearson's r, of Cramèr's V, of de Odds Ratio (om de meest gebruikte effect sizes maar eens op een rijtje te zetten) kunt uitrekenen.

Houd er overigens rekening mee dat dit voor een groot deel (nog) extracurriculair is - als in, de berekening van betrouwbaarheidsintervallen voor effect sizes behoort niet tot de examenstof!

...