Trends zijn een uitvinding om inderdaad niet-significante uitkomsten toch te rapporteren en de indruk te wekken dat ze significant zijn. Dit is in het beste geval discutabel en in het ergste geval niet integer. Zie de groene tekst onderaan voor het korte antwoord.
Dit verschijnsel is ontstaan omdat journals, waarin onderzoek wordt gepubliceerd, een sterke bias hebben richting significante uitkomsten. Niet-significante uitkomsten hebben veel minder kans om gepubliceerd te worden. Dat is natuurlijk desastreus voor de opbouw van wetenschappelijke kennis, en erger nog, brengt onderzoekers er toe significantie te waarderen en als doel te zien. Er zijn veel onderzoekers die teleurgesteld zijn door niet significante uitkomsten. Dat is natuurlijk volslagen onzin, en volledig irrationeel, maar jammer genoeg wel realiteit.
Een bijkomende oorzaak van dit fenomeen is dat de meeste onderzoekers geen, of geen goede, power-analyses doen van te voren. Power analyses vertellen je hoeveel deelnemers je nodig hebt om een rdelijke kans van slagen te hebben om de verbanden waarnaar je op zoek bent, ook daadwerklijk te detecteren. Als je grondige power analyses doet, komen hier vaak forse aantallen proefpersonen uit. Onderzoekers kunnen hier niet altijd middelen voor krijgen, of hebben geen zin om de nodige investeringen in tijd en moeite te doen (en proefpersonen zijn ook vaak schaars).
Verder is er, grotendeels door onbegrip over het belang van power (zie bijvoorbeeld Cohen's Power Primer op http://drsmorey.org/bibtex/upload/Cohen:1992.pdf) bijna een soort traditie om serieus 'underpowered' onderzoek te doen. Experimenteel psychologen hebben bijvoorbeeld vaak de neiging om 15 of 20 deelnemers per cel in hun design te onderzoeken. Dat is veel te weinig; bij een simpele t-toets heb je, als je een gemiddelde effect size verwacht en 80% kans wil hebben om die te detecteren, 64 deelnemers per cel nodig (dus 128 in totaal). Als je effect wel eens klein zou kunnen zijn, en je 90% kans wil maken dat te detecteren, heb je 527 proefpersonen per cel nodig (dus ruim 1000 in totaal). Als je een 2x3 design hebt, gelden deze getallen nog steeds, tenzij je er heel zeker van bent dat je geen interactie gaat vinden. Als je wel interactie vindt, moet je immers naar simpele effecten kijken, per niveau van de andere variabele. Dat betekent concreet dat je alle cellen los met elkaar moet vergelijken. Bij een 2x3 design geldt ook dat als je geen interactie vindt, je de drie groepen die gevormd worden door de tweede factor sowieso met post-hoc testen wil kunnen vergelijken als je een significant hoofdeffect hebt; dat betreft dus weer drie paarsgewijze vergelijkingen, waarbij je je alpha ook nog eens (grofweg) door drie moet delen.
Kort samengevat: veel onderzoekers voeren (zwaar) underpowered onderzoek uit, maar willen (moeten) dat vervolgens publiceren in journals die bijna alleen significante uitkomsten accepteren. Daarom proberen mensen niet-significante uitkomsten toch te verkopen als een trend, wat iets betekent als 'er is hoop' :-)
Er staat een briljante lijst van dit soort abominaties op http://mchankins.wordpress.com/2013/04/21/still-not-significant-2/. Een greep uit deze lange, lange lijst:
(barely) not statistically significant (p=0.052)
a barely detectable statistically significant difference (p=0.073)
a borderline significant trend (p=0.09)
a clear trend (p<0.09)
a considerable trend toward significance (p=0.069)
a favourable statistical trend (p=0.09)
a little significant (p<0.1)
a margin at the edge of significance (p=0.0608)
roughly significant (p>0.1)
approaches but fails to achieve a customary level of statistical significance (p=0.154)
just barely insignificant (p=0.11)
slight significance (p=0.128)
probably not statistically significant (p=0.14)
Zie in dit artikel ook hun uitleg van de trends: "[...] “a trend towards significance” expresses non-significance as some sort of motion towards significance, which it isn’t: there is no ‘trend’, in any direction, and nowhere for the trend to be ‘towards’."
Dus, kort samengevat:
-
een 'trend' bestaat niet, en;
-
nee, je mag nooit een trend rapporteren
MAAR, en dit is heel belangrijk: je moet altijd AL je resultaten rapporteren! Ook de niet-significante resultaten! Maak dus nooit een selectie om daarna alleen de significante resultaten te rapporteren, of om die uitgebreider te rapporteren. In de wetenschap leren we niet door enkele studies, maar door meta-analyses en systematische reviews; in enkele studies zitten te veel kansen op Type-1 en Type-2 fouten om er echt beleid en behandelingen op te baseren (om over de publication bias nog maar te zwijgen). En in die systematische reviews en meta-analyses moeten dus juist de niet-significante resultaten ook worden meegenomen.
Dus, als je een 'trend' hebt: beschrijf dat verband volledig, net als significante resultaten en helemaal niet significante resultaten. Geef altijd p-waarden met 3 decimalen (tenzij ze kleiner zijn dan < .001, maar zelfs dan mag je meer decimalen geven als je wil, desnoods met de wetenschappelijke notatie) en rapporteer altijd effect sizes (liefste met betrouwbaarheidsintervallen), gemiddelden, standaard deviaties, en je toetsingsgrootheid (F, t, $\chi^2$ etc) met de bijbehorende vrijheidsgraden. En bespreek in je discussie je niet significante resultaten net zo grondig als je significante resultaten; en als je beter gepowered was dan andere studies die daar wel significante resultaten vonden, bespreek dan de mogelijkheid dat deze significante resultaten Type-1 fouten waren (en anders ook eigenlijk). Helemaal gegeven de publication bias staan er in de literatuur een hoop Type-1 fouten die zijn verkocht als 'waar', en het is belangrijk dat we dit gaan oplossen.
PS: de commandos' voor deze power analyses in R zijn:
install.packages('pwr');
require('pwr');
pwr.t.test(d=.5, power=.80);
pwr.t.test(d=.2, power=.90);