Met 'klein staal' bedoel je 'kleine steekproef'? Zoja: dan ben je sowieso al verkeerd bezig.
Het is heel belangrijk om power-analyses te doen, en te zorgen dat je voldoende gepowered bent om de interacties en hoofdeffecten aan te tonen die je verwacht te vinden. Underpowered studies uitvoeren is onethisch en getuigt van een gebrek aan wetenschappelijke integriteit, of gebrekkige competentie (wat erger is is natuurlijk up for discussion :-)). Het is onethisch omdat je tijd en energie van deelnemers vraagt, en vaak ook nog publieksmiddelen, voor onderzoek dat praktisch waardeloos is. Het is niet integer omdat je veel kans loopt om Type 1 fouten te maken en grote effect sizes te vinden (met kleine steekproeven is de steekproevenverdeling breder, waardoor de kans op grote effect sizes in je steekproef, aangenomen dat de ware effect size in de populatie 0 is, groter is dan bij grote steekproeven). Dus, je moet/mag nooit kleine steekproeven gebruiken. Als je een pilot doet, moet je om die reden nooit je data analyseren; je kunt geen indicatie krijgen van effect sizes of of een manipulatie kans van slagen heeft als je underpowered bent. Het doel van pilots is om je set-up en procedure te testen, niet een 'preview' van mogelijke data te krijgen.
Een kleine steekproef kan dus nooit een argument zijn voor andere (meer liberale) interpretatie van je uitkomsten!!!
</rant> 
Als je interactie niet significant is, is er dus geen interactie. De variantie die nu door je interactie wordt geclaimed, en de overlap in variantie tussen je interactie en je hoofdeffecten, leidt dus onterecht tot een power-verlies van je hoofdeffecten. Zelfs als je een orthogonaal design hebt is er geen mogelijk negatief gevolg van het verwijderen van een interactie. Als iets wordt toegewezen aan A/B, is dat 'ten rechte', niet ten onrechte - anders was je interactie immers significant geweest. En als je underpowered bent, geeft dat je niet het recht om non-significantie als significantie te interpreteren. Als je wel voldoende powered bent, heb je of een populatie waar die interactie niet bestaat, of de gepubliceerde interacties die je in je steekproef tegenkwam zijn een manifestatie van Publication Bias.
Als je interactie niet significant is, bestaat ze niet in de populatie. Aangenomen dat je voldoende powered bent. Je mag nooit veronderstellen dat iets dat niet significant is, toch bestaat. Ook niet als je een kleine steekproef hebt.
Daarom mag je nooit onderzoek doen met kleine steekproeven. Elke between-subjects studie met minder dan honderd deelnemers is underpowered. Gooi maar eens in R:
> install.packages('pwr');
> require(pwr);
> pwr.t.test(d=.5, power=.80);
Two-sample t test power calculation
n = 63.76561
d = 0.5
sig.level = 0.05
power = 0.8
alternative = two.sided
NOTE: n is number in *each* group
> pwr.r.test(r=.3, power=.80);
approximate correlation power calculation (arctangh transformation)
n = 84.74891
r = 0.3
sig.level = 0.05
power = 0.8
alternative = two.sided
En dit is voor een power van 80% - dat is aan de magere kant. Voor een power van 90% heb je 113 mensen nodig voor een correlatie-analyse, en 170 voor een t-toets (in totaal, 85 per groep).
Dat vinden de meeste mensen niet leuk om te horen, maar jammer genoeg is er geen ontkomen aan . . .
En voor interacties heb je sowieso erg weinig power, dus dan wordt het nog iets, um, deprimerender :-)