Je moet geen onderzoek doen met negen deelnemers die je twee keer meet en waar je meerdere variabelen meet :-)
Tenminste, het kan wel, maar de steekproevenverdeling van de verschilscores is zo breed dat je resultaten niet repliceerbaar gaan zijn: alle getallen die je vindt kunnen in een vervolgstudie anders zijn. Echt heel, heel erg anders.
Bovendien, als je meerdere variabelen meet, wil je waarschijnlijk meer dan 1 $p$-waarde berekenen; dan moet je dus corrigeren voor multiple testing, waardoor de alpha die je moet hanteren dus lager wordt dan de gebruikelijke .05 (tenzij je een hoge kans op Type 1-fouten acceptabel vindt).
En, met 9 deelnemers die je twee keer meet is je power om een effect te vinden verwaarloosbaar. Zelfs met een alpha van .05 en met een groot effect is je power onder de 50%. Oftewel: zelfs als dat grote effect bestaat, dan is de kans dat je dat vindt kleiner dan 50%. En de meeste effecten zijn een stuk kleiner (e.g. $d = 0.5$), dus als je dat combineert met een alpha van, zeg $\alpha = .05$, dan kom je er op uit dat de kans dat je een verband detecteert verwaarloosbaar is.
Stel je bijvoorbeeld voor dat je 5 variabelen meet. Je hebt een voormeting en een nameting, en je verwacht een 'middelsterk' effect van $d = 0.5$. Als je 5 variabelen meet en volgens de Bonferroni correctie corrigeert, gebruik je een alpha van $\alpha = .01$, dus dan kun je in R je power uitrekenen met:
> pwr.t.test(d=.5, n=9, sig.level=.01)
Two-sample t test power calculation
n = 9
d = 0.5
sig.level = 0.01
power = 0.05281077
alternative = two.sided
NOTE: n is number in *each* group
Hierbij ga ik uit van een between subjects design, en je kunt liberaler corrigeren voor multiple testing dan met de Bonferroni correctie, dus jij hebt ietsje meer power. Maar je zult niet ver boven de 10% uitkomen.
Dat is ook logisch: met 9 mensen komen de verbanden die je toetst uit extreem brede steekproevenverdelingen. Uitgaande van een Cohen's d van .5 ongeveer uit deze steekproevenverdeling:

Zoals je ziet is de kans op een verschil tussen je voor- en nameting van -1 en 2 standaarddeviaties niet irreeel. Oftewel: wat je gaat vinden tussen voor- en nameting is grotendeels het gevolg van toeval.
Dus, ik zou sterk adviseren tegen toetsing. Rapporteer in plaats daarvan de 95% betrouwbaarheidsintervallen voor je verschilscores. Deze geeft SPSS als je de t-toets uitvoert. Die zijn misschien niet helemaal accuraat (want je populatieverdeling is misschien niet normaal verdeeld, en je hebt te weinig deelnemers om de centrale limietstelling te 'activeren'), maar geven wel een goede indruk van in welke range plausibele populatiewaarden voor de verschilscores zoal zouden kunnen liggen.