Kleine toevoeging: het klinkt wel alsof er, mede door de uitval, heel erg weinig power was . . . Het probleem van kleine steekproeven is dat je steekproevenverdeling breder is: de standaardfout van je gemiddelden is immers groter door je kleine n:
$$\text{se}=\frac{\text{sd}}{\sqrt{n}}$$
Door die grote standaardfout is er veel variatie is de effectsize die je vindt. Als er dus geen verband of verschil is in de populatie, is de kans op grote effect sizes in je steekproef veel groter met een kleine steekproef dan met een grote. Bij kleine steekproeven moet je significante uitkomsten dus altijd wantrouwen.
(de redenering dat de effect size groot is, en dat die dus ook aan te tonen is met een kleine steekproef, houdt jammer genoeg geen steek; de kans op een grote effect size in je steekproef is, zelfs bij een effect size van 0 in je populatie, relatief groot als je underpowered bent, waardoor je effect size schatting in een kleine steekproef niet informatief is. Betrouwbaarheidsintervallen lossen dit op natuurlijk!)
Dus, los van de uitval: Als je maar 33 deelnemers hebt, dus 16 of 17 per conditie, dan zijn de uitkomsten niet erg betrouwbaar.
Bovendien heb je gelijk met je theoretische/methodologische punt; het is aannemelijk dat je door de gekozen wervingsmethode deelnemers selecteert op basis van werkdruk. Overigens is het zowel voorstelbaar dat je juist mensen met hoge werkdruk krijgt (relevant onderwerp voor hen) als met lage werkdruk (die hebben er tijd voor); of dat je juist een van deze groepen mist. Hoe dan ook is de methode van werving inderdaad onhandig gekozen.
Ow, en - als er geen controlegroep was, zijn uitspraken over of de interventie werkt natuurlijk sowieso niet mogelijk!