Wel, de eerste stap (die je eigenlijk altijd zou moeten ondernemen natuurlijk :-)) is de effect sizes te berekenen. In jouw geval, omdat er interactie is, moet dat apart per groep, dus in jouw voorbeeld moet je het effect van straf op waargenomen beloning apart berekenen voor de mensen die een lage beloning kregen en de mensen die een hoge beloning kregen.
(even tussendoor: als je de hoogte van de beloning zou negeren, en dus het hoofdeffect van straf op ervaren beloning zou meten, zou je in veel gevallen ook een effect vinden: het gemiddelde van de effecten onder lage en onder hoge beloning. Echter, dat effect bestaat nooit; er bestaan immers alleen het effect van straf op beloning onder een lage beloning, en het effect van straf onder een hoge beloning. Beide van deze effecten zijn per definitie anders dan het gemiddelde effect; anders was er immers geen interactie geweest. Als er interactie is, is het berekenen van een hoofdeffect dus in de meeste gevallen zinloos, in sommige gevallen zelfs misleidend, en slechts zelden zinvol.)
Cohen's d berekenen is gelukkig makkelijk:
$$\text{Cohen's }d=\frac{\overline{X_1}-\overline{X_2}}{\sigma}$$
Je hoeft dus alleen maar de standaarddeviatie ($\sigma$) en de twee gemiddelden te vinden. De standaarddeviatie is de standaarddeviatie van je afhankelijke variabele. Vermoedelijk is de variantie in alle vier je groepen grofweg hetzelfde, dus dan kun je gewoon met descriptives (syntax "DESCR variabelenaam.") de standaarddeviatie bestellen van je afhankelijke variabele. Die kun je ook uit je Anova berekenen trouwens, door de totale SS te pakken, te delen door de totale Df (aantal deelnemers - 1), en de wortel van het resultaat te nemen. De gemiddelden van de vier groepen kun je bijvoorbeeld met descriptives bestellen nadat je split file hebt gedaan. Je kunt ook split file doen op de beloningsconditie en dan een t-test doen op de straf-conditie. Dan krijg je ook de descriptives in je vier groepen.
Door die gemiddelden en de standaard deviatie in te vullen kun je dan Cohen's d berekenen.
Als je het echt netjes wil doen, bereken je het betrouwbaarheidsinterval. Daarvoor heb je de standaardfout van Cohen's d nodig, en die is (credits: http://stats.stackexchange.com/questions/8487/how-do-you-calculate-confidence-intervals-for-cohens-d):
$$SE_{\text{Cohen's }d}=\sqrt{\left( \frac{n_1 + n_2}{n_1 n_2} + \frac{d^2}{2(n_1+n_2-2)}\right) \left(\frac{n_1 + n_2}{n_1+n_2-2} \right)}$$
Een hoop invullen, maar op zich niet moeilijk. Veel werk is niet hetzelfde als moeilijk :-)
Door die standaardfout met 1.96 te vermenigvuldigen, en het resultaat af te trekken en op te tellen bij de puntschatting voor Cohen's d, krijg je het betrouwbaarheidsinterval. Dit is een set plausibele waarden voor Cohen's d in de populatie.
Als je dat interval hebt (of, als je dat niet uitrekent, als je je puntschatting hebt) komt het wel moeilijke deel: is dat een verband dat zo sterk is dat je je zorgen moet maken over je validiteit? Dit moet je zelf beslissen op basis van je interpretatie van hoe sterk dit effect is. Ik zou zelf het interval vergelijken met de intervallen voor de andere effecten (e.g. van straf op waargenomen straf, van beloning op waargenomen beloning, en van de manipulaties op de afhankelijke variabele), om een kader te hebben om je effect size van je cross-over effect te interpreteren.
Als je besluit dat dit effect verwaarloosbaar is, benoem je het als zodanig, en beinvloedt het je artikel verder niet echt. Als je besluit dat het cross-over effect niet verwaarsloosbaar is, dan betekent dat dat je validiteit is geschonden. De betreffende manipulatie(s) werken dan niet: dit is vergelijkbaar met een onderzoek naar de gevolgen van dagelijkse paracetamol-inname waarbij je per ongeluk een andere pijnstiller met onbekende samenstelling hebt gebruikt. Je kunt misschien zien dat er iets gebeurt, maar er is niets zinnigs over te zeggen, omdat je geen idee hebt wat er gebeurt. In dit geval is je onderzoek mislukt, hoe jammer dat ook is. In je discussie moet je dan heel diep ingaan op je procedure en de aard van je manipulaties, zodat je zinnige aanbevelingen kunt doen voor volgend onderzoek. Je kunt de rest van je analyses nog draaien, maar dan moet je in je resultaten-sectie en je discussie heel, heel voorzichtig zijn met hoe je dit opschrijft: je mag immers niet suggereren dat een verschil in je afhankelijke variabele komt omdat de waargenomen straf is veranderd, omdat je niet kunt scheiden of een verschil in je afhankelijke variabele via waargenomen straf of via waargenomen beloning liep.