Er zijn drie stappen in het bepalen van verschillen. Allereerst (en dat is het bovenste deel in de t-toets formule) kun je gewoon twee gemiddelden van elkaar aftrekken om het ruwe verschil tussen twee groepen te zien. Als dit verschil 0 is is het duidelijk dat de twee groepen dezelfde gemiddelden hebben. Helaas is alles wat niet nul is een beetje natte vingerwerk. Daar houden we in de kwantitatieve wetenschap niet van.
De tweede stap is dan om het ruwe verschil op een bepaalde manier te standaardiseren: schaalonafhankelijk maken. Als we weten met welke sprongen waarden gemiddeld van elkaar afliggen dan hebben we een schaal waarop we makkelijker kunnen zien hoe groot een verschil van 0 relatief is. Door het delen door de standaarddeviatie (of beter: standaardmeetfout) standaardiseren (t-waarden) we het verschil in ruwe gemiddelden. Nul is dan nog steeds geen verschil, maar ik weet ineens dat rond de t = 1 of t = -1 een standaardafwijking is waar zo'n 68% van de populatie tussen zal zitten. Niet zo'n interessant grote afwijking dus. een t-waarde van 3 of -3 is dan weer ineens best fors. Rond de 1% van de populatie zal zoiets of extremer scoren.
De derde stap is de grens bepalen; wanneer is veel 'veel'? Hiertoe wordt een afpraak gemaakt onder onderzoekers. Want is iets pas wetenschappelijk interessant als het slechts een duizendste procent kans heeft om zich voor te doen? In de sociale wetenschappen, waar we werken met observaties die erg kunnen varieren van nature nemen we een redelijk ruim criterium. Als een afwijking slechts in 5% (of minder) zich waarschijnlijk in de populatie voor zou kunnen doen (gegeven dat er geen verschil verwacht zou zijn) dan spreken we onderling af dat we dat een interessante (significante) afwijking vinden.
Door deze derde stap kunnen we handig terugrekenen. Als ik in een t-toets twee groepen vergelijk, met in totaal 100 deelnemers, en de gestandaardiseerde afwijking van hun gemiddelde (de t-waarde) is 1.98, dan is de kans dat ik een gestandaardiseerd verschil van 1.98 vindt, slechts 5% of kleiner, als ik ervan uitga dat er eigenlijk een verschil van 0 gevonden had moeten worden. De afspraak is dan dat ik dat als een bijzondere vondst mag zien. Alles kleiner dan 1.98 bij 100 deelnemers zou dan groter dan 5% kans hebben, en derhalve niet interresant.