De z-score is een vorm van standaardiseren; met een z-score verander je een ruwe waarneming in een relatieve waarneming; in dit geval relatief aan het gemiddelde.
Het probleem van ruwe scores is dat ze op zichzelf zo weinig zeggen. Als ik nu vertel dat iemand 24miljoen van iets bezit, dan weet je eigenlijk nog niets; 24 miljoen schapen is best ontzagwekkend, maar 24miljoen micro-organismen is wat anticlimactisch.
De z-score is een voorbeeld van een oplossing: 24 miljoen zegt misschien niet veel, maar als we de 24 miljoen af te trekken van wat men gemiddeld aan dat iets bezit, en te delen door wat in die context te verwachten variabiliteit is (de standaarddeviatie), dan druk ik me uit in afwijking van het gemiddelde. De z-score is zeer informatief omdat we een aantal eigenschappen ervan kennen:
- de z-score is standaardnormaalverdeeld (N(0,1)), dus we weten dat het gemiddelde nul is, en de standaarddeviatie/variantie 1.
- op basis van de standaardnormaalverdeling weten we dat zo'n 68% van de populatie ongeveer 1 standaarddeviatie rond het gemiddelde ligt (+1sd en -1sd)
- op basis van de standaardnormaalverdeling weten we ook dat 95% van de populatie zich binnen |1.96| standaarddeviaties van het gemiddelde bevindt.
Dit is zeer informatief. Als ik nu vertel dat iemand z=6.00 van iets bezit dan weten we niet wat het is, maar in ieder geval dat het relatief aan het gemiddelde veel is, want ieman bezit blijkbaar zes standaarddeviaties meer van iets dan gemiddeld.
Als iets minder dan 1.96 standaarddevaties afwijkt van het gemiddelde is het een waarneming die nog binnen een 95% marge rond het gemiddelde ligt.