Figuur 2.4.3 laat twee verdelingen zien: in rood de steekproevenverdeling, die per definitie rondom het populatiegemiddelde ligt; en in blauw wat je zou krijgen als je diezelfde verdeling in plaats daarvan rondom het populatiegemiddelde zou leggen.
Dat rode interval bevat per definitie 95% van de mogelijke steekproefgemiddelden. Als je dus oneindig veel steekproeven neemt, ligt je steekproefgemiddelde in 95% van je steekproeven in dat rode interval.
Het specifieke blauwe interval in dit ene voorbeeld (in deze ene steekproef) bevat daarom dus noodzakelijkerwijs minder dan 95% van alle mogelijke steekproefgemiddelden - het ligt immers te ver naar links.
Maar, de breedte van beide intervallen is precies hetzelfde.
Als je een willekeurige steekproef neemt, en je steekproefgemiddelde ligt in dat rode interval, dan moet het wel zo zijn dat als je dat blauwe interval opstelt, het populatiegemiddelde daar ook in ligt. Omdat 95% van de steekproefgemiddelden in het rode interval ligt, geldt dus dat voor 95% van de steekproeven, het populatiegemiddelde in het blauwe interval van die specifieke steekproef ligt.
Je weet niet of dat voor een gegeven steekproef zo is; soms ligt je steekproefgemiddelde door toeval superver van het populatiegemiddelde. Maar je weet wel dat de procedure klopt. Daarom is zo'n betrouwbaarheidsinterval zo waardevol: je weet dat altijd het populatiegemiddelde in 95% van de steekproeven in het 95% BI ligt.
Natuurlijk heb je hier niets aan als je zekerheid wil.
Statistiek kan geen zekerheid geven - je kunt uit onzekerheid niet opeens zekerheid destilleren. Dus alle uitspraken blijven uitspraken in termen van kansen - het doel van statistiek is niet om onzekerheid te verminderen, maar om die accurater te beschrijven.
Helpt dit? Zonee, wat zijn je vervolgvragen?