In de statistiek is eigenlijk enkel de term 'variantie' van toepassing. Variatie is een volksmondachtige manier om over ruis te praten. Alles wat dan niet constant is in een set van observaties is dan variatie, maar met variantie wordt specifiek aan een wiskundig concept gerefereerd: de gemiddelde gekwadrateerde afwijking rond het gemiddelde. Door hier de wortel van te trekken komen we tot de gemiddelde afwijking rond het gemiddelde, wat de standaarddeviatie wordt genoemd.
In een statistische context wordt dus enkel gesproken over de variantie, of de wortel ervan, de standaarddeviatie. Dat zijn termen met wiskundige eigenschappen. Variatie heeft die wiskundige eigenschappen nog niet tegekend gekregen. De variatie kan in spraak wel slaan op de 'puntenwolk' als het ware, maar zodra we deze variatie ergens in moeten uitdrukken wordt het eigenlijk automatisch iets specifieks wiskundig, zoals variantie. Laten we zeggen dat variatie een set waarnemingen is die per observatie kunnen verschillen). Variantie is dan de centrummaat van alle waargenomen verschillen in die set van waarnemingen. Variantie is handig, want door afwijkingen te kwadrateren worden grotere afwijkingen van het gemiddelde belangrijker, en daarmee informatiever, gemaakt.
Het is ook logisch om te communiceren en te rekenen met zo'n centrummaat voor variatie, want anders zouden we altijd hele datasets moeten overhandigen wanneer we over spreiding willen spreken. Wanneer mensen vragen naar hoe een groep studenten het tentamen hebben gemaakt dan mailen we hen ook niet gelijk de hele dataset; we geven ze het gemiddelde tentamencijfer. Als we vragen naar hoe de studenten varierden in dat cijfer, dan wederom geven we niet de hele dataset: we geven ze de gemiddelde (gekwadrateerde) afwijking rond het gemiddelde
In een model met predictoren (verklarende variabelen) zal er altijd een deel van alle variatie (volksmond) op Y, verklaard kunnen worden door het model (de set van predictoren) plus meetfout (alle afwijkingen binnen de predictoren). (De bekende Y = FIT + ERROR). Zodra al die variatie op Y in getallen wiskundig moet worden geduid (zodat we kunnen rekenen) gebruiken we de variantie: een centrummaat om variatie in uit te kunnen drukken. Een deel van de variantie is logisch; als X veranderd veranderd Y mee. Dit is verklaarde variantie. Wat we niet snappen is waarom er weer variabiliteit is binnen X op Y. Dit drukken we ook uit in een samenvattende centrummaat: de binnengroepenvariantie.
Hoeveel variantie tussen groepen (X) er ten opzichte van de totale variantie van Y (de samenvatting van alle variatie) is wordt dan ook in een enkel getal uitdrukbaar: de proportie verklaarde variantie.
Maw: als variatie al iets is, dan is het niet iets dat zich goed laat uitdrukken; het is de hele dataset. Variantie is een manier om de data samen te vatten en om ermee verder te rekenen.