Residuen, zijn de afwijkingen tussen een voorspelde waarde en de geobserveerde waarde. Eigenlijk dus het verschil tussen wat de score op iets moet zijn puur uitgaande van het model, en de werkelijke data.
In eenvoudig geval:
Stel dat we een set observaties A hebben:
$$
A = \begin{bmatrix}
5\\
6\\
4\\
\end{bmatrix}
$$
Een zeer eenvoudig model van deze data is het gemiddelde: we stellen dat de set observaties goed kan worden benaderd door ervan uit te gaan dat iedere observatie de gemiddelde observatie is.
Het gemiddelde, en hier dan ook het model is:
$$ \bar{A} = \frac{5+6+4}{3} = 5 $$
De vraag is dan in hoeverre ons model dicht bij de observaties ligt. Die vraag beantwoorden begint met het bekijken van de residuen; als we het model op iedere observatie toepassen hoeveel informatie gaat dan steeds verloren, m.a.w. hoeveel zitten we er per observatie naast?
$$
residual A = \begin{bmatrix}
5 - 5 \\
6 - 5 \\
4 - 5 \\
\end{bmatrix} = \begin{bmatrix}
0 \\
1 \\
-1 \\
\end{bmatrix}
$$
Als de residuen samengevat moeten worden om een indruk van de 'fit' van het model te geven dan kunnen deze gekwadrateerd en gesommeerd worden. Dit wordt dan de Sum of Squares genoemd. Als deze kwadratensom gedeeld wordt door het aantal observaties (en eventuele vrijheidsgraden), dan wordt de modelfit samengevat als een gemiddelde (gekwadrateerde) afwijking rond het model.