Dit is een hele goede vraag.
Je aanname klopt. Als je bijvoorbeeld deelnemers hebt van 0-29 jaar, en je zou ze indelen in groepen van 0-9, 10-19, en 20-29, dan maak je drie groepen die inderdaad even ver van elkaar liggen. Dit is dus een intervalvariabele.
De verdeling van die resulterende variabele is wel heel discontinu: de variabele kan niet normaal zijn verdeeld (want er zijn maar drie categorieen). Dit is vaak geen probleem: je vragen hoeven niet normaal verdeeld te zijn. Maar het kan soms wel onhandig zijn, en rekenen is vaak niet zo zinvol met een intervalvariabele die bijvoorbeeld slechts drie niveau's heeft: een gemiddelde leeftijd van 12.4 zou bijvoorbeeld niet accuraat zijn. Als je de variabelen niet had gecategoriseerd zou je wellicht ergens anders uitkomen, omdat je bijvoorbeeld misschien heel veel deelnemers van 3 en 11 had: het ware gemiddelde ligt dan lager dan als je doet alsof al die deelnemers van 3 eigenlijk 4.5 zijn, en al die deelnemers van 11 eigenlijk 14.5 zijn.
Tot slot gooi je waardevolle variatie weg.
Maar, je redenering klopt. Als je categoriseert naar 'interval-categorieen' heeft de gecategoriseerde variabele ook het interval-niveau.
En, als je categoriseert naar geordende categorieen, dan heeft de gecategoriseerde variabele het ordinale niveau.
Goed bedacht dus!
Tot slot, omdat het niet vaak genoeg gezegd kan worden: categoriseert nooit je variabelen (tenzij je echt moet). Je gooit informatie weg, je gooit power weg, en je introduceert mogelijk schijnverbanden.