Alter aus einem einzigen Bild lesen
Schneide eng aufs Gesicht zu und du wirfst die Hälfte der Geschichte weg. Schlechtes Licht, ein schiefer Winkel, ein grobes Bild: Jedes davon kann ein paar Jahre vortäuschen, in beide Richtungen.
Zuerst findet dich das Modell. Es zieht einen Rahmen um jedes Gesicht und den zugehörigen Körper, ordnet beide einander zu und ignoriert alle anderen im Bild. Jeder Ausschnitt wird ohne Verzerren skaliert und normalisiert (auf den Wertebereich gebracht, den das Netz erwartet). Dann wird er in ein feines Raster aus Kacheln zerlegt, dicht genug für die Dinge, die ein Gesicht wirklich altern lassen: feine Linien, die Art, wie Licht in der Haut streut. Zwei Ströme, Gesicht und Körper, tauschen sich über Attention aus (das Netz entscheidet, welche Kacheln zählen). Ist dein Gesicht unscharf, bekommt der Körper still mehr Gewicht. Am Ende steht eine Zahl: dein Alter.
Kanalweise Normalisierung speist ein dichtes Token-Gitter; Cross-Stream-Attention fusioniert Gesicht und Körper.
