blog.category.aspect 29. März 2026 5 Min. Lesezeit

Überanpassung (Overfitting): Wenn ein Modell das Rauschen auswendig lernt

#blog.tag.aspect #blog.tag.d4_statistical_errors #blog.tag.bok #blog.tag.encyclopedia

Ein Schüler lernt für eine Prüfung, indem er jede Musteraufgabe auswendig lernt — ohne die zugrundeliegenden Konzepte zu verstehen. In der Prüfung kommen neue Aufgaben. Er scheitert. Genau das passiert Modellen, die overfitten: Sie memorieren die Daten, auf denen sie trainiert wurden, anstatt die echten Muster dahinter zu verstehen. Das Ergebnis ist ein Modell, das auf Papiertests brillant aussieht und in der realen Welt kläglich versagt.

Was ist Overfitting?

Überanpassung (englisch: Overfitting) tritt auf, wenn ein statistisches Modell oder ein Machine-Learning-Algorithmus die Trainingsdaten so genau modelliert, dass es auch deren zufälliges Rauschen und Ausreißer "lernt" — Zufälligkeiten, die keine echten Muster darstellen. Das Modell hat sich zu stark an spezifische Eigenheiten der Beispieldaten angepasst und verliert dadurch seine Fähigkeit, auf neuen, ungesehenen Daten korrekte Vorhersagen zu treffen.

Das Gegenteil — Underfitting — tritt auf, wenn ein Modell zu simpel ist und selbst die echten Muster in den Daten nicht einfängt. Die Kunst liegt darin, den richtigen Mittelweg zu finden: ein Modell, das komplexes genug ist, um echte Strukturen abzubilden, aber nicht so komplex, dass es beginnt, zufällige Variationen als bedeutsam zu interpretieren.

Das klassische Beispiel: Kurvenanpassung

Stellen wir uns vor, wir haben zehn Datenpunkte, die grob einer Geraden folgen — mit etwas zufälligem Rauschen. Wir könnten:

Eine einfache Gerade durch die Daten legen (lineares Modell). Sie passt nicht perfekt, trifft aber das grundlegende Muster.
Ein Polynom 9. Grades durch alle zehn Punkte legen. Es passt exakt durch jeden Datenpunkt — null Fehler auf den Trainingsdaten!

Das Polynom 9. Grades sieht auf dem Trainingsset atemberaubend gut aus. Aber zwischen den Punkten macht es wilde Ausschläge, die keinem echten Muster entsprechen. Auf einem neuen Testdatensatz wird die einfache Gerade das Polynom haushoch schlagen.

Das ist das Kernparadox des Overfittings: Bessere Performance auf Trainingsdaten kann schlechtere Performance auf neuen Daten bedeuten.

Overfitting in Machine Learning

In modernen Machine-Learning-Anwendungen ist Overfitting ein ständiges Problem, besonders bei komplexen Modellen wie tiefen neuronalen Netzen. Ein neuronales Netz mit Millionen von Parametern hat theoretisch genug Kapazität, jeden Trainingsdatensatz vollständig auswendig zu lernen.

Die Diagnose ist oft überraschend einfach: Wenn ein Modell auf den Trainingsdaten eine Genauigkeit von 99% erreicht, auf den Validierungsdaten aber nur 70%, ist Overfitting das wahrscheinlichste Problem. Die Lücke zwischen Trainings- und Validierungsperformance ist das Warnsignal.

Standardmaßnahmen gegen Overfitting in ML:

Regularisierung (L1/L2): Bestraft Modelle für zu viele oder zu große Parameter.
Dropout: Deaktiviert zufällig Neuronen während des Trainings, verhindert Co-Abhängigkeiten.
Cross-Validation: Testet das Modell auf mehreren verschiedenen Datensplits.
Mehr Trainingsdaten: Mehr Daten machen es schwieriger, zufälliges Rauschen zu memorieren.
Early Stopping: Training wird beendet, wenn die Validierungsperformance nicht mehr steigt.

Overfitting in der Finanzwelt: Die Backtesting-Falle

Finanzmodelle und Handelsstrategien sind besonders anfällig für Overfitting — mit realen Konsequenzen in Milliardenhöhe. Die Methode heißt Backtesting: Man testet eine Handelsstrategie auf historischen Kursdaten. Eine Strategie, die auf historischen Daten glänzt, muss in der Zukunft aber nicht funktionieren.

Das Problem: Wenn man genug Parameter optimiert, wird man immer eine Strategie finden, die historisch funktioniert hätte. Ein Hedgefonds-Manager, der 100 verschiedene Strategien testet und die beste auswählt, hat diese Strategie auf die Vergangenheit überangepasst — selbst wenn keine davon einen echten, reproduzierbaren Vorteil hat. Das ist die Verbindung zur Datenfischerei: Das Testen vieler Hypothesen auf denselben Daten erzeugt zuverlässig falsch-positive Ergebnisse.

Campbell Harvey und Yan Liu zeigten in einer einflussreichen Studie (2015), dass über 300 veröffentlichte Faktoren in der Finanzliteratur wahrscheinlich das Ergebnis von Overfitting sind — nicht echter Marktineffizienzen. Die Faktorprämien, die im Backtest so attraktiv aussahen, verschwanden, sobald sie live gehandelt wurden oder auf Out-of-Sample-Zeiträume angewendet wurden.

Overfitting in der Wissenschaft

Auch in wissenschaftlichen Studien tritt Überanpassung auf — oft weniger offensichtlich, aber genauso folgenreich. Wenn ein Forscher viele verschiedene statistische Modelle oder Untergruppenanalysen an denselben Daten testet, bis er ein signifikantes Ergebnis findet, hat er sein Modell an den Datensatz überangepasst. Das Ergebnis sieht signifikant aus, ist aber im Wesentlichen Rauschen.

Dieser Mechanismus ist eng verwandt mit p-Hacking: das selektive Berichten von Analysen, die zufällig p < 0,05 ergaben. Beide Phänomene teilen die gleiche Wurzel — zu viel Modellflexibilität für die verfügbare Datenmenge.

Das Bias-Variance-Tradeoff

Statistisch gesehen ist Overfitting der Ausdruck eines fundamentalen Kompromisses: dem Bias-Variance-Tradeoff. Jedes Modell hat zwei Fehlerquellen:

Bias (Verzerrung): Systematische Fehler, weil das Modell zu simpel ist. Ein lineares Modell auf nicht-linearen Daten hat hohen Bias.
Varianz: Empfindlichkeit gegenüber zufälligem Rauschen in den Trainingsdaten. Ein komplexes Modell, das Rauschen lernt, hat hohe Varianz.

Komplexere Modelle reduzieren den Bias, aber erhöhen die Varianz. Der Gesamtfehler ist die Summe beider. Das optimale Modell minimiert diese Summe — nicht nur eines der beiden Komponenten.

Overfitting im Alltag: Überverallgemeinerung

Overfitting ist nicht nur ein technisches Problem. Es ist ein Denkmuster. Wenn jemand eine schlechte Erfahrung mit einer Personengruppe macht und daraus generelle Schlüsse zieht ("Alle X sind Y"), betreibt er kognitives Overfitting: Er überanpasst sein Weltmodell an einen zu kleinen, möglicherweise nicht repräsentativen Datensatz.

Ähnlich verhält es sich mit Verfügbarkeitsheuristiken: Lebhafte, jüngste oder emotionale Ereignisse werden übergewichtet, weil das kognitive Modell zu stark auf diese salientem Datenpunkte angepasst wird — zu Lasten des statistischen Gesamtbildes.

Wie erkenne ich Overfitting?

Die wichtigsten Warnzeichen:

Große Lücke zwischen Training- und Testperformance: Glänzende Ergebnisse auf denselben Daten, mit denen das Modell entwickelt wurde, aber enttäuschende Ergebnisse auf neuen.
Zu viele Parameter für die Datenmenge: Modelle sollten durch deutlich mehr Datenpunkte gestützt sein als sie Parameter haben.
Keine theoretische Begründung: Wenn ein Modell nur durch Ausprobieren funktioniert und keine mechanistische Erklärung hat, ist Overfitting wahrscheinlich.
Selektives Reporting: Wenn nur die erfolgreichsten Modellvarianten berichtet werden, ist der wahre Fehler systematisch unterschätzt.

Zusammenfassung

Overfitting ist die statistische Manifestation eines universellen Problems: zu viel Komplexität für zu wenig Evidenz. Ein Modell, das die Vergangenheit perfekt erklärt, muss die Zukunft nicht gut vorhersagen. Das Gegenmittel ist Bescheidenheit — einfachere Modelle, externe Validierung, und die Bereitschaft, zwischen "dieses Modell erklärt meine Daten" und "dieses Modell ist wahr" zu unterscheiden.

Quellen & Weiterführendes

Hawkins, Douglas M. "The Problem of Overfitting." Journal of Chemical Information and Computer Sciences, 44(1), 2004, S. 1–12.
Harvey, Campbell R. & Yan Liu. "Backtesting." Journal of Portfolio Management, 42(1), 2015, S. 13–28.
Domingos, Pedro. "A Few Useful Things to Know About Machine Learning." Communications of the ACM, 55(10), 2012, S. 78–87.
Bishop, Christopher M. Pattern Recognition and Machine Learning. Springer, 2006.
Geman, Stuart, Elie Bienenstock & René Doursat. "Neural Networks and the Bias/Variance Dilemma." Neural Computation, 4(1), 1992, S. 1–58.
Wikipedia: Überanpassung (Statistik)