Überanpassung (Overfitting) — Wenn Logik sich verkleidet
Überanpassung tritt auf, wenn ein statistisches Modell Rauschen und zufällige Schwankungen in den Trainingsdaten statt des zugrunde liegenden Musters erfasst. Ein überangepasstes Modell funktioniert exzellent bei bekannten Daten, versagt aber bei neuen, unbekannten Daten. Dies geschieht oft, wenn das Modell zu komplex ist und Datenpunkte „auswendig lernt“, statt allgemeine Zusammenhänge zu verstehen.
Auch bekannt als: Overtraining, Curve Fitting, Memorization
Wie es funktioniert
Hohe Genauigkeit bei bekannten Daten ist intuitiv überzeugend. Menschen verwechseln beschreibende Genauigkeit (fitting past data) mit Vorhersagegenauigkeit (forecasting new data).
Ein klassisches Beispiel
Ein Analyst erstellt ein Modell zur Aktienvorhersage mit 50 Variablen basierend auf 100 Tagen. Das Modell „sagt“ die Vergangenheit mit 99 % Genauigkeit voraus. Bei echten neuen Marktdaten schneidet es jedoch schlechter ab als einfaches Raten.
Wo man das in der Praxis findet
Overfitting ist ein zentrales Problem im Machine Learning, beim Finanz-Backtesting und bei Wettervorhersagen.
Wie man es erkennt und kontert
Validiere Modelle immer an „Hold-out“-Daten, die das Modell nie gesehen hat. Nutze Kreuzvalidierung und Regularisierungstechniken. Bevorzuge einfachere Modelle (Occams Rasiermesser).
Das Fazit
Überanpassung (Overfitting) gehört zu den Denkfehlern, die auf den ersten Blick völlig logisch klingen. Genau das macht sie gefährlich — sie tragen das Kostüm valider Argumentation, während sie eine fehlerhafte Schlussfolgerung einschmuggeln. Die beste Verteidigung? Langsamer werden und fragen: Folgt diese Schlussfolgerung tatsächlich aus diesen Prämissen?