Überanpassung (Overfitting) — Wenn Zahlen lügen

Kennst du das? Ein Analyst erstellt ein Modell zur Aktienvorhersage mit 50 Variablen basierend auf 100 Tagen.

Auch bekannt als: Overtraining, Curve Fitting, Memorization

Was passiert hier eigentlich?

Überanpassung tritt auf, wenn ein statistisches Modell Rauschen und zufällige Schwankungen in den Trainingsdaten statt des zugrunde liegenden Musters erfasst. Ein überangepasstes Modell funktioniert exzellent bei bekannten Daten, versagt aber bei neuen, unbekannten Daten. Dies geschieht oft, wenn das Modell zu komplex ist und Datenpunkte „auswendig lernt“, statt allgemeine Zusammenhänge zu verstehen.

Hohe Genauigkeit bei bekannten Daten ist intuitiv überzeugend. Menschen verwechseln beschreibende Genauigkeit (fitting past data) mit Vorhersagegenauigkeit (forecasting new data).

Real Talk: Das siehst du jeden Tag

Ein Analyst erstellt ein Modell zur Aktienvorhersage mit 50 Variablen basierend auf 100 Tagen. Das Modell „sagt“ die Vergangenheit mit 99 % Genauigkeit voraus. Bei echten neuen Marktdaten schneidet es jedoch schlechter ab als einfaches Raten.

Overfitting ist ein zentrales Problem im Machine Learning, beim Finanz-Backtesting und bei Wettervorhersagen.

Dein BS-Detektor

Validiere Modelle immer an „Hold-out“-Daten, die das Modell nie gesehen hat. Nutze Kreuzvalidierung und Regularisierungstechniken. Bevorzuge einfachere Modelle (Occams Rasiermesser).

✓ Wer hat diese Daten gesammelt, und warum?
✓ Ist die Stichprobe groß genug und fair?
✓ Könnte es eine andere Erklärung geben?

Die Challenge

Wenn dir das nächste Mal jemand eine Statistik um die Ohren haut — in der Schule, online, in den Nachrichten — akzeptier sie nicht einfach. Frag: Was fehlt in diesem Bild?

Teil des TellDear Teen Book — criticalthinking.guide