Überanpassung (Overfitting)

Auch bekannt als: Overtraining Curve Fitting Memorization

Statistical Error ID: overfitting

Definition

Überanpassung tritt auf, wenn ein statistisches Modell Rauschen und zufällige Schwankungen in den Trainingsdaten statt des zugrunde liegenden Musters erfasst. Ein überangepasstes Modell funktioniert exzellent bei bekannten Daten, versagt aber bei neuen, unbekannten Daten. Dies geschieht oft, wenn das Modell zu komplex ist und Datenpunkte „auswendig lernt“, statt allgemeine Zusammenhänge zu verstehen.

Beispiele

Ein Analyst erstellt ein Modell zur Aktienvorhersage mit 50 Variablen basierend auf 100 Tagen. Das Modell „sagt“ die Vergangenheit mit 99 % Genauigkeit voraus. Bei echten neuen Marktdaten schneidet es jedoch schlechter ab als einfaches Raten.

Ein Sportjournalist entwickelt ein Modell zur Vorhersage von Fußballergebnissen, das 30 Faktoren berücksichtigt – darunter die Schuhfarbe des Trainers und das Wetter beim letzten Auswärtsspiel. In der Saison, auf der das Modell trainiert wurde, trifft es jeden Spielausgang. In der neuen Saison liegt es schlechter als eine einfache Münzwurfregel.

Eine Marketingabteilung baut ein Kundenkündigungs-Modell auf Basis von drei Monaten Daten mit hunderten von Merkmalen. Das Modell erkennt sogar, welche Kunden an bestimmten Wochentagen angerufen haben – Zufallsmuster aus diesen drei Monaten. Beim Einsatz auf neuen Kundendaten versagt es deutlich und übersieht echte Abwanderungsrisiken.

Prüfschritte

Prüfschritte

Binäre Ja/Nein-Fragen, die eine KI beantworten muss, um ein Argumentationsmuster in einem Text zu erkennen.

Jeder der 452 Aspekte hat Prüfschritte — einfache Ja/Nein-Fragen, die systematisch erkennen sollen, ob ein Muster in einem Text vorkommt. Für Ad Hominem: "Greift das Argument eine Person statt ihre Behauptung an?" Für falsche Dichotomie: "Werden nur zwei Optionen präsentiert, obwohl mehr existieren?"

Im Glossar ansehen →

Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:

1

Schneidet das Modell bei Trainingsdaten viel besser ab als bei neuen Testdaten?
Typ: binary
2

Ist das Modell im Verhältnis zur Datenmenge übermäßig komplex?
Typ: binary
3

Wurde das Modell an unabhängigen Daten validiert?
Typ: binary
4

Werden zufällige Muster in den Daten als bedeutsame Signale behandelt?
Typ: binary

Beschreibung

Warum es funktioniert

Hohe Genauigkeit bei bekannten Daten ist intuitiv überzeugend. Menschen verwechseln beschreibende Genauigkeit (fitting past data) mit Vorhersagegenauigkeit (forecasting new data).

Wie man entgegnet

Validiere Modelle immer an „Hold-out“-Daten, die das Modell nie gesehen hat. Nutze Kreuzvalidierung und Regularisierungstechniken. Bevorzuge einfachere Modelle (Occams Rasiermesser).