Apps
EN — EnglishLogin

🧪 Diese Plattform befindet sich in der Beta-Phase. Funktionen können sich ändern und es können Fehler auftreten. Danke für dein Feedback!

Modellauswahlbias

Auch bekannt als: Schrittweiser Auswahlbias Datengetriebener Modellauswahlaufblähung
Aspect ID: model_selection_bias

Definition

Modellauswahlbias entsteht, wenn das endgültige statistische Modell nach Dateneinsicht ausgewählt wird, was alle Parameterschätzungen, Standardfehler und Gütestatistiken optimistisch verzerrt. Schrittweise Regression und andere automatisierte Auswahlverfahren durchsuchen viele Modellspezifikationen mit denselben Daten, die für die Schätzung verwendet werden.

Beispiele

Ein Forscher verwendet schrittweise Regression zur Auswahl aus 30 Kandidatenprädiktoren. Der Algorithmus behält 8 Prädiktoren bei, die zusammen R² = 0,62 ergeben. Auf neuen Daten ist das wahre R² wahrscheinlich 0,20 oder niedriger.

Ein Marketingteam testet 15 verschiedene maschinelle Lernmodelle auf denselben Kundendaten und wählt das Modell mit der höchsten Genauigkeit (92 %) für die Präsentation aus. In der Praxis sinkt die Genauigkeit auf 71 %, weil das Modell die zufälligen Muster der Trainingsdaten auswendig gelernt hat, anstatt echte Zusammenhänge zu erfassen.

Ein Politikberater probiert nacheinander sieben verschiedene Umfragegewichtungsverfahren aus, bis eines die gewünschte Mehrheit für seinen Kandidaten zeigt. Er präsentiert nur dieses Ergebnis, ohne zu erwähnen, dass sechs andere plausible Methoden ein anderes Bild ergaben – die Modellauswahl selbst hat das Resultat bestimmt.

Prüfschritte
Prüfschritte
Binäre Ja/Nein-Fragen, die eine KI beantworten muss, um ein Argumentationsmuster in einem Text zu erkennen.
Jeder der 452 Aspekte hat Prüfschritte — einfache Ja/Nein-Fragen, die systematisch erkennen sollen, ob ein Muster in einem Text vorkommt. Für Ad Hominem: "Greift das Argument eine Person statt ihre Behauptung an?" Für falsche Dichotomie: "Werden nur zwei Optionen präsentiert, obwohl mehr existieren?"

Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:

  1. 1

    Wurde das endgültige Modell nach Betrachtung von Modellgütestatistiken auf den Trainingsdaten ausgewählt?

    Typ: binary
  2. 2

    Wurden mehrere Modellspezifikationen verglichen und das am besten angepasste ausgewählt?

    Typ: binary
  3. 3

    Werden Standardfehler und p-Werte berichtet, als wäre das Modell vorab spezifiziert worden?

    Typ: binary
  4. 4

    Wurde die Modellleistung an einem unabhängigen Datensatz validiert?

    Typ: binary
Vertiefung
Der aufklappbare Detailbereich auf jeder Aspekt-Seite mit Beispielen, Psychologie und Gegenstrategien.
Der Vertiefungsbereich bietet ausführliche Informationen zu jedem Aspekt: ein Praxisbeispiel, eine Erklärung warum es funktioniert, Tipps wie man entgegnet, alternative Bezeichnungen und Links zu verwandten Aspekten.