Modellauswahlbias — Wenn Logik sich verkleidet
Modellauswahlbias entsteht, wenn das endgültige statistische Modell nach Dateneinsicht ausgewählt wird, was alle Parameterschätzungen, Standardfehler und Gütestatistiken optimistisch verzerrt. Schrittweise Regression und andere automatisierte Auswahlverfahren durchsuchen viele Modellspezifikationen mit denselben Daten, die für die Schätzung verwendet werden.
Auch bekannt als: Schrittweiser Auswahlbias, Datengetriebener Modellauswahlaufblähung
Wie es funktioniert
Jeder Schritt der Modellauswahl optimiert die Gütestatistik auf den aktuellen Daten. Der Suchprozess findet zufällig das am besten passende Modell. Standardmäßige Inferenzverfahren setzen ein vorab spezifiziertes Modell voraus.
Ein klassisches Beispiel
Ein Forscher verwendet schrittweise Regression zur Auswahl aus 30 Kandidatenprädiktoren. Der Algorithmus behält 8 Prädiktoren bei, die zusammen R² = 0,62 ergeben. Auf neuen Daten ist das wahre R² wahrscheinlich 0,20 oder niedriger.
Wo man das in der Praxis findet
Biomarker-Studien mit automatisierter Merkmalsauswahl aus hochdimensionalen -omics-Daten passen systematisch über und scheitern bei der Replikation.
Wie man es erkennt und kontert
Modellspezifikation vor der Dateneinsicht präregistrieren. Regularisierung (LASSO, Ridge) verwenden. An unabhängigem Holdout-Sample validieren. Gesamtanzahl der untersuchten Modelle berichten.
Das Fazit
Modellauswahlbias gehört zu den Denkfehlern, die auf den ersten Blick völlig logisch klingen. Genau das macht sie gefährlich — sie tragen das Kostüm valider Argumentation, während sie eine fehlerhafte Schlussfolgerung einschmuggeln. Die beste Verteidigung? Langsamer werden und fragen: Folgt diese Schlussfolgerung tatsächlich aus diesen Prämissen?