Freedmans Paradoxon — Wenn Logik sich verkleidet
Freedmans Paradoxon zeigt, dass bei vielen gescreenten Prädiktoren im Verhältnis zu Beobachtungen rein zufällige Variablen statistisch signifikant erscheinen und scheinbar gut angepasste Modelle rein durch Zufall produzieren. Bei 50 Prädiktoren und 50 Beobachtungen erscheinen ca. 5 Prädiktoren bei p < 0,05 signifikant, allein durch Zufall.
Auch bekannt als: Vorauswahl-Bias, Variablenauswahlbias, Data Snooping
Wie es funktioniert
Wenn die Anzahl der Tests die Anzahl der Beobachtungen erreicht oder übersteigt, wird die Rate falscher Entdeckungen enorm. Schrittweise Auswahl und univariates Screening verschlimmern dies durch die Wiederverwendung von Daten für Auswahl und Schätzung.
Ein klassisches Beispiel
Ein Forscher mit 50 Patienten und 50 Kandidaten-Biomarkern führt 50 univariate Regressionen durch. Durch reinen Zufall erscheinen ca. 2-3 Biomarker bei p < 0,05 signifikant. Das multivariate Modell mit diesen 'signifikanten' Prädiktoren wirkt gut angepasst, sagt aber auf neuen Patienten nicht besser als Zufall vorher.
Wo man das in der Praxis findet
Genomische Assoziationsstudien mit Tausenden von Kandidatengenen waren von Freedmans Paradoxon geplagt, bis das Gebiet genomweite Signifikanzschwellen und Replikationsanforderungen einführte.
Wie man es erkennt und kontert
Vorab spezifizierte Prädiktormengen verwenden. Korrekturen für multiples Testen anwenden. Modelle an unabhängigen Daten validieren. Regularisierungsmethoden (LASSO, Ridge) einsetzen.
Das Fazit
Freedmans Paradoxon gehört zu den Denkfehlern, die auf den ersten Blick völlig logisch klingen. Genau das macht sie gefährlich — sie tragen das Kostüm valider Argumentation, während sie eine fehlerhafte Schlussfolgerung einschmuggeln. Die beste Verteidigung? Langsamer werden und fragen: Folgt diese Schlussfolgerung tatsächlich aus diesen Prämissen?