Freedmans Paradoxon

Auch bekannt als: Vorauswahl-Bias Variablenauswahlbias Data Snooping

Aspect ID: freedmans_paradox

Definition

Freedmans Paradoxon zeigt, dass bei vielen gescreenten Prädiktoren im Verhältnis zu Beobachtungen rein zufällige Variablen statistisch signifikant erscheinen und scheinbar gut angepasste Modelle rein durch Zufall produzieren. Bei 50 Prädiktoren und 50 Beobachtungen erscheinen ca. 5 Prädiktoren bei p < 0,05 signifikant, allein durch Zufall.

Beispiele

Ein Forscher mit 50 Patienten und 50 Kandidaten-Biomarkern führt 50 univariate Regressionen durch. Durch reinen Zufall erscheinen ca. 2-3 Biomarker bei p < 0,05 signifikant. Das multivariate Modell mit diesen 'signifikanten' Prädiktoren wirkt gut angepasst, sagt aber auf neuen Patienten nicht besser als Zufall vorher.

Eine Marketingabteilung analysiert den Einfluss von 80 verschiedenen Kampagnenvariablen auf den Umsatz, basierend auf Daten aus 60 Filialen. Rein zufällig erscheinen vier Variablen signifikant (p < 0,05); das daraus abgeleitete 'Erfolgsmodell' versagt bei neuen Filialen vollständig, weil es statistische Artefakte statt echter Zusammenhänge abbildet.

Eine Ernährungsstudie mit 40 Teilnehmern testet 60 Nahrungsmittelkomponenten auf ihre Korrelation mit einem Gesundheitsmarker. Durch Zufall zeigen drei Komponenten signifikante Ergebnisse und werden in der Presse als 'Superfoods' gefeiert – obwohl die Signifikanz rein auf multiplem Testen ohne Korrektur beruht.

Prüfschritte

Prüfschritte

Binäre Ja/Nein-Fragen, die eine KI beantworten muss, um ein Argumentationsmuster in einem Text zu erkennen.

Jeder der 452 Aspekte hat Prüfschritte — einfache Ja/Nein-Fragen, die systematisch erkennen sollen, ob ein Muster in einem Text vorkommt. Für Ad Hominem: "Greift das Argument eine Person statt ihre Behauptung an?" Für falsche Dichotomie: "Werden nur zwei Optionen präsentiert, obwohl mehr existieren?"

Im Glossar ansehen →

Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:

1

Werden viele Prädiktoren im Verhältnis zur Anzahl der Beobachtungen gescreent?
Typ: binary
2

Wurden Prädiktoren für die Aufnahme in ein endgültiges Modell basierend auf ihrer Signifikanz in einer vorläufigen Analyse derselben Daten ausgewählt?
Typ: binary
3

Verwendet das Modell dieselben Daten für Variablenauswahl und abschließende Schätzung?
Typ: binary
4

Wird die Leistung des endgültigen Modells an einem unabhängigen Holdout-Datensatz validiert?
Typ: binary

Beschreibung

Warum es funktioniert

Wenn die Anzahl der Tests die Anzahl der Beobachtungen erreicht oder übersteigt, wird die Rate falscher Entdeckungen enorm. Schrittweise Auswahl und univariates Screening verschlimmern dies durch die Wiederverwendung von Daten für Auswahl und Schätzung.

Wie man entgegnet

Vorab spezifizierte Prädiktormengen verwenden. Korrekturen für multiples Testen anwenden. Modelle an unabhängigen Daten validieren. Regularisierungsmethoden (LASSO, Ridge) einsetzen.

Auch bekannt als

Vorauswahl-Bias Variablenauswahlbias Data Snooping

Praxiskontext

Genomische Assoziationsstudien mit Tausenden von Kandidatengenen waren von Freedmans Paradoxon geplagt, bis das Gebiet genomweite Signifikanzschwellen und Replikationsanforderungen einführte.