Lindley-Paradoxon

Auch bekannt als: Lindley-Jeffreys paradox Jeffreys-Lindley paradox Lindley-Jeffreys-Paradoxon Jeffreys-Lindley-Paradoxon

Statistical Error ID: lindleys_paradox

Definition

Das Lindley-Paradoxon tritt auf, wenn frequentistische und Bayes'sche statistische Methoden aus denselben Daten widersprüchliche Schlussfolgerungen ziehen. Konkret kann ein Ergebnis in einem frequentistischen Test statistisch signifikant sein (niedriger p-Wert), während die Bayes'sche A-posteriori-Wahrscheinlichkeit stark für die Nullhypothese spricht. Diese Diskrepanz wird mit zunehmender Stichprobengröße ausgeprägter.

Beispiele

Eine klinische Studie mit 100.000 Teilnehmern findet einen Behandlungseffekt von 0,01 Einheiten mit p = 0,03. Der Frequentist verwirft die Nullhypothese. Eine Bayes'sche Analyse mit einem vernünftigen Prior kommt jedoch zu dem Schluss, dass die Nullhypothese mit 95 % Wahrscheinlichkeit zutrifft, weil der beobachtete Effekt so gering ist, dass er eher mit Rauschen als mit einem echten Effekt auf der Skala des Priors vereinbar ist.

Eine Bildungsbehörde testet mit 200.000 Schülerinnen und Schülern, ob eine neue Unterrichtsmethode die Testergebnisse verbessert. Der p-Wert beträgt 0,04 – der Frequentist erklärt die Methode für wirksam. Die Bayes'sche Analyse zeigt jedoch, dass die A-priori-Wahrscheinlichkeit eines echten Effekts so gering ist, dass die Nullhypothese trotzdem wahrscheinlicher bleibt.

Ein Soziologe untersucht mit einer riesigen Bevölkerungsumfrage, ob Linkshänder häufiger kreative Berufe wählen, und erhält p = 0,02. Während der frequentistische Test Signifikanz meldet, zeigt eine Bayes'sche Auswertung, dass der gemessene Unterschied so minimal ist und die Vorannahme so schwach, dass kaum Evidenz für einen echten Zusammenhang besteht.

Prüfschritte

Prüfschritte

Binäre Ja/Nein-Fragen, die eine KI beantworten muss, um ein Argumentationsmuster in einem Text zu erkennen.

Jeder der 452 Aspekte hat Prüfschritte — einfache Ja/Nein-Fragen, die systematisch erkennen sollen, ob ein Muster in einem Text vorkommt. Für Ad Hominem: "Greift das Argument eine Person statt ihre Behauptung an?" Für falsche Dichotomie: "Werden nur zwei Optionen präsentiert, obwohl mehr existieren?"

Im Glossar ansehen →

Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:

1

Wird ein statistisch signifikantes Ergebnis aus einem frequentistischen Hypothesentest berichtet?
Typ: binary
2

Würde eine Bayes'sche Analyse mit einem vernünftigen Prior der Nullhypothese trotz des signifikanten p-Werts eine hohe Wahrscheinlichkeit zuweisen?
Typ: binary
3

Ist die Stichprobengröße sehr groß, sodass selbst winzige Effekte statistisch signifikant werden?
Typ: binary
4

Wurde die A-priori-Wahrscheinlichkeit der Alternativhypothese neben dem p-Wert berücksichtigt?
Typ: binary

Beschreibung

Warum es funktioniert

Bei großen Stichproben können frequentistische Tests beliebig kleine Effekte erkennen und signifikante p-Werte für praktisch bedeutungslose Unterschiede liefern. Die Bayes'sche Analyse bestraft vage Alternativhypothesen, weil die Likelihood dünn über den Parameterraum verteilt ist, sodass die präzise Nullhypothese vergleichsweise mehr Unterstützung erhält.

Wie man entgegnet

Neben p-Werten sollten Effektgrößen berichtet werden. Bei großen Stichproben sollten Bayes'sche Ansätze oder Bayes-Faktoren in Betracht gezogen werden. Es sollte bewertet werden, ob ein statistisch signifikantes Ergebnis auch praktisch bedeutsam ist. Prior-Annahmen und die Unterscheidung zwischen statistischer und inhaltlicher Signifikanz sollten explizit gemacht werden.

Auch bekannt als

Lindley-Jeffreys paradox Jeffreys-Lindley paradox Lindley-Jeffreys-Paradoxon Jeffreys-Lindley-Paradoxon

Praxiskontext

Dieses Paradoxon tritt häufig in großangelegten epidemiologischen Studien, in der Genomik (genomweite Assoziationsstudien mit Millionen von Datenpunkten) und in der sozialwissenschaftlichen Forschung mit Big Data auf, wo winzige Effekte routinemäßig statistische Signifikanz erreichen.