🧪 Diese Plattform befindet sich in der Beta-Phase. Funktionen können sich ändern und es können Fehler auftreten. Danke für dein Feedback!
lindleys_paradox
Das Lindley-Paradoxon tritt auf, wenn frequentistische und Bayes'sche statistische Methoden aus denselben Daten widersprüchliche Schlussfolgerungen ziehen. Konkret kann ein Ergebnis in einem frequentistischen Test statistisch signifikant sein (niedriger p-Wert), während die Bayes'sche A-posteriori-Wahrscheinlichkeit stark für die Nullhypothese spricht. Diese Diskrepanz wird mit zunehmender Stichprobengröße ausgeprägter.
Eine klinische Studie mit 100.000 Teilnehmern findet einen Behandlungseffekt von 0,01 Einheiten mit p = 0,03. Der Frequentist verwirft die Nullhypothese. Eine Bayes'sche Analyse mit einem vernünftigen Prior kommt jedoch zu dem Schluss, dass die Nullhypothese mit 95 % Wahrscheinlichkeit zutrifft, weil der beobachtete Effekt so gering ist, dass er eher mit Rauschen als mit einem echten Effekt auf der Skala des Priors vereinbar ist.
Eine Bildungsbehörde testet mit 200.000 Schülerinnen und Schülern, ob eine neue Unterrichtsmethode die Testergebnisse verbessert. Der p-Wert beträgt 0,04 – der Frequentist erklärt die Methode für wirksam. Die Bayes'sche Analyse zeigt jedoch, dass die A-priori-Wahrscheinlichkeit eines echten Effekts so gering ist, dass die Nullhypothese trotzdem wahrscheinlicher bleibt.
Ein Soziologe untersucht mit einer riesigen Bevölkerungsumfrage, ob Linkshänder häufiger kreative Berufe wählen, und erhält p = 0,02. Während der frequentistische Test Signifikanz meldet, zeigt eine Bayes'sche Auswertung, dass der gemessene Unterschied so minimal ist und die Vorannahme so schwach, dass kaum Evidenz für einen echten Zusammenhang besteht.
Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:
Wird ein statistisch signifikantes Ergebnis aus einem frequentistischen Hypothesentest berichtet?
Typ: binaryWürde eine Bayes'sche Analyse mit einem vernünftigen Prior der Nullhypothese trotz des signifikanten p-Werts eine hohe Wahrscheinlichkeit zuweisen?
Typ: binaryIst die Stichprobengröße sehr groß, sodass selbst winzige Effekte statistisch signifikant werden?
Typ: binaryWurde die A-priori-Wahrscheinlichkeit der Alternativhypothese neben dem p-Wert berücksichtigt?
Typ: binaryDas Lindley-Paradoxon tritt auf, wenn frequentistische und Bayes'sche statistische Methoden aus denselben Daten widersprüchliche Schlussfolgerungen ziehen. Konkret kann ein Ergebnis in einem frequentistischen Test statistisch signifikant sein (niedriger p-Wert), während die Bayes'sche A-posteriori-Wahrscheinlichkeit stark für die Nullhypothese spricht. Diese Diskrepanz wird mit zunehmender Stichprobengröße ausgeprägter.
Bei großen Stichproben können frequentistische Tests beliebig kleine Effekte erkennen und signifikante p-Werte für praktisch bedeutungslose Unterschiede liefern. Die Bayes'sche Analyse bestraft vage Alternativhypothesen, weil die Likelihood dünn über den Parameterraum verteilt ist, sodass die präzise Nullhypothese vergleichsweise mehr Unterstützung erhält.
Neben p-Werten sollten Effektgrößen berichtet werden. Bei großen Stichproben sollten Bayes'sche Ansätze oder Bayes-Faktoren in Betracht gezogen werden. Es sollte bewertet werden, ob ein statistisch signifikantes Ergebnis auch praktisch bedeutsam ist. Prior-Annahmen und die Unterscheidung zwischen statistischer und inhaltlicher Signifikanz sollten explizit gemacht werden.
Dieses Paradoxon tritt häufig in großangelegten epidemiologischen Studien, in der Genomik (genomweite Assoziationsstudien mit Millionen von Datenpunkten) und in der sozialwissenschaftlichen Forschung mit Big Data auf, wo winzige Effekte routinemäßig statistische Signifikanz erreichen.
Rejecting a true null hypothesis – finding a signal in noise.
Failing to reject a false null hypothesis – missing a valid signal.
Ignoring general statistical base rates in favor of specific individual-case info.
A model with higher accuracy can have worse predictive power than a less accurate one on imbalanced data.
A study with too few participants or observations to reliably detect the effect being investigated. Low statistical power increases both false negatives and the rate at which significant findings are false positives.
Nutze diese Tools, um diesen Aspekt zu erkennen, zu analysieren oder zu trainieren.