P-Hacking (Data Dredging)

Auch bekannt als: Data Dredging Significance Chasing Researcher Degrees of Freedom Exploitation Signifikanz-Jagen

Statistical Error ID: p_hacking

Definition

P-Hacking tritt auf, wenn Forscher Daten wiederholt mit verschiedenen Methoden, Variablenauswahlen oder Untergruppen-Aufteilungen analysieren, bis ein statistisch signifikanter p-Wert (typischerweise unter 0,05) gefunden wird. Diese Ausnutzung von „Researcher Degrees of Freedom“ bläht die Rate falsch-positiver Ergebnisse weit über das nominale Signifikanzniveau auf. Die Praxis kann absichtlich oder unbewusst erfolgen, getrieben durch Publikationsanreize, die signifikante Ergebnisse belohnen.

Beispiele

Ein Pharmaforscher testet ein neues Ergänzungsmittel gegen 20 verschiedene Gesundheitsoutcomes. Ein Ergebnis (Wachstumsrate der Zehennägel) liefert p < 0,05. Die Studie wird unter dem Titel „Präparat X verbessert signifikant das Zehennagelwachstum“ veröffentlicht, ohne die 19 nicht signifikanten Tests zu erwähnen.

Ein Ernährungswissenschaftler untersucht den Effekt eines neuen Tees auf die Gesundheit und misst dabei Blutdruck, Cholesterin, Schlafqualität, Stimmung und zwölf weitere Werte. Nur die Stimmungsmessung ergibt p = 0,04 – und prompt erscheint eine Pressemitteilung: 'Studie belegt: Dieser Tee macht glücklich!'

Ein Social-Media-Forscher analysiert denselben Datensatz über Smartphone-Nutzung immer wieder mit verschiedenen Altersgruppen, Zeiträumen und Definitionen. Erst als er die Gruppe der 23- bis 27-Jährigen an Wochentagen isoliert, findet er ein signifikantes Ergebnis – und veröffentlicht es, ohne die anderen Auswertungen zu erwähnen.

Prüfschritte

Prüfschritte

Binäre Ja/Nein-Fragen, die eine KI beantworten muss, um ein Argumentationsmuster in einem Text zu erkennen.

Jeder der 452 Aspekte hat Prüfschritte — einfache Ja/Nein-Fragen, die systematisch erkennen sollen, ob ein Muster in einem Text vorkommt. Für Ad Hominem: "Greift das Argument eine Person statt ihre Behauptung an?" Für falsche Dichotomie: "Werden nur zwei Optionen präsentiert, obwohl mehr existieren?"

Im Glossar ansehen →

Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:

1

Wurden mehrere statistische Analysen oder Variablenkombinationen getestet?
Typ: binary
2

Werden nur die signifikanten Ergebnisse (p < 0,05) berichtet?
Typ: binary
3

Wird die Gesamtzahl der durchgeführten Tests offengelegt?
Typ: binary
4

Wurden Korrekturen für multiples Testen angewendet?
Typ: binary

Beschreibung

Warum es funktioniert

Bei einer Signifikanzschwelle von 5 % ergibt das Testen von 20 unabhängigen Hypothesen eine Chance von etwa 64 %, mindestens ein falsch-positives Ergebnis zu erhalten. Das Publikum sieht in der Regel nur das berichtete Ergebnis, nicht den gesamten Suchprozess.

Wie man entgegnet

Verlange eine Präregistrierung von Hypothesen und Analyseplänen. Wende Korrekturen für multiples Testen wie Bonferroni oder Benjamini-Hochberg an und frage nach der Gesamtzahl der durchgeführten Tests.

Auch bekannt als

Data Dredging Significance Chasing Researcher Degrees of Freedom Exploitation Signifikanz-Jagen

Praxiskontext

P-Hacking ist in der Sozialpsychologie und biomedizinischen Forschung weit verbreitet und trägt zur Replikationskrise bei. Fachzeitschriften wie PLOS ONE fordern heute eine Präregistrierung, um dem entgegenzuwirken.