P-Hacking: Daten solange foltern, bis sie gestehen
P-Hacking: Daten solange foltern, bis sie gestehen
Es gibt einen alten Geheimdienstspruch, der erschreckend gut auf die moderne Wissenschaft passt: „Wenn man jemanden lange genug foltert, gesteht er alles." P-Hacking ist genau das — nur mit Datensätzen statt Verdächtigen. Und die Konsequenzen sind ernster, als die meisten denken.
Was ist P-Hacking?
In der statistischen Hypothesenprüfung gilt ein Ergebnis traditionell als „signifikant", wenn der p-Wert unter 0,05 liegt. Das bedeutet: Die Wahrscheinlichkeit, ein so extremes Ergebnis zufällig zu erhalten, obwohl gar kein echter Effekt existiert, beträgt weniger als 5 Prozent.
Das klingt streng. Ist es aber nicht — wenn man die Freiheitsgrade des Forschers ignoriert. Denn zwischen der Erhebung roher Daten und dem endgültigen p-Wert im Paper liegen Dutzende von Entscheidungen: Welche Teilnehmer werden ausgeschlossen? Welche Kovariaten werden kontrolliert? Welcher Zeitpunkt der Messung wird verwendet? Welcher statistische Test kommt zum Einsatz?
P-Hacking bezeichnet die — oft unbewusste — Praxis, diese Entscheidungen so lange zu variieren, bis der p-Wert die magische 0,05-Grenze unterschreitet. Manchmal geschieht es mit Vorsatz. Häufiger geschieht es durch Selbstbetrug: Der Forscher ist von seinem Effekt überzeugt, und die Daten sollen das nur noch bestätigen.
Ein Gedankenexperiment: Zwanzig Labore, eine Münze
Stellen Sie sich vor, zwanzig Forschungsteams untersuchen unabhängig voneinander, ob ein bestimmtes Nahrungsergänzungsmittel die Konzentration verbessert. Keines der Teams ahnt, dass das Präparat rein wirkungslos ist — Placebo. Jedes Team führt seinen Versuch mit 50 Probanden durch und berechnet am Ende einen p-Wert.
Rein statistisch ist zu erwarten, dass etwa eines dieser zwanzig Teams — zufällig — einen p-Wert unter 0,05 erhält. Genau dieses Team wird begeistert ein Paper einreichen. Die anderen neunzehn? Die landen in der Schublade. Niemand veröffentlicht negative Befunde.
Ergebnis: Ein positiver Befund gelangt in die Literatur. Wer die Studie liest, hat keinen Grund zur Skepsis. Das nennt sich Publication Bias — und P-Hacking ist sein enger Verwandter.
Die Werkzeugkiste des P-Hackers
Simmons, Nelson und Simonsohn beschrieben 2011 in ihrem einflussreichen Paper „False-Positive Psychology", wie leicht sich p-Werte manipulieren lassen, ohne eine einzige Zahl zu fälschen. Ihre Liste der „researcher degrees of freedom" umfasst unter anderem:
- Flexible Stichprobengröße: Daten erheben, testen, wieder erheben, wieder testen — bis p < 0,05.
- Selektive Ausreißerentfernung: „Ausreißer" werden entfernt, wenn sie das Ergebnis verschlechtern, behalten, wenn sie es verbessern.
- Kovariaten-Jonglage: Kontrollvariablen werden hinzugefügt oder entfernt, bis die Signifikanz erscheint.
- Abhängige Variablen tauschen: Unter mehreren gemessenen Outcomes wird nachträglich dasjenige zum „primären Endpunkt" erklärt, das signifikant wurde.
- Subgruppen-Mining: Die Gesamtgruppe zeigt keinen Effekt? Dann vielleicht Frauen über 50? Linkshänder? Probanden mit Katzenhaar-Allergie?
Simmons et al. demonstrierten, dass man mit diesen Techniken in harmlosen Datensätzen scheinbar beweisen kann, dass das Hören eines Beatles-Songs Menschen jünger macht — buchstäblich.
Die Replikationskrise: Wenn die Wissenschaft sich selbst nicht glaubt
2015 veröffentlichte das Open Science Collaboration-Projekt in Science einen Befund, der durch die Wissenschaftswelt hallte: Von 100 publizierten psychologischen Studien konnten nur etwa 36 Prozent repliziert werden. Nicht einmal die Hälfte. In vielen Fällen war der Effekt entweder gar nicht reproduzierbar oder dramatisch kleiner als ursprünglich berichtet.
Seitdem wurden ähnliche Replikationsstudien in der Ernährungswissenschaft, der Krebsforschung, der Ökonomie und der Medizin durchgeführt — mit vergleichbar ernüchternden Resultaten. Das Ausmaß des Problems ist umstritten, aber dass P-Hacking eine zentrale Rolle spielt, gilt als Konsens.
Der Statistiker Andrew Gelman spricht vom „garden of forking paths": Selbst ohne bewusste Manipulationsabsicht navigieren Forscher unbewusst durch einen Entscheidungsbaum, der sie systematisch zu signifikanten Ergebnissen führt. Das Ergebnis sieht aus wie solide Wissenschaft — und fühlt sich auch so an.
Warum ist es so schwer zu erkennen?
P-Hacking hinterlässt kaum Spuren. Ein Forscher, der zwanzig verschiedene Auswertungsstrategien ausprobiert und nur die signifikante berichtet, verhält sich formal korrekt — er lügt nicht. Er selektiert. Und diese Selektion ist in einem normalen Paper unsichtbar.
Hinzu kommt: Die meisten Forscher, die P-Hacking betreiben, tun es nicht aus Bosheit. Sie glauben an ihren Effekt. Sie sind überzeugt, dass die Daten nur noch ein bisschen bearbeitet werden müssen, um die Wahrheit sichtbar zu machen. Das Gehirn ist sehr gut darin, die eigene Selektivität zu rationalisieren.
Und das institutionelle Umfeld belohnt dieses Verhalten: Journals wollen positive Befunde. Karrieren hängen an Publikationen. Drittmittel folgen dem Renommee. Wer keine signifikanten Ergebnisse produziert, landet auf dem Abstellgleis.
Gegenmaßnahmen: Prä-Registrierung und Open Data
Die Wissenschaftsgemeinschaft hat begonnen, gegenzusteuern. Die wichtigste Maßnahme: Prä-Registrierung. Forscher legen ihre Hypothesen, Methoden und Auswertungsstrategien öffentlich fest, bevor sie die Daten erheben. Abweichungen müssen transparent gemacht werden. Damit wird der „garden of forking paths" sichtbar — und verengt.
Ergänzt wird das durch Open Data-Anforderungen: Rohdaten müssen publiziert werden, sodass andere Forscher die Auswertung nachvollziehen können. Plattformen wie das Open Science Framework ermöglichen beides.
Eine weitere Innovation sind Registered Reports: Journals akzeptieren Studien zur Publikation noch bevor die Daten erhoben sind — auf Basis des Studiendesigns allein. Damit entfällt der Anreiz, Ergebnisse zu optimieren.
Was bedeutet das für uns?
Für alle, die wissenschaftliche Studien lesen — ob als Journalisten, Entscheider oder neugierige Menschen — gilt eine einfache Heuristik: Ein einzelner p-Wert ist kein Beweis. Er ist ein schwaches Signal, das durch Replikation, Metaanalysen und mechanistische Plausibilität gestützt werden muss.
Misstrauen Sie besonders:
- Überraschend präzisen p-Werten knapp unter 0,05 (z. B. p = 0,049)
- Studien mit kleinen Stichproben und großen Effekten
- Subgruppenanalysen ohne vorab formulierte Hypothese
- Fehlenden Replikationsstudien
P-Hacking ist nicht die Ausnahme — es ist ein systemisches Problem. Zu verstehen, wie es funktioniert, ist der erste Schritt, um nicht auf seine Ergebnisse hereinzufallen.
Verwandte Denkfehler
- Ghost Variables / Confounders — Wenn eine versteckte dritte Variable für scheinbare Korrelationen verantwortlich ist
- Base-Rate-Fallacy — Warum ein 99%-genauer Test trotzdem meistens falsch liegen kann
- Regression zur Mitte — Warum extreme Messwerte von alleine verschwinden — auch ohne echten Effekt
Quellen & weiterführende Literatur
- Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-Positive Psychology. Psychological Science, 22(11), 1359–1366.
- Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349(6251).
- Gelman, A., & Loken, E. (2014). The statistical crisis in science. American Scientist, 102(6), 460–465.
- Head, M. L., et al. (2015). The Extent and Consequences of P-Hacking in Science. PLOS Biology, 13(3).
- Nosek, B. A., et al. (2018). The preregistration revolution. PNAS, 115(11), 2600–2606.