Datenfischerei (Data Dredging): Gefolterte Daten gestehen alles
"Gefolterte Daten gestehen alles" — dieser Satz, oft Ronald Coase zugeschrieben, beschreibt ein echtes statistisches Problem mit echten Konsequenzen. Wenn man einen Datensatz lange genug aus verschiedenen Winkeln beleuchtet, genug Hypothesen testet, genug Untergruppen analysiert und genug Variablen kombiniert, findet man früher oder später etwas "Signifikantes". Nicht weil es da ist. Sondern weil das Zufall so macht.
Was ist Datenfischerei?
Datenfischerei (englisch: Data Dredging, auch: Data Mining im pejorativen Sinn, Fishing for Significance) bezeichnet die Praxis, einen Datensatz nach statistisch signifikanten Zusammenhängen zu durchsuchen, ohne vorher spezifische Hypothesen formuliert zu haben — und dann die gefundenen Zusammenhänge so zu präsentieren, als wären sie a priori getestete Hypothesen.
Das Problem ist mathematisch präzise: Bei einem Signifikanzniveau von α = 0,05 erwartet man, dass 5% aller Tests ein signifikantes Ergebnis zeigen, selbst wenn überhaupt kein echter Effekt existiert. Wer zwanzig unabhängige Hypothesen testet, hat damit eine Wahrscheinlichkeit von rund 64%, mindestens einen "signifikanten" Befund zu erzielen — auch bei vollständig zufälligen Daten.
Die Mathematik des Zufalls
Etwas formaler: Die familienweise Fehlerrate (Family-Wise Error Rate, FWER) steigt mit der Anzahl der Tests. Bei k unabhängigen Tests mit α = 0,05:
P(mindestens ein falsch positives Ergebnis) = 1 − (1 − 0,05)^k
- 1 Test: 5% Fehlerrate
- 10 Tests: ~40% Fehlerrate
- 20 Tests: ~64% Fehlerrate
- 50 Tests: ~92% Fehlerrate
Das heißt: Wer fünfzig Tests durchführt und einen signifikanten Befund vorlegt — ohne Korrektur für multiples Testen — hat mit Wahrscheinlichkeit von 92% einen zufälligen Treffer präsentiert, unabhängig davon, ob ein echter Effekt existiert.
XKCD und das Jelly-Bean-Problem
Das Webcomic XKCD illustrierte das Problem in einem berühmten Strip: Wissenschaftler testen, ob Gummibärchen Akne verursachen. Der erste Test (alle Farben kombiniert): nicht signifikant. Dann testen sie jede Farbe einzeln — zwanzig Tests. Ergebnis: Grüne Gummibärchen zeigen p < 0,05. Schlagzeile: "Grüne Gummibärchen verursachen Akne!" Dabei ist das statistisch exakt das, was man bei zwanzig Tests ohne echten Effekt und einem Alpha von 0,05 erwarten würde.
Dieser Witz ist kein Witz. Er beschreibt den Mechanismus vieler veröffentlichter wissenschaftlicher Studien.
HARKing: Hypothesen nach dem Ergebnis erfinden
HARKing steht für Hypothesizing After Results are Known — das Formulieren von Hypothesen nach der Datenanalyse, so als wären sie vorher aufgestellt worden. Ein Forscher analysiert explorative Daten, findet einen interessanten Zusammenhang zwischen Variable X und Y, und schreibt dann einen Artikel, der so klingt, als hätte er genau diesen Zusammenhang von Anfang an getestet.
Das Ergebnis: Ein exploratives Befund wird als konfirmatorisches Ergebnis präsentiert. Die Wahrscheinlichkeit, dass es sich um einen Zufallstreffer handelt, ist viel höher, als der Artikel suggeriert. Gleichzeitig fehlen alle anderen Hypothesen, die getestet wurden, aber keine signifikanten Ergebnisse lieferten.
HARKing ist nicht unbedingt bewusste Täuschung — viele Forscher rationalisieren rückblickend, dass sie "eigentlich genau das erwartet hatten". Es ist die natürliche Kombination aus Bestätigungsdenken und dem Druck, publizierbare Ergebnisse zu produzieren.
Die Replikationskrise
Datenfischerei ist einer der zentralen Treiber der Replikationskrise — der Entdeckung, dass ein erheblicher Teil der veröffentlichten Forschungsergebnisse in der Psychologie, Medizin und anderen Disziplinen nicht reproduzierbar ist.
Das Reproducibility Project (Open Science Collaboration, 2015) versuchte, 100 Experimente aus führenden Psychologie-Journalen zu replizieren. Nur etwa 36–39% zeigten signifikante Ergebnisse in der Replikation. Bei vielen anderen schrumpfte der Effekt deutlich oder verschwand ganz. Ein wichtiger Faktor: Die Originalstudien hatten oft explorative Designs, aber wurden als konfirmatorisch dargestellt.
Die Verbindung zur unterpowerten Studie ist direkt: Kleine Studien mit niedriger Power, die dennoch signifikante Ergebnisse finden, sind statistisch verdächtig — sie sind überproportional häufig das Ergebnis von Data Dredging oder Glück, nicht echter Effekte.
Wie sieht Datenfischerei in der Praxis aus?
Einige typische Muster:
- Selektives Reporting: Von zehn gemessenen Variablen werden nur die drei berichtet, die signifikant wurden.
- Untergruppen-Fishing: Kein Gesamteffekt? Vielleicht funktioniert das Medikament "bei Frauen über 50 mit bestimmtem Genotyp und niedrigem BMI"?
- Zeitfenster-Manipulation: Kein Effekt über das gesamte Follow-up? Vielleicht in Woche 3–5?
- Outcome-Switching: Das primäre Outcome war nicht signifikant? Das sekundäre Outcome wurde signifikant — und wird jetzt als primäres berichtet.
- Kovariaten-Manipulation: Daten kontrollieren für verschiedene Konfounder, bis p < 0,05 erscheint.
Werbung und Pseudowissenschaft
Datenfischerei ist nicht auf akademische Forschung beschränkt. Nahrungsergänzungsmittelstudien, Wellness-Produkte und alternative Medizin nutzen das Prinzip routinemäßig: Kleine Studie mit vielen gemessenen Parametern, von denen einer zufällig signifikant wird, und schon hat man "wissenschaftlich belegt", dass das Produkt X unterstützt.
Das Muster ist erkennbar: Keine Vorregistrierung, keine Replikation, sehr spezifische Untergruppen, selektives Zitieren von Studien, die das gewünschte Ergebnis zeigen. Die formale Sprache der Statistik wird verwendet, um Glaubwürdigkeit zu erzeugen, ohne die methodischen Standards zu erfüllen, die diese Sprache verlangt.
Gegenmittel
Die Wissenschaft hat auf die Replikationskrise mit einer Reihe von Reformvorschlägen reagiert:
- Vorregistrierung: Hypothesen, Methoden und Analyseplan werden öffentlich registriert, bevor Daten erhoben werden. Was danach passiert, ist explorativ und wird als solches gekennzeichnet.
- Bonferroni-Korrektur und andere Methoden: Korrektur des Signifikanzniveaus für multiple Vergleiche. Bei zwanzig Tests wird α auf 0,05/20 = 0,0025 gesetzt.
- Registered Reports: Journale akzeptieren Studien zur Publikation basierend auf Hypothesen und Methodik — vor der Datenerhebung. Das Ergebnis bestimmt nicht mehr, ob veröffentlicht wird.
- Open Data und Code: Vollständige Rohdaten und Analysecode werden veröffentlicht, damit Dritte die Analysen nachvollziehen können.
- Replikation: Unabhängige Replikation als Standard, nicht als Ausnahme.
Zusammenfassung
Datenfischerei ist der statistisch-methodische Mechanismus hinter einem Großteil irreproduzibler Forschung. Wenn man genug Tests macht, findet man Signifikanz — auch in reinem Rauschen. Der p-Wert sagt nur: "Bei Annahme der Nullhypothese wäre dieses Ergebnis in 5% der Fälle durch Zufall aufgetreten." Er sagt nicht: "Dieses Ergebnis ist real." Wer diese Unterscheidung vergisst — oder verschleiert — produziert Literatur, die so robust ist wie ein Zufallszahlengenerator. Gefolterte Daten gestehen alles. Man muss nur lange genug foltern.
Quellen & Weiterführendes
- Simmons, Joseph P., Leif D. Nelson & Uri Simonsohn. "False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant." Psychological Science, 22(11), 2011, S. 1359–1366.
- Open Science Collaboration. "Estimating the Reproducibility of Psychological Science." Science, 349(6251), 2015, aac4716.
- Gelman, Andrew & Eric Loken. "The Statistical Crisis in Science." American Scientist, 102(6), 2014, S. 460–465.
- Ioannidis, John P. A. "Why Most Published Research Findings Are False." PLOS Medicine, 2(8), 2005, e124.
- Nosek, Brian A. et al. "Promoting an Open Research Culture." Science, 348(6242), 2015, S. 1422–1425.
- Wikipedia: Datenfischerei