Data-Dredging (Data Dredging) — Wenn Logik sich verkleidet
Data-Dredging bezeichnet das exzessive Durchsuchen von Daten nach signifikanten Mustern ohne vorherige Hypothese, um diese Zufallsfunde danach als bestätigt zu präsentieren. Während Exploration legitim ist, wird sie beim Dredging als Konfirmation getarnt. Bei ausreichend vielen Tests ist es statistisch garantiert, dass irgendwelche Korrelationen rein zufällig die Signifikanzhürde überspringen.
Auch bekannt als: Fishing Expedition, HARKing (Hypothesizing After Results are Known), Post-hoc Analysis disguised as a priori, Datenbaggern
Wie es funktioniert
Das publizierte Ergebnis sieht für den Leser wie eine saubere hypothesengeleitete Arbeit aus. Man sieht nicht, wie viele gescheiterte Tests im Papierkorb landeten.
Ein klassisches Beispiel
Ein Forscher testet 125.000 Korrelationen in einer Gesundheitsdatenbank. Er findet heraus, dass Eiskonsum signifikant mit Ertrinkungsunfällen korreliert. Er publiziert dies als Bestätigung, ohne zu erwähnen, wie viele Tests er gemacht hat oder dass beides schlicht durch warmes Wetter erklärt wird.
Wo man das in der Praxis findet
Big Data macht Data-Dredging extrem einfach. Die Website „Spurious Correlations“ von Tyler Vigen illustriert die Absurdität dieses Fehlers mit Beispielen wie dem Zusammenhang von Käsekonsum und Bettlaken-Todesfällen.
Wie man es erkennt und kontert
Unterscheide strikt zwischen explorativer und konfirmatorischer Analyse. Fordere eine Replikation in einem neuen Datensatz für jeden „erbaggerten“ Befund.
Das Fazit
Data-Dredging (Data Dredging) gehört zu den Denkfehlern, die auf den ersten Blick völlig logisch klingen. Genau das macht sie gefährlich — sie tragen das Kostüm valider Argumentation, während sie eine fehlerhafte Schlussfolgerung einschmuggeln. Die beste Verteidigung? Langsamer werden und fragen: Folgt diese Schlussfolgerung tatsächlich aus diesen Prämissen?