Data-Dredging (Data Dredging) — Wenn Zahlen lügen

Kennst du das? Ein Forscher testet 125.

Auch bekannt als: Fishing Expedition, HARKing (Hypothesizing After Results are Known), Post-hoc Analysis disguised as a priori, Datenbaggern

Was passiert hier eigentlich?

Data-Dredging bezeichnet das exzessive Durchsuchen von Daten nach signifikanten Mustern ohne vorherige Hypothese, um diese Zufallsfunde danach als bestätigt zu präsentieren. Während Exploration legitim ist, wird sie beim Dredging als Konfirmation getarnt. Bei ausreichend vielen Tests ist es statistisch garantiert, dass irgendwelche Korrelationen rein zufällig die Signifikanzhürde überspringen.

Das publizierte Ergebnis sieht für den Leser wie eine saubere hypothesengeleitete Arbeit aus. Man sieht nicht, wie viele gescheiterte Tests im Papierkorb landeten.

Real Talk: Das siehst du jeden Tag

Ein Forscher testet 125.000 Korrelationen in einer Gesundheitsdatenbank. Er findet heraus, dass Eiskonsum signifikant mit Ertrinkungsunfällen korreliert. Er publiziert dies als Bestätigung, ohne zu erwähnen, wie viele Tests er gemacht hat oder dass beides schlicht durch warmes Wetter erklärt wird.

Big Data macht Data-Dredging extrem einfach. Die Website „Spurious Correlations“ von Tyler Vigen illustriert die Absurdität dieses Fehlers mit Beispielen wie dem Zusammenhang von Käsekonsum und Bettlaken-Todesfällen.

Dein BS-Detektor

Unterscheide strikt zwischen explorativer und konfirmatorischer Analyse. Fordere eine Replikation in einem neuen Datensatz für jeden „erbaggerten“ Befund.

✓ Wer hat diese Daten gesammelt, und warum?
✓ Ist die Stichprobe groß genug und fair?
✓ Könnte es eine andere Erklärung geben?

Die Challenge

Wenn dir das nächste Mal jemand eine Statistik um die Ohren haut — in der Schule, online, in den Nachrichten — akzeptier sie nicht einfach. Frag: Was fehlt in diesem Bild?

Teil des TellDear Teen Book — criticalthinking.guide