Data-Dredging (Data Dredging)

Auch bekannt als: Fishing Expedition HARKing (Hypothesizing After Results are Known) Post-hoc Analysis disguised as a priori Datenbaggern

Statistical Error ID: data_dredging

Definition

Data-Dredging bezeichnet das exzessive Durchsuchen von Daten nach signifikanten Mustern ohne vorherige Hypothese, um diese Zufallsfunde danach als bestätigt zu präsentieren. Während Exploration legitim ist, wird sie beim Dredging als Konfirmation getarnt. Bei ausreichend vielen Tests ist es statistisch garantiert, dass irgendwelche Korrelationen rein zufällig die Signifikanzhürde überspringen.

Beispiele

Ein Forscher testet 125.000 Korrelationen in einer Gesundheitsdatenbank. Er findet heraus, dass Eiskonsum signifikant mit Ertrinkungsunfällen korreliert. Er publiziert dies als Bestätigung, ohne zu erwähnen, wie viele Tests er gemacht hat oder dass beides schlicht durch warmes Wetter erklärt wird.

Ein Ernährungswissenschaftler durchsucht eine Datenbank mit 80 Nahrungsmitteln und 200 Krankheitsbildern nach signifikanten Zusammenhängen. Er findet, dass hoher Brokkoli-Konsum mit weniger Verkehrsunfällen korreliert (p = 0,04), und veröffentlicht eine Pressemitteilung über die 'schützende Wirkung von Brokkoli im Straßenverkehr'.

Ein Social-Media-Analyst durchforstet Nutzerdaten auf der Suche nach auffälligen Mustern. Er entdeckt, dass Nutzer, die abends zwischen 22 und 23 Uhr posten, häufiger Premium-Abonnenten werden. Ohne jede Vorab-Hypothese präsentiert er dies dem Management als strategische Erkenntnis für gezieltes Targeting.

Prüfschritte

Prüfschritte

Binäre Ja/Nein-Fragen, die eine KI beantworten muss, um ein Argumentationsmuster in einem Text zu erkennen.

Jeder der 452 Aspekte hat Prüfschritte — einfache Ja/Nein-Fragen, die systematisch erkennen sollen, ob ein Muster in einem Text vorkommt. Für Ad Hominem: "Greift das Argument eine Person statt ihre Behauptung an?" Für falsche Dichotomie: "Werden nur zwei Optionen präsentiert, obwohl mehr existieren?"

Im Glossar ansehen →

Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:

1

Wurden die Hypothesen erst NACH der Sichtung der Daten formuliert?
Typ: binary
2

Wurden extrem viele Vergleiche oder Untergruppenanalysen durchgeführt?
Typ: binary
3

Werden explorative Zufallsfunde so präsentiert, als wären sie vorhergesagt worden?
Typ: binary

Beschreibung

Warum es funktioniert

Das publizierte Ergebnis sieht für den Leser wie eine saubere hypothesengeleitete Arbeit aus. Man sieht nicht, wie viele gescheiterte Tests im Papierkorb landeten.

Wie man entgegnet

Unterscheide strikt zwischen explorativer und konfirmatorischer Analyse. Fordere eine Replikation in einem neuen Datensatz für jeden „erbaggerten“ Befund.

Auch bekannt als

Fishing Expedition HARKing (Hypothesizing After Results are Known) Post-hoc Analysis disguised as a priori Datenbaggern

Praxiskontext

Big Data macht Data-Dredging extrem einfach. Die Website „Spurious Correlations“ von Tyler Vigen illustriert die Absurdität dieses Fehlers mit Beispielen wie dem Zusammenhang von Käsekonsum und Bettlaken-Todesfällen.