🧪 Diese Plattform befindet sich in der Beta-Phase. Funktionen können sich ändern und es können Fehler auftreten. Danke für dein Feedback!
data_dredging
Data-Dredging bezeichnet das exzessive Durchsuchen von Daten nach signifikanten Mustern ohne vorherige Hypothese, um diese Zufallsfunde danach als bestätigt zu präsentieren. Während Exploration legitim ist, wird sie beim Dredging als Konfirmation getarnt. Bei ausreichend vielen Tests ist es statistisch garantiert, dass irgendwelche Korrelationen rein zufällig die Signifikanzhürde überspringen.
Ein Forscher testet 125.000 Korrelationen in einer Gesundheitsdatenbank. Er findet heraus, dass Eiskonsum signifikant mit Ertrinkungsunfällen korreliert. Er publiziert dies als Bestätigung, ohne zu erwähnen, wie viele Tests er gemacht hat oder dass beides schlicht durch warmes Wetter erklärt wird.
Ein Ernährungswissenschaftler durchsucht eine Datenbank mit 80 Nahrungsmitteln und 200 Krankheitsbildern nach signifikanten Zusammenhängen. Er findet, dass hoher Brokkoli-Konsum mit weniger Verkehrsunfällen korreliert (p = 0,04), und veröffentlicht eine Pressemitteilung über die 'schützende Wirkung von Brokkoli im Straßenverkehr'.
Ein Social-Media-Analyst durchforstet Nutzerdaten auf der Suche nach auffälligen Mustern. Er entdeckt, dass Nutzer, die abends zwischen 22 und 23 Uhr posten, häufiger Premium-Abonnenten werden. Ohne jede Vorab-Hypothese präsentiert er dies dem Management als strategische Erkenntnis für gezieltes Targeting.
Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:
Wurden die Hypothesen erst NACH der Sichtung der Daten formuliert?
Typ: binaryWurden extrem viele Vergleiche oder Untergruppenanalysen durchgeführt?
Typ: binaryWerden explorative Zufallsfunde so präsentiert, als wären sie vorhergesagt worden?
Typ: binaryData-Dredging bezeichnet das exzessive Durchsuchen von Daten nach signifikanten Mustern ohne vorherige Hypothese, um diese Zufallsfunde danach als bestätigt zu präsentieren. Während Exploration legitim ist, wird sie beim Dredging als Konfirmation getarnt. Bei ausreichend vielen Tests ist es statistisch garantiert, dass irgendwelche Korrelationen rein zufällig die Signifikanzhürde überspringen.
Das publizierte Ergebnis sieht für den Leser wie eine saubere hypothesengeleitete Arbeit aus. Man sieht nicht, wie viele gescheiterte Tests im Papierkorb landeten.
Unterscheide strikt zwischen explorativer und konfirmatorischer Analyse. Fordere eine Replikation in einem neuen Datensatz für jeden „erbaggerten“ Befund.
Big Data macht Data-Dredging extrem einfach. Die Website „Spurious Correlations“ von Tyler Vigen illustriert die Absurdität dieses Fehlers mit Beispielen wie dem Zusammenhang von Käsekonsum und Bettlaken-Todesfällen.
Using information that was not available at the point in time being analyzed.
Presenting post-hoc hypotheses as if they were formulated before seeing the data.
Splitting a single study into multiple publications to inflate publication count.
Nutze diese Tools, um diesen Aspekt zu erkennen, zu analysieren oder zu trainieren.