blog.category.aspect 29. März 2026 6 Min. Lesezeit

Double-Dipping: Wenn Daten zweimal für dasselbe herhalten müssen

#blog.tag.aspect #blog.tag.d4_statistical_errors #blog.tag.bok #blog.tag.encyclopedia

Double-Dipping: Wenn Daten zweimal für dasselbe herhalten müssen

Man stelle sich vor, jemand schreibt eine Prüfung, sieht anschließend die Musterlösung — und erklärt dann, er hätte die Antworten schon vorher gewusst. Für Daten in der Forschung funktioniert genau dieser Trick: Wenn dieselben Daten erst zur Entdeckung einer Hypothese und dann zu ihrer Bestätigung verwendet werden, ist das Ergebnis garantiert positiv. Und garantiert falsch.

Was ist Double-Dipping?

Double-Dipping — im Deutschen auch zirkuläre Analyse, Circular Analysis oder Data Snooping genannt — bezeichnet die Praxis, denselben Datensatz sowohl zur Generierung als auch zur Überprüfung einer Hypothese zu verwenden.

Der Kernfehler liegt in der Verletzung eines fundamentalen Prinzips statistischer Schlussfolgerungen: Eine Hypothese muss vor der Analyse der Daten formuliert werden, die sie testen soll. Anderenfalls testet man nicht, ob die Hypothese der Wirklichkeit entspricht — man testet nur, ob die Hypothese mit den Zufallsfluktuationen in einem bestimmten Datensatz konsistent ist. Das ist eine Tautologie.

Formal ausgedrückt: Wenn eine Hypothese H aus Daten D₁ generiert und dann an denselben Daten D₁ getestet wird, misst der p-Wert nicht mehr die Wahrscheinlichkeit, H zufällig zu finden — weil H nach Definition mit D₁ konsistent ist. Der Test hat keine Aussagekraft.

Woher kommt der Begriff?

Die Metapher stammt aus dem sozialen Tabu: Man taucht ein Stück Brot oder einen Cracker in eine gemeinsame Soße, beißt davon ab — und taucht denselben Happen dann erneut ein. Es ist unhygienisch, weil das, was man herausnimmt, schon kontaminiert wurde durch das, was man zuvor hineingebracht hat.

Auf Daten übertragen: Wenn ich einen Datensatz erst „anschaue" und daraus eine Hypothese forme, habe ich ihn bereits „kontaminiert". Jede nachfolgende Analyse an denselben Daten ist nicht mehr unabhängig von dem, was ich bereits gesehen habe.

Das Spektrum: Explizit bis unbemerkt

Double-Dipping existiert in einem Spektrum von offensichtlicher Manipulation bis zu unbewusstem, gutwilligem Fehler.

Explizites Data-Mining

Ein Forscher analysiert einen Datensatz auf Korrelationen, findet eine — und publiziert sie als bestätigte Hypothese. Kein separater Test, kein neuer Datensatz. Das ist am deutlichsten erkennbar und am leichtesten zu kritisieren.

Exploratives Analysieren, dann bestätigendes Testen — an denselben Daten

Häufiger und schwieriger zu erkennen: Ein Forscher schaut sich seine Daten zunächst „explorativ" an — schaut sich Verteilungen an, checkt Ausreißer, versucht verschiedene Transformationen. Dann formuliert er Hypothesen und testet sie formal. Der p-Wert erscheint sauber — aber die Hypothesen wurden durch die explorative Analyse geformt. Der Datensatz hat beide Aufgaben erledigt.

Unbeabsichtigtes Priming

Manchmal ist der Effekt kognitiv vermittelt: Ein Forscher liest Vorstudien, die alle auf demselben Datensatz basieren. Er entwickelt Hypothesen, die implizit durch diese Ergebnisse informiert wurden — ohne es explizit zu merken. Auch das ist eine Form zirkulärer Evidenz, wenn er denselben Datensatz verwendet.

Neurowissenschaften: Das Voodo-Korrelations-Skandal

Das wohl bekannteste und folgenreichste Beispiel für Double-Dipping in der modernen Forschung stammt aus der Neuroimaging-Forschung. 2009 veröffentlichten Vul, Harris, Winkielman und Pashler einen Aufsatz mit dem provokanten Titel Puzzlingly High Correlations in fMRI Studies of Emotion, Personality, and Social Cognition — bekannt geworden als die „Voodoo Correlations"-Studie.

Das Problem: Viele fMRI-Studien berichteten von Korrelationen zwischen Hirnaktivität und Persönlichkeitsmerkmalen von r = 0,7 bis r = 0,9. Diese Werte sind außergewöhnlich hoch — unrealistisch hoch, wenn man bedenkt, wie komplex und rauschbehaftet diese Zusammenhänge sind.

Die Ursache: Double-Dipping. Die Forscher hatten zuerst die Hirnregionen ausgewählt, die am stärksten mit dem Verhaltensmerkmal korrelierten — und dann die Korrelation derselben Aktivierungswerte in diesen Regionen mit dem Verhaltensmerkmal berechnet. Das zweite Ergebnis war eine zirkuläre Bestätigung des ersten Auswahlprozesses. Die gemessene Korrelation war keine Entdeckung, sondern ein Artefakt der Analysemethode.

Nikolaus Kriegeskorte und Kollegen formalisierten das Problem 2009 in einem einflussreichen Aufsatz in Nature Neuroscience unter dem Begriff „circular analysis in systems neuroscience".

Machine Learning: Overfitting als Double-Dipping

In der maschinellen Lernforschung ist eine Variante des Double-Dippings fundamental bekannt: Overfitting. Ein Modell wird auf einem Trainingsdatensatz optimiert — und dann auf demselben Datensatz evaluiert. Das Modell hat sich die Daten „gemerkt", auch ihre Zufallsfehler. Es performt auf dem Trainingsdatensatz brillant — und auf neuen Daten katastrophal.

Die Lösung ist in der KI-Forschung Standard: strikte Trennung von Trainings-, Validierungs- und Testdaten. Der Testdatensatz darf bis zur finalen Evaluation nicht angetastet werden. Wer seinen Testdatensatz während der Modellentwicklung einsieht, um das Modell anzupassen, begeht Data Snooping.

Was in der KI-Forschung als elementares Prinzip gilt, wird in anderen empirischen Wissenschaften erschreckend oft verletzt.

Wirtschaft und Finanzen: Backtesting-Illusionen

In der Finanzwelt ist Double-Dipping als Backtesting Overfitting bekannt: Eine Handelsstrategie wird auf historischen Daten entwickelt und dann an denselben Daten validiert. Die Strategie „funktioniert" auf den Testdaten — weil sie implizit auf diese Daten zugeschnitten wurde. Im echten Handel scheitert sie.

Marcos López de Prado hat dokumentiert, wie verbreitet dieses Problem ist: Bei Hedgefonds, die Algorithmen auf Basis historischer Backtests vermarkten, ist die Diskrepanz zwischen backtested performance und live performance systematisch groß — weil die Strategien auf den Testdaten „in-sample-optimiert" wurden.

Die Lösung: Prä-Registration und Holdout-Samples

Es gibt einen einfachen und wirksamen strukturellen Fix: Trennung von explorativer und konfirmatorischer Analyse.

Pre-Registration: Hypothesen und Analysemethoden werden vor der Datenerhebung (oder vor der Analyse) in einem öffentlichen Register (z.B. OSF, ClinicalTrials.gov) festgelegt. Was später gemessen wird, kann nicht mehr rückwirkend an die Daten angepasst werden.
Holdout-Samples: Der Datensatz wird in einen Explorations-Teil (für Hypothesengenerierung) und einen Konfirmations-Teil (für Tests) aufgeteilt. Beide werden niemals für denselben Zweck verwendet.
Registered Reports: Ein neueres Journal-Format, bei dem Peer-Review vor der Datenerhebung stattfindet. Akzeptanz hängt nicht vom Ergebnis ab, sondern von der Qualität des Designs. Eliminiert Publication Bias und Double-Dipping gleichzeitig.
Transparente Reporting-Standards: Wenn explorative und konfirmatorische Analysen in einem Paper koexistieren, müssen sie explizit als solche gekennzeichnet sein.

Warum passiert es trotzdem so häufig?

Double-Dipping ist nicht immer böswillig. Oft entsteht es aus dem normalen Forschungsprozess: Man erhebt Daten, schaut sie an, entwickelt dabei Ideen, testet diese Ideen — und vergisst, dass dieser Prozess statistisch zu einem einzigen, nicht trennbaren Analyseschritt wird.

Verstärkt wird das Problem durch strukturelle Anreize: Journals belohnen positive Ergebnisse. Karrieren hängen an Publikationen. Die Versuchung, einen Datensatz so lange zu befragen, bis er das gewünschte Ergebnis liefert — bewusst oder unbewusst — ist institutionell eingebettet.

Das ist kein persönliches Versagen einzelner Forscher. Es ist ein Systemproblem, das systemische Lösungen erfordert.

Quellen & weiterführende Literatur

Kriegeskorte, N., Simmons, W. K., Bellgowan, P. S. F., & Baker, C. I. (2009). Circular analysis in systems neuroscience: the dangers of double dipping. Nature Neuroscience, 12(5), 535–540.
Vul, E., Harris, C., Winkielman, P., & Pashler, H. (2009). Puzzlingly High Correlations in fMRI Studies of Emotion, Personality, and Social Cognition. Perspectives on Psychological Science, 4(3), 274–290.
López de Prado, M. (2018). Advances in Financial Machine Learning. Wiley.
Nosek, B. A., et al. (2018). The preregistration revolution. Proceedings of the National Academy of Sciences, 115(11), 2600–2606.
Gelman, A., & Loken, E. (2014). The statistical crisis in science. American Scientist, 102(6), 460.
Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22(11), 1359–1366.

Double-Dipping: Wenn Daten zweimal für dasselbe herhalten müssen

Double-Dipping: Wenn Daten zweimal für dasselbe herhalten müssen

Was ist Double-Dipping?

Woher kommt der Begriff?

Das Spektrum: Explizit bis unbemerkt

Explizites Data-Mining

Exploratives Analysieren, dann bestätigendes Testen — an denselben Daten

Unbeabsichtigtes Priming

Neurowissenschaften: Das Voodo-Korrelations-Skandal

Machine Learning: Overfitting als Double-Dipping

Wirtschaft und Finanzen: Backtesting-Illusionen

Die Lösung: Prä-Registration und Holdout-Samples

Warum passiert es trotzdem so häufig?

Verwandte Denkfehler

Quellen & weiterführende Literatur

Verwandte Artikel

Base-Rate-Fallacy: Wenn ein 99%-genauer Test trotzdem lügt

Berksons Paradoxon: Warum attraktive Menschen weniger nett wirken

Störvariablen-Vernachlässigung: Die versteckte dritte Variable