🧪 Diese Plattform befindet sich in der Beta-Phase. Funktionen können sich ändern und es können Fehler auftreten. Danke für dein Feedback!
double_dipping
Double-Dipping (zirkuläre Analyse) tritt auf, wenn dieselben Daten sowohl zur Generierung einer Hypothese als auch zu deren Überprüfung verwendet werden. Wenn Merkmale oder Variablen basierend auf den Daten ausgewählt und dann an denselben Daten getestet werden, wird die Analyse zirkulär. Dies garantiert künstlich aufgeblähte Effektstärken und signifikante p-Werte, da der Test darauf getrimmt ist, bereits identifizierte Muster zu bestätigen.
Ein Neurowissenschaftler scannt die Gehirnaktivität, identifiziert die 10 aktivsten Voxel während einer Aufgabe und berichtet dann (anhand derselben Daten), dass diese Regionen eine signifikante Aktivierung zeigen. Die Signifikanz ist durch den Auswahlprozess bereits vorprogrammiert.
Ein Soziologe durchforstet seinen Datensatz und bemerkt, dass Menschen mit Haustieren in seinen Daten glücklicher zu sein scheinen. Er formuliert daraufhin die Hypothese 'Haustiere steigern das Wohlbefinden' und überprüft sie mit denselben Daten – und erhält natürlich ein signifikantes Ergebnis.
Eine Lehrerin wertet die Testergebnisse ihrer Klasse aus, identifiziert die Aufgaben, bei denen die Schüler am besten abgeschnitten haben, und berichtet dann stolz, dass ihre Klasse in genau diesen Kompetenzbereichen überdurchschnittlich stark sei – ohne zu bemerken, dass sie die Stärken aus denselben Daten abgelesen hat, die sie nun als Beleg heranzieht.
Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:
Wurde der Datensatz zuerst exploriert, um ein interessantes Muster zu finden?
Typ: binaryWurde die statistische Signifikanz genau dieses Musters am selben Datensatz getestet?
Typ: binaryWurde ein separater Validierungsdatensatz für den bestätigenden Test verwendet?
Typ: binaryDouble-Dipping (zirkuläre Analyse) tritt auf, wenn dieselben Daten sowohl zur Generierung einer Hypothese als auch zu deren Überprüfung verwendet werden. Wenn Merkmale oder Variablen basierend auf den Daten ausgewählt und dann an denselben Daten getestet werden, wird die Analyse zirkulär. Dies garantiert künstlich aufgeblähte Effektstärken und signifikante p-Werte, da der Test darauf getrimmt ist, bereits identifizierte Muster zu bestätigen.
Die Zirkularität ist im Abschlussbericht oft unsichtbar, da die Auswahl und der Test wie separate Analyseschritte wirken. Leser nehmen an, die Hypothese sei unabhängig von den Testdaten entstanden.
Teile Daten in einen Entdeckungs- und einen Validierungssatz auf oder nutze Kreuzvalidierung. Sei misstrauisch, wenn derselbe Datensatz sowohl für die Merkmalsauswahl als auch für den Hypothesentest genutzt wurde.
Double-Dipping wurde als weit verbreitetes Problem in der fMRI-Forschung identifiziert (Kriegeskorte et al., 2009). Es tritt auch beim Backtesting von Handelsstrategien im Finanzwesen auf.
Nutze diese Tools, um diesen Aspekt zu erkennen, zu analysieren oder zu trainieren.