🧪 Diese Plattform befindet sich in der Beta-Phase. Funktionen können sich ändern und es können Fehler auftreten. Danke für dein Feedback!
p_hacking
P-Hacking tritt auf, wenn Forscher Daten wiederholt mit verschiedenen Methoden, Variablenauswahlen oder Untergruppen-Aufteilungen analysieren, bis ein statistisch signifikanter p-Wert (typischerweise unter 0,05) gefunden wird. Diese Ausnutzung von „Researcher Degrees of Freedom“ bläht die Rate falsch-positiver Ergebnisse weit über das nominale Signifikanzniveau auf. Die Praxis kann absichtlich oder unbewusst erfolgen, getrieben durch Publikationsanreize, die signifikante Ergebnisse belohnen.
Ein Pharmaforscher testet ein neues Ergänzungsmittel gegen 20 verschiedene Gesundheitsoutcomes. Ein Ergebnis (Wachstumsrate der Zehennägel) liefert p < 0,05. Die Studie wird unter dem Titel „Präparat X verbessert signifikant das Zehennagelwachstum“ veröffentlicht, ohne die 19 nicht signifikanten Tests zu erwähnen.
Ein Ernährungswissenschaftler untersucht den Effekt eines neuen Tees auf die Gesundheit und misst dabei Blutdruck, Cholesterin, Schlafqualität, Stimmung und zwölf weitere Werte. Nur die Stimmungsmessung ergibt p = 0,04 – und prompt erscheint eine Pressemitteilung: 'Studie belegt: Dieser Tee macht glücklich!'
Ein Social-Media-Forscher analysiert denselben Datensatz über Smartphone-Nutzung immer wieder mit verschiedenen Altersgruppen, Zeiträumen und Definitionen. Erst als er die Gruppe der 23- bis 27-Jährigen an Wochentagen isoliert, findet er ein signifikantes Ergebnis – und veröffentlicht es, ohne die anderen Auswertungen zu erwähnen.
Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:
Wurden mehrere statistische Analysen oder Variablenkombinationen getestet?
Typ: binaryWerden nur die signifikanten Ergebnisse (p < 0,05) berichtet?
Typ: binaryWird die Gesamtzahl der durchgeführten Tests offengelegt?
Typ: binaryWurden Korrekturen für multiples Testen angewendet?
Typ: binaryP-Hacking tritt auf, wenn Forscher Daten wiederholt mit verschiedenen Methoden, Variablenauswahlen oder Untergruppen-Aufteilungen analysieren, bis ein statistisch signifikanter p-Wert (typischerweise unter 0,05) gefunden wird. Diese Ausnutzung von „Researcher Degrees of Freedom“ bläht die Rate falsch-positiver Ergebnisse weit über das nominale Signifikanzniveau auf. Die Praxis kann absichtlich oder unbewusst erfolgen, getrieben durch Publikationsanreize, die signifikante Ergebnisse belohnen.
Bei einer Signifikanzschwelle von 5 % ergibt das Testen von 20 unabhängigen Hypothesen eine Chance von etwa 64 %, mindestens ein falsch-positives Ergebnis zu erhalten. Das Publikum sieht in der Regel nur das berichtete Ergebnis, nicht den gesamten Suchprozess.
Verlange eine Präregistrierung von Hypothesen und Analyseplänen. Wende Korrekturen für multiples Testen wie Bonferroni oder Benjamini-Hochberg an und frage nach der Gesamtzahl der durchgeführten Tests.
P-Hacking ist in der Sozialpsychologie und biomedizinischen Forschung weit verbreitet und trägt zur Replikationskrise bei. Fachzeitschriften wie PLOS ONE fordern heute eine Präregistrierung, um dem entgegenzuwirken.
Filtering out contradicting information, only accepting confirming data.
Filtering out contradicting information, only accepting confirming data.
Using information that was not available at the point in time being analyzed.
Presenting post-hoc hypotheses as if they were formulated before seeing the data.
Research funded by parties with financial interests tends to produce favorable results.
Nutze diese Tools, um diesen Aspekt zu erkennen, zu analysieren oder zu trainieren.