Unterpowerte Studie: "Kein Unterschied gefunden" bedeutet nicht "kein Unterschied"
Eine Studie mit zwanzig Teilnehmern testet ein neues Medikament gegen Placebo. Ergebnis: kein statistisch signifikanter Unterschied. Die Schlagzeile lautet: "Medikament wirkt nicht." Aber stimmt das? Vielleicht. Oder vielleicht war die Studie schlicht zu klein, um einen echten Effekt zu entdecken — selbst wenn er existiert. Der Unterschied zwischen "kein Effekt gefunden" und "kein Effekt" ist einer der folgenschwersten Denkfehler in der angewandten Wissenschaft.
Was bedeutet statistische Power?
Die statistische Power (Teststärke) eines Experiments gibt an, wie wahrscheinlich es ist, einen echten Effekt zu entdecken — vorausgesetzt, er existiert. Formal ist Power die Wahrscheinlichkeit, die Nullhypothese korrekt abzulehnen: Power = 1 − β, wobei β die Wahrscheinlichkeit eines Fehlers 2. Art (falsch negativ) ist.
Einfacher gesagt: Eine Studie mit hoher Power ist wie ein empfindliches Messgerät — sie erkennt echte Signale zuverlässig. Eine Studie mit niedriger Power ist wie ein defektes Gerät, das das Signal oft verpasst, selbst wenn es da ist.
Die konventionelle Mindest-Power in der Sozial- und Medizinforschung liegt bei 80% — das heißt, bei einem echten Effekt sollte die Studie ihn in mindestens 80 von 100 Wiederholungen entdecken. Aber viele veröffentlichte Studien erreichen diesen Wert nicht einmal annähernd.
Was bestimmt die Power einer Studie?
Vier Faktoren bestimmen die statistische Power:
- Stichprobengröße (n): Der stärkste Hebel. Mehr Teilnehmer = mehr Power. Diesen Faktor kontrollieren Forscher direkt.
- Effektgröße: Wie groß ist der tatsächliche Effekt? Große Effekte sind leichter zu entdecken als kleine. Wer einen kleinen Effekt messen will, braucht eine viel größere Stichprobe.
- Signifikanzniveau (α): Konventionell 0,05. Strengere Kriterien (kleineres α) reduzieren die Power.
- Variabilität: Je mehr Rauschen in den Daten, desto schwerer ist das Signal zu erkennen.
Der entscheidende Punkt: Vor dem Experiment muss eine Power-Analyse durchgeführt werden, um die notwendige Stichprobengröße zu berechnen. Viele Studien überspringen diesen Schritt — oder führen ihn durch und ignorieren das Ergebnis, weil das Budget nicht ausreicht.
Das Krebscluster-Problem
Ein illustratives Beispiel: In einer kleinen Gemeinde treten in drei Jahren fünf Leukämiefälle auf. Statistisch erwartet wären 1,5 Fälle. Ist das ein Cluster? Liegt eine Ursache vor — ein Sendemasten, eine Fabrik, kontaminiertes Wasser?
Eine Untersuchung wird eingeleitet. Ergebnis: "Kein signifikanter Zusammenhang gefunden." Entwarnung? Nicht unbedingt. Die Gemeinde ist zu klein, um den statistischen Nachweis zu erbringen. Bei fünf Fällen gegen einen Verdacht fehlt schlicht die Power, um einen moderaten Zusammenhang zu entdecken. Die Studie kann das Problem weder bestätigen noch ausschließen — sie ist dafür nicht ausgestattet.
Dieses Muster — kleine Beobachtung, kleine Untersuchung, negatives Ergebnis, keine Entwarnung möglich — wiederholt sich in der Epidemiologie regelmäßig.
Die Power-Krise in der Psychologie
Eine vielzitierte Analyse von Jacob Cohen aus dem Jahr 1962 untersuchte die statistische Power von Studien in führenden Psychologie-Journalen. Sein Befund war erschreckend: Die mediane Power der untersuchten Studien lag bei etwa 48% — also knapp unter dem Münzwurf-Niveau, wenn der angenommene mittlere Effekt stimmt.
Fünfzig Jahre später hatte sich wenig verbessert. Analysen im Kontext der Replikationskrise zeigten, dass viele einflussreiche psychologische Befunde nicht reproduzierbar waren — und eine wesentliche Erklärung war ihre geringe Power. Studien mit niedriger Power, die dennoch signifikante Ergebnisse finden, leiden unter einem weiteren Problem: ihren Ergebnissen kann man besonders wenig trauen. Wenn nur 20% der durchgeführten Tests das echte Signal finden, sind die 80% falschen Signale in der Literatur überrepräsentiert.
Dieser Effekt interagiert verheerend mit dem p-Hacking: Wenn Forscher nur signifikante Ergebnisse einreichen und Journale nur signifikante Ergebnisse akzeptieren (Publication Bias), sammeln sich in der Literatur systematisch die Zufallstreffer — während die vielen notwendigen Wiederholungen, die kein Ergebnis fanden, in der Schublade bleiben.
Unterpowerte Studien und die Medizin
In der klinischen Forschung sind die Konsequenzen besonders direkt. Eine unterpowerte Phase-II-Studie, die für ein Medikament kein signifikantes Ergebnis zeigt, könnte zur Einstellung der Entwicklung führen — obwohl das Medikament tatsächlich wirkt. Eine unterpowerte Phase-III-Studie mit positivem Ergebnis dagegen hat möglicherweise durch Zufall ein falsch positives Ergebnis erzielt.
Besonders heikel: Nicht-Unterlegenheitsstudien. Hier will man zeigen, dass ein günstigeres oder einfacheres Medikament dem teuren Standard "nicht unterlegen" ist. Eine unterpowerte Studie findet definitionsgemäß keinen Unterschied — und liefert damit scheinbar das Ergebnis, das die These stützt. Das ist strukturell falsch: Durch schlechte Studienplanung kann man jeden Wirkstoff als "nicht unterlegen" verkaufen.
Der Fehler zweiter Art: Still und gefährlich
Statistische Tests können zwei Fehler machen:
- Fehler 1. Art (Alpha-Fehler): Man behauptet einen Effekt, obwohl keiner existiert. Das ist der falsch-positive Befund. Die Wahrscheinlichkeit wird durch das Signifikanzniveau kontrolliert (typisch 5%).
- Fehler 2. Art (Beta-Fehler): Man findet keinen Effekt, obwohl einer existiert. Das ist der falsch-negative Befund. Genau das passiert bei unterpowerten Studien regelmäßig.
Die wissenschaftliche Kultur ist historisch obsessiv auf den Fehler 1. Art fixiert — p-Werte, Signifikanzschwellen, die Debatte um Alpha. Der Fehler 2. Art findet viel weniger Aufmerksamkeit. Dabei ist er in vielen Kontexten genauso folgenreich: Ein wirksames Medikament wird nicht entwickelt, eine echte Gefahr wird nicht erkannt, ein realer Zusammenhang wird fälschlich ausgeschlossen.
Wie viele Teilnehmer braucht man wirklich?
Als Faustregel: Um einen mittelgroßen Effekt (Cohens d = 0,5) mit 80% Power und α = 0,05 in einem Zwei-Gruppen-Vergleich zu entdecken, braucht man pro Gruppe etwa 64 Teilnehmer — also 128 insgesamt. Für einen kleinen Effekt (d = 0,2) steigt die Anforderung auf rund 393 pro Gruppe.
Viele veröffentlichte Studien in der Psychologie und den Sozialwissenschaften haben deutlich weniger Teilnehmer — manchmal zwanzig oder dreißig. Sie waren von Anfang an nicht in der Lage, zu unterscheiden, ob ein Effekt nicht existiert oder ob er einfach nicht sichtbar war.
Gegenmittel
Wie umgeht man das Problem der unterpowerten Studie?
- Power-Analyse vorab: Bevor Daten erhoben werden, berechnen, wie viele Teilnehmer notwendig sind, um den erwarteten Effekt mit ausreichender Power zu entdecken.
- Konfidenzintervalle statt nur p-Werten: Ein Konfidenzintervall zeigt, wie groß der Effekt sein könnte — auch wenn er nicht signifikant ist. Damit wird deutlich: "Nicht signifikant" kann bedeuten "kein Effekt" oder "Effekt zu klein um ihn zu sehen".
- Meta-Analysen: Einzelne kleine Studien zusammenfassen erhöht die effektive Stichprobengröße und damit die Power.
- Vorregistrierung: Studiendesign (inkl. Stichprobengröße) vorab registrieren, bevor Daten erhoben werden.
- Replikation: Statt einer großen Studie zu vertrauen, auf robuste Effekte warten, die sich in unabhängigen Replikationen bestätigen.
Zusammenfassung
Unterpowerte Studien sind epistemisch wertlos für die Frage, die sie beantworten sollen. Ein negatives Ergebnis aus einer Studie, die nie in der Lage war, den Effekt zu sehen, sagt so gut wie nichts. Die Abwesenheit von Evidenz ist nicht die Evidenz der Abwesenheit — besonders wenn das Messgerät zu grob ist, um das Signal zu erfassen. Statistische Power ist das vergessene Gütekriterium der Wissenschaft — vergessen mit Konsequenzen.
Quellen & Weiterführendes
- Cohen, Jacob. "A Power Primer." Psychological Bulletin, 112(1), 1992, S. 155–159.
- Button, Katherine S. et al. "Power Failure: Why Small Sample Size Undermines the Reliability of Neuroscience." Nature Reviews Neuroscience, 14(5), 2013, S. 365–376.
- Ioannidis, John P. A. "Why Most Published Research Findings Are False." PLOS Medicine, 2(8), 2005, e124.
- Gelman, Andrew & John Carlin. "Beyond Power Calculations: Assessing Type S (Sign) and Type M (Magnitude) Errors." Perspectives on Psychological Science, 9(6), 2014, S. 641–651.
- Altman, Douglas G. & J. Martin Bland. "Absence of Evidence Is Not Evidence of Absence." BMJ, 311, 1995, S. 485.
- Wikipedia: Trennschärfe eines Tests (Statistische Power)