Unterpowerte Studie (Underpowered Study)

Auch bekannt als: Low statistical power Small sample study Insuffiziente Stichprobengröße

Statistical Error ID: underpowered_study

Definition

Eine unterpowerte Studie hat zu wenige Beobachtungen, um einen Effekt einer erwarteten Größe zuverlässig zu erkennen. Die statistische Power gibt die Wahrscheinlichkeit an, einen echten Effekt zu finden. Studien mit einer Power unter 80 % gelten als unzuverlässig: Signifikante Befunde sind oft übertrieben groß, und nicht-signifikante Befunde sind kein Beweis für das Ausbleiben eines Effekts.

Beispiele

Eine Studie mit nur 15 Teilnehmern pro Gruppe testet eine neue Therapie. Um den Effekt zu finden, wären eigentlich 80 Teilnehmer pro Gruppe nötig. Die Studie findet p = 0,08 und schließt auf „keine Wirkung“. Das ist falsch: Die Studie war einfach zu klein, um die Wirkung zu beweisen.

Ein Startup testet eine neue App zur Stressreduktion an 12 Mitarbeitern eines einzigen Unternehmens. Die Studie zeigt keinen signifikanten Effekt (p = 0,12) und schlussfolgert, die App wirke nicht – dabei wäre für diesen Effekt eine Stichprobengröße von mindestens 60 Personen nötig gewesen.

Eine Schule vergleicht zwei Unterrichtsmethoden mit je 10 Schülern pro Gruppe. Das Ergebnis zeigt keinen Unterschied in den Testergebnissen. Die Studie wird als Beleg dafür zitiert, dass beide Methoden gleich gut sind – obwohl die geringe Fallzahl schlicht nicht ausreichte, um einen realen Unterschied zu entdecken.

Prüfschritte

Prüfschritte

Binäre Ja/Nein-Fragen, die eine KI beantworten muss, um ein Argumentationsmuster in einem Text zu erkennen.

Jeder der 452 Aspekte hat Prüfschritte — einfache Ja/Nein-Fragen, die systematisch erkennen sollen, ob ein Muster in einem Text vorkommt. Für Ad Hominem: "Greift das Argument eine Person statt ihre Behauptung an?" Für falsche Dichotomie: "Werden nur zwei Optionen präsentiert, obwohl mehr existieren?"

Im Glossar ansehen →

Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:

1

Wurde vorab eine Power-Analyse durchgeführt, um die Stichprobengröße festzulegen?
Typ: binary
2

Ist die Stichprobe groß genug für die erwartete Effektstärke?
Typ: binary
3

Werden Nullbefunde als „kein Effekt“ fehlinterpretiert, ohne die geringe Power zu nennen?
Typ: binary

Beschreibung

Warum es funktioniert

Berechnungen zur Stichprobengröße sind technisch und werden in Pressemitteilungen selten erwähnt. Das Publikum nimmt an, dass jede publizierte Studie groß genug sei.

Wie man entgegnet

Prüfe die Stichprobengröße im Verhältnis zum Effekt. Wenn eine kleine Studie „nichts findet“, bewerte dies als „nicht aussagekräftig“ statt als „Beweis für Unwirksamkeit“.