Siebverzerrung

Auch bekannt als: Cascading selection bias Sequential filtering bias Sieve Bias

Statistical Error ID: sieve_bias

Definition

Siebverzerrung tritt auf, wenn Daten mehrere Filter- oder Selektionsschritte durchlaufen, von denen jeder eine eigene subtile Verzerrung einführen kann. Während ein einzelner Filter möglicherweise nur einen geringen Effekt hat, kann das kumulative Ergebnis sukzessiver Filterung eine Endstichprobe erzeugen, die tiefgreifend unrepräsentativ für die ursprüngliche Population ist. Die kompoundierende Natur sequenzieller Selektion macht die Gesamtverzerrung viel größer und schwerer vorhersagbar, als es jeder einzelne Schritt vermuten ließe.

Beispiele

Eine klinische Studie beginnt mit 10.000 Patienten, beschränkt sich dann auf diejenigen, die Aufnahmeformulare ausgefüllt haben (Ausschluss der Schwerstkranken), dann auf solche mit Follow-up-Daten (Ausschluss von Abbrechern wegen Nebenwirkungen), dann auf solche mit vollständigen Laborergebnissen (Ausschluss der Ärmsten). Die verbleibenden 2.000 Patienten sind gesünder, wohlhabender und therapietreuer als die ursprüngliche Population.

Eine Arbeitszufriedenheitsstudie versendet Fragebögen an alle Mitarbeitenden eines Unternehmens, wertet aber nur vollständig ausgefüllte Bögen aus, die zudem über die interne IT-Plattform eingereicht wurden. Dadurch fallen systematisch ältere Beschäftigte, Teilzeitkräfte und besonders unzufriedene Mitarbeitende heraus – das Ergebnis zeigt ein verzerrtes Bild hoher Zufriedenheit.

Eine Studie zur Wirksamkeit eines Online-Therapieprogramms schließt zunächst nur Personen mit Internetzugang ein, dann nur jene, die sich aktiv angemeldet haben, und schließlich nur jene, die alle Sitzungen abgeschlossen haben. Jeder Filterschritt selektiert motiviertere und ressourcenstärkere Teilnehmende, sodass die gemessene Wirksamkeit weit über dem Bevölkerungsdurchschnitt liegt.

Prüfschritte

Prüfschritte

Binäre Ja/Nein-Fragen, die eine KI beantworten muss, um ein Argumentationsmuster in einem Text zu erkennen.

Jeder der 452 Aspekte hat Prüfschritte — einfache Ja/Nein-Fragen, die systematisch erkennen sollen, ob ein Muster in einem Text vorkommt. Für Ad Hominem: "Greift das Argument eine Person statt ihre Behauptung an?" Für falsche Dichotomie: "Werden nur zwei Optionen präsentiert, obwohl mehr existieren?"

Im Glossar ansehen →

Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:

1

Wurden die Daten durch mehrere aufeinanderfolgende Selektionskriterien gefiltert?
Typ: binary
2

Könnte jeder Filterschritt bestimmte Arten von Beobachtungen überproportional entfernen?
Typ: binary
3

Unterscheidet sich die verbleibende Stichprobe nach Anwendung aller Filter systematisch von der ursprünglichen Population?
Typ: binary
4

Wurde der kumulative Effekt aller Filterschritte auf die Stichprobenzusammensetzung bewertet?
Typ: binary

Beschreibung

Warum es funktioniert

Jedes Filterkriterium erscheint für sich genommen vernünftig, und Forschende verfolgen möglicherweise nicht, wie sich die Stichprobenzusammensetzung über alle Schritte hinweg verändert. Der kombinierte Effekt vieler kleiner Verzerrungen ist nicht offensichtlich und kann radikal verändern, wer in der Studie verbleibt, ohne dass jemand die kumulative Verzerrung bemerkt.

Wie man entgegnet

Dokumentieren Sie Stichprobengröße und -zusammensetzung bei jedem Filterschritt. Erstellen Sie Flussdiagramme, die den Schwund zeigen. Vergleichen Sie die Merkmale ein- und ausgeschlossener Teilnehmender in jeder Phase. Verwenden Sie multiple Imputation oder inverse Wahrscheinlichkeitsgewichtung, um systematische Ausfälle zu berücksichtigen.

Auch bekannt als

Cascading selection bias Sequential filtering bias Sieve Bias

Praxiskontext

Häufig in klinischen Studien mit strengen Einschlusskriterien, Data-Science-Pipelines mit mehreren Bereinigungsschritten, Einstellungsprozessen mit sequenziellen Screening-Runden und systematischen Reviews mit mehrstufiger Studienauswahl.