🧪 Diese Plattform befindet sich in der Beta-Phase. Funktionen können sich ändern und es können Fehler auftreten. Danke für dein Feedback!
sieve_bias
Siebverzerrung tritt auf, wenn Daten mehrere Filter- oder Selektionsschritte durchlaufen, von denen jeder eine eigene subtile Verzerrung einführen kann. Während ein einzelner Filter möglicherweise nur einen geringen Effekt hat, kann das kumulative Ergebnis sukzessiver Filterung eine Endstichprobe erzeugen, die tiefgreifend unrepräsentativ für die ursprüngliche Population ist. Die kompoundierende Natur sequenzieller Selektion macht die Gesamtverzerrung viel größer und schwerer vorhersagbar, als es jeder einzelne Schritt vermuten ließe.
Eine klinische Studie beginnt mit 10.000 Patienten, beschränkt sich dann auf diejenigen, die Aufnahmeformulare ausgefüllt haben (Ausschluss der Schwerstkranken), dann auf solche mit Follow-up-Daten (Ausschluss von Abbrechern wegen Nebenwirkungen), dann auf solche mit vollständigen Laborergebnissen (Ausschluss der Ärmsten). Die verbleibenden 2.000 Patienten sind gesünder, wohlhabender und therapietreuer als die ursprüngliche Population.
Eine Arbeitszufriedenheitsstudie versendet Fragebögen an alle Mitarbeitenden eines Unternehmens, wertet aber nur vollständig ausgefüllte Bögen aus, die zudem über die interne IT-Plattform eingereicht wurden. Dadurch fallen systematisch ältere Beschäftigte, Teilzeitkräfte und besonders unzufriedene Mitarbeitende heraus – das Ergebnis zeigt ein verzerrtes Bild hoher Zufriedenheit.
Eine Studie zur Wirksamkeit eines Online-Therapieprogramms schließt zunächst nur Personen mit Internetzugang ein, dann nur jene, die sich aktiv angemeldet haben, und schließlich nur jene, die alle Sitzungen abgeschlossen haben. Jeder Filterschritt selektiert motiviertere und ressourcenstärkere Teilnehmende, sodass die gemessene Wirksamkeit weit über dem Bevölkerungsdurchschnitt liegt.
Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:
Wurden die Daten durch mehrere aufeinanderfolgende Selektionskriterien gefiltert?
Typ: binaryKönnte jeder Filterschritt bestimmte Arten von Beobachtungen überproportional entfernen?
Typ: binaryUnterscheidet sich die verbleibende Stichprobe nach Anwendung aller Filter systematisch von der ursprünglichen Population?
Typ: binaryWurde der kumulative Effekt aller Filterschritte auf die Stichprobenzusammensetzung bewertet?
Typ: binarySiebverzerrung tritt auf, wenn Daten mehrere Filter- oder Selektionsschritte durchlaufen, von denen jeder eine eigene subtile Verzerrung einführen kann. Während ein einzelner Filter möglicherweise nur einen geringen Effekt hat, kann das kumulative Ergebnis sukzessiver Filterung eine Endstichprobe erzeugen, die tiefgreifend unrepräsentativ für die ursprüngliche Population ist. Die kompoundierende Natur sequenzieller Selektion macht die Gesamtverzerrung viel größer und schwerer vorhersagbar, als es jeder einzelne Schritt vermuten ließe.
Jedes Filterkriterium erscheint für sich genommen vernünftig, und Forschende verfolgen möglicherweise nicht, wie sich die Stichprobenzusammensetzung über alle Schritte hinweg verändert. Der kombinierte Effekt vieler kleiner Verzerrungen ist nicht offensichtlich und kann radikal verändern, wer in der Studie verbleibt, ohne dass jemand die kumulative Verzerrung bemerkt.
Dokumentieren Sie Stichprobengröße und -zusammensetzung bei jedem Filterschritt. Erstellen Sie Flussdiagramme, die den Schwund zeigen. Vergleichen Sie die Merkmale ein- und ausgeschlossener Teilnehmender in jeder Phase. Verwenden Sie multiple Imputation oder inverse Wahrscheinlichkeitsgewichtung, um systematische Ausfälle zu berücksichtigen.
Häufig in klinischen Studien mit strengen Einschlusskriterien, Data-Science-Pipelines mit mehreren Bereinigungsschritten, Einstellungsprozessen mit sequenziellen Screening-Runden und systematischen Reviews mit mehrstufiger Studienauswahl.
The statistical error of drawing conclusions from a dataset that has been filtered by a survival or success criterion, without accounting for the filtered-out cases. The surviving sample is systematically different from the full population, and conclusions drawn from it are biased.
Systematic difference between respondents and non-respondents distorting study results.
A statistical error that occurs when conditioning on a variable that is causally affected by two other variables creates a spurious association between those two variables. In a causal diagram, a collider is a variable where two causal arrows converge, and conditioning on it opens a non-causal path.
Nutze diese Tools, um diesen Aspekt zu erkennen, zu analysieren oder zu trainieren.