Spektrumbias

Auch bekannt als: Case-Mix Bias Spectrum Effect Spektrum-Effekt

Statistical Error ID: spectrum_bias

Definition

Spektrumbias tritt auf, wenn die Genauigkeit eines diagnostischen Tests anhand einer Patientenpopulation evaluiert wird, die nicht das volle Spektrum der in der Praxis vorkommenden Krankheitsschweregrade widerspiegelt. Tests funktionieren oft am besten bei der Unterscheidung schwerer Erkrankungen von gesunden Kontrollen, versagen aber im klinisch relevanten Mittelfeld, in dem die Diagnose unsicher ist.

Beispiele

Ein Bluttest für eine Lebererkrankung wird validiert, indem Patienten mit fortgeschrittenem Leberversagen mit vollkommen gesunden Probanden verglichen werden, und erreicht 98 % Genauigkeit. Bei Einsatz in der hausärztlichen Versorgung bei Patienten mit milden Symptomen sinkt die Genauigkeit auf 60 %, weil der Test Frühstadien nicht von anderen leichten Beschwerden unterscheiden kann.

Ein neuer Schnelltest zur Erkennung von Depressionen wird evaluiert, indem Personen mit schwerer klinischer Depression mit Personen ohne jegliche psychische Beschwerden verglichen werden – die Trefferquote liegt bei 97 %. Im Praxiseinsatz bei Patienten mit leichten oder mittelschweren Symptomen versagt der Test jedoch häufig, weil genau diese Grenzfälle im Validierungsprozess fehlten.

Ein Algorithmus zur Erkennung von Hautkrebs wird an Fotos eindeutiger Melanome und völlig unauffälliger Haut trainiert und erzielt eine Genauigkeit von 99 %. Sobald der Algorithmus in der Dermatologiepraxis auf atypische, aber gutartige Muttermale trifft, steigt die Fehlerrate dramatisch an, da solche Zwischenfälle im Testdatensatz nicht vertreten waren.

Prüfschritte

Prüfschritte

Binäre Ja/Nein-Fragen, die eine KI beantworten muss, um ein Argumentationsmuster in einem Text zu erkennen.

Jeder der 452 Aspekte hat Prüfschritte — einfache Ja/Nein-Fragen, die systematisch erkennen sollen, ob ein Muster in einem Text vorkommt. Für Ad Hominem: "Greift das Argument eine Person statt ihre Behauptung an?" Für falsche Dichotomie: "Werden nur zwei Optionen präsentiert, obwohl mehr existieren?"

Im Glossar ansehen →

Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:

1

Wurde der diagnostische Test an einer Stichprobe mit einem engen Spektrum an Krankheitsschweregraden evaluiert?
Typ: binary
2

Unterscheidet sich die Studienpopulation von der Population, in der der Test tatsächlich eingesetzt wird?
Typ: binary
3

Könnten sich Sensitivität oder Spezifität des Tests über verschiedene Patientengruppen hinweg verändern?
Typ: binary
4

Werden die Leistungskennzahlen des Tests als universell dargestellt, ohne populationsspezifische Einschränkungen zu benennen?
Typ: binary

Beschreibung

Warum es funktioniert

Extremfälle sind leicht zu klassifizieren. Durch Tests an den Extremen des Krankheitsspektrums blähen Forschende die scheinbare Genauigkeit auf. Kliniker und Patienten vertrauen dann auf diese Zahlen in Situationen, in denen der Test tatsächlich viel schlechter abschneidet.

Wie man entgegnet

Diagnostische Tests über das gesamte Spektrum der Krankheitsschweregrade evaluieren, einschließlich grenzwertiger und leichter Fälle. Sensitivität und Spezifität nach Untergruppen berichten. Tests in dem klinischen Setting validieren, in dem sie tatsächlich eingesetzt werden.

Auch bekannt als

Case-Mix Bias Spectrum Effect Spektrum-Effekt

Praxiskontext

Viele Schnelltests für Infektionskrankheiten zeigen hervorragende Sensitivität in Krankenhausstudien, schneiden aber beim Screening in der Bevölkerung schlecht ab, wo die meisten Fälle mild oder asymptomatisch sind. Dies wurde bei COVID-19-Antigentests beobachtet, die hohe Viruslasten gut erkennen, aber frühe Infektionen übersehen.