Genauigkeitsparadoxon

Auch bekannt als: Accuracy trap Genauigkeitsfalle

Statistical Error ID: accuracy_paradox

Definition

Das Genauigkeitsparadoxon tritt auf, wenn ein Vorhersagemodell mit höherer Gesamtgenauigkeit die eigentliche Aufgabe schlechter erfüllt als ein Modell mit niedrigerer Genauigkeit. Dies geschieht typischerweise bei unausgewogenen Klassen — ein Modell, das immer die Mehrheitsklasse vorhersagt, kann eine sehr hohe Genauigkeit erzielen und dabei für die Erkennung der Minderheitsklasse völlig nutzlos sein.

Beispiele

Ein Betrugserkennungssystem klassifiziert 99,5 % aller Transaktionen korrekt, indem es alles als legitim einstuft. Ein konkurrierendes Modell hat nur 95 % Genauigkeit, erkennt aber 80 % der betrügerischen Transaktionen. Das weniger genaue Modell ist trotz seines niedrigeren Genauigkeitswerts weitaus nützlicher.

Ein KI-Modell zur Erkennung seltener Erbkrankheiten bei Neugeborenen erreicht eine Genauigkeit von 99,8 %, indem es schlicht jeden Befund als 'gesund' klassifiziert. Ein älteres, weniger 'genaues' Modell mit 97 % Trefferquote erkennt hingegen 70 % der erkrankten Kinder rechtzeitig und rettet damit Leben.

Ein Spamfilter eines E-Mail-Anbieters erreicht 98 % Gesamtgenauigkeit, indem er kaum eine Nachricht als Spam markiert – dadurch landen fast alle Spam-Mails ungehindert im Posteingang. Ein Konkurrenzprodukt mit nur 94 % Gesamtgenauigkeit blockiert hingegen 90 % des tatsächlichen Spams und ist für den Nutzer im Alltag deutlich nützlicher.

Prüfschritte

Prüfschritte

Binäre Ja/Nein-Fragen, die eine KI beantworten muss, um ein Argumentationsmuster in einem Text zu erkennen.

Jeder der 452 Aspekte hat Prüfschritte — einfache Ja/Nein-Fragen, die systematisch erkennen sollen, ob ein Muster in einem Text vorkommt. Für Ad Hominem: "Greift das Argument eine Person statt ihre Behauptung an?" Für falsche Dichotomie: "Werden nur zwei Optionen präsentiert, obwohl mehr existieren?"

Im Glossar ansehen →

Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:

1

Ist der Datensatz stark unausgewogen, wobei eine Klasse die andere zahlenmäßig deutlich überwiegt?
Typ: binary
2

Könnte ein naives Modell hohe Genauigkeit erzielen, indem es einfach die Mehrheitsklasse vorhersagt?
Typ: binary
3

Versagt das Modell mit höherer Genauigkeit bei der Erkennung der Minderheitsklasse?
Typ: binary
4

Werden Metriken wie Präzision, Recall oder F1-Score zugunsten der Gesamtgenauigkeit ignoriert?
Typ: binary

Beschreibung

Warum es funktioniert

Die Gesamtgenauigkeit behandelt alle korrekten Vorhersagen gleich, unabhängig von der Klasse. Wenn 99 % der Fälle zu einer Klasse gehören, erreicht ein triviales Modell, das die seltene Klasse ignoriert, 99 % Genauigkeit. Dies verdeckt sein vollständiges Versagen bei der eigentlich wichtigen Aufgabe — der Identifikation seltener, aber bedeutsamer Ereignisse.

Wie man entgegnet

Modelle sollten mit klassenspezifischen Metriken wie Präzision, Recall, F1-Score oder der Fläche unter der ROC-Kurve bewertet werden. Konfusionsmatrizen sollten verwendet werden, um die Leistung für jede Klasse einzeln zu überprüfen. Bei unausgewogenen Datensätzen sollte man sich niemals allein auf die Genauigkeit verlassen.

Auch bekannt als

Accuracy trap Genauigkeitsfalle

Praxiskontext

Dieses Paradoxon ist weit verbreitet in der medizinischen Diagnostik (seltene Krankheiten), der Cybersicherheit (Angriffserkennung), der Fertigungsqualitätskontrolle (Fehlererkennung) und in jedem Bereich, in dem das interessierende Ereignis selten, aber folgenschwer ist.