🧪 Diese Plattform befindet sich in der Beta-Phase. Funktionen können sich ändern und es können Fehler auftreten. Danke für dein Feedback!
accuracy_paradox
Das Genauigkeitsparadoxon tritt auf, wenn ein Vorhersagemodell mit höherer Gesamtgenauigkeit die eigentliche Aufgabe schlechter erfüllt als ein Modell mit niedrigerer Genauigkeit. Dies geschieht typischerweise bei unausgewogenen Klassen — ein Modell, das immer die Mehrheitsklasse vorhersagt, kann eine sehr hohe Genauigkeit erzielen und dabei für die Erkennung der Minderheitsklasse völlig nutzlos sein.
Ein Betrugserkennungssystem klassifiziert 99,5 % aller Transaktionen korrekt, indem es alles als legitim einstuft. Ein konkurrierendes Modell hat nur 95 % Genauigkeit, erkennt aber 80 % der betrügerischen Transaktionen. Das weniger genaue Modell ist trotz seines niedrigeren Genauigkeitswerts weitaus nützlicher.
Ein KI-Modell zur Erkennung seltener Erbkrankheiten bei Neugeborenen erreicht eine Genauigkeit von 99,8 %, indem es schlicht jeden Befund als 'gesund' klassifiziert. Ein älteres, weniger 'genaues' Modell mit 97 % Trefferquote erkennt hingegen 70 % der erkrankten Kinder rechtzeitig und rettet damit Leben.
Ein Spamfilter eines E-Mail-Anbieters erreicht 98 % Gesamtgenauigkeit, indem er kaum eine Nachricht als Spam markiert – dadurch landen fast alle Spam-Mails ungehindert im Posteingang. Ein Konkurrenzprodukt mit nur 94 % Gesamtgenauigkeit blockiert hingegen 90 % des tatsächlichen Spams und ist für den Nutzer im Alltag deutlich nützlicher.
Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:
Ist der Datensatz stark unausgewogen, wobei eine Klasse die andere zahlenmäßig deutlich überwiegt?
Typ: binaryKönnte ein naives Modell hohe Genauigkeit erzielen, indem es einfach die Mehrheitsklasse vorhersagt?
Typ: binaryVersagt das Modell mit höherer Genauigkeit bei der Erkennung der Minderheitsklasse?
Typ: binaryWerden Metriken wie Präzision, Recall oder F1-Score zugunsten der Gesamtgenauigkeit ignoriert?
Typ: binaryDas Genauigkeitsparadoxon tritt auf, wenn ein Vorhersagemodell mit höherer Gesamtgenauigkeit die eigentliche Aufgabe schlechter erfüllt als ein Modell mit niedrigerer Genauigkeit. Dies geschieht typischerweise bei unausgewogenen Klassen — ein Modell, das immer die Mehrheitsklasse vorhersagt, kann eine sehr hohe Genauigkeit erzielen und dabei für die Erkennung der Minderheitsklasse völlig nutzlos sein.
Die Gesamtgenauigkeit behandelt alle korrekten Vorhersagen gleich, unabhängig von der Klasse. Wenn 99 % der Fälle zu einer Klasse gehören, erreicht ein triviales Modell, das die seltene Klasse ignoriert, 99 % Genauigkeit. Dies verdeckt sein vollständiges Versagen bei der eigentlich wichtigen Aufgabe — der Identifikation seltener, aber bedeutsamer Ereignisse.
Modelle sollten mit klassenspezifischen Metriken wie Präzision, Recall, F1-Score oder der Fläche unter der ROC-Kurve bewertet werden. Konfusionsmatrizen sollten verwendet werden, um die Leistung für jede Klasse einzeln zu überprüfen. Bei unausgewogenen Datensätzen sollte man sich niemals allein auf die Genauigkeit verlassen.
Dieses Paradoxon ist weit verbreitet in der medizinischen Diagnostik (seltene Krankheiten), der Cybersicherheit (Angriffserkennung), der Fertigungsqualitätskontrolle (Fehlererkennung) und in jedem Bereich, in dem das interessierende Ereignis selten, aber folgenschwer ist.
Ignoring general statistical base rates in favor of specific individual-case info.
Rejecting a true null hypothesis – finding a signal in noise.
Failing to reject a false null hypothesis – missing a valid signal.
Bayesian and frequentist approaches yield contradictory conclusions with large sample sizes.
Nutze diese Tools, um diesen Aspekt zu erkennen, zu analysieren oder zu trainieren.