Base-Rate-Fallacy: Wenn ein 99%-genauer Test trotzdem lügt
Base-Rate-Fallacy: Wenn ein 99%-genauer Test trotzdem lügt
Die Diagnose erschüttert die Welt: positiv getestet. Der Test ist 99% genau. Was könnte das bedeuten — außer dem Schlimmsten? Für die meisten Menschen ist die Schlussfolgerung klar. Für einen Statistiker ist sie falsch.
Das Paradox des präzisen Tests
Angenommen, eine seltene Krankheit befällt 1 Prozent der Bevölkerung. Ein neuer Diagnosetest hat eine Genauigkeit von 99 Prozent: Er erkennt 99 von 100 Erkrankten korrekt als positiv (Sensitivität = 99%), und er klassifiziert 99 von 100 Gesunden korrekt als negativ (Spezifität = 99%).
Sie werden getestet. Das Ergebnis ist positiv. Wie wahrscheinlich ist es, dass Sie wirklich krank sind?
Die intuitive Antwort: 99%. Die korrekte Antwort: etwa 50%.
Das klingt unmöglich. Es ist es nicht.
Rechnen wir es durch
Betrachten wir 10.000 Menschen:
- 100 sind krank (1% der 10.000)
- 9.900 sind gesund (99% der 10.000)
Der Test mit 99% Sensitivität und 99% Spezifität produziert:
- Von den 100 Kranken: 99 richtig positiv, 1 falsch negativ
- Von den 9.900 Gesunden: 99 falsch positiv, 9.801 richtig negativ
Insgesamt positive Testergebnisse: 99 + 99 = 198
Davon tatsächlich krank: 99 von 198 = 50%
Ein positives Ergebnis bedeutet also eine Fünfzig-zu-fünfzig-Chance. Nicht weil der Test schlecht wäre — er ist exzellent. Sondern weil die Krankheit so selten ist, dass selbst eine geringe Falsch-Positiv-Rate die echten Positiven überschwemmt.
Was ist die Grundrate?
Die Grundrate (Base Rate) ist die Häufigkeit eines Merkmals in der Gesamtbevölkerung — bevor man irgendwelche zusätzlichen Informationen berücksichtigt. Im obigen Beispiel ist die Grundrate der Krankheit 1%.
Die Base-Rate-Fallacy — auf Deutsch auch Basisratenfehler oder Grundratenfehler — bezeichnet die Tendenz, diese Grundrate zu ignorieren und stattdessen nur die spezifische Information (das Testergebnis) zu gewichten. Unser Gehirn ist dafür schlecht gerüstet: Es wurde evolutionär nicht für seltene Ereignisse in großen Populationen trainiert.
Bayes' Theorem: Der richtige Rahmen
Das mathematische Werkzeug, um diesen Fehler zu vermeiden, heißt Bayes'sches Theorem, benannt nach dem englischen Pfarrer und Mathematiker Thomas Bayes (1701–1761). Es beschreibt, wie man eine Wahrscheinlichkeit aktualisieren sollte, wenn neue Informationen eintreffen:
P(krank | positiv) = P(positiv | krank) × P(krank) / P(positiv)
Übersetzt: Die Wahrscheinlichkeit, wirklich krank zu sein, nachdem man positiv getestet wurde, hängt von drei Faktoren ab: der Sensitivität des Tests, der Grundrate der Krankheit und der Gesamtrate positiver Tests. Die Grundrate ist kein optionaler Zusatz — sie ist zwingend notwendig.
Praxisbeispiele: Wann ist der Fehler gefährlich?
Mammographie-Screening
Das vielleicht berühmteste Beispiel stammt von dem Psychologen Gerd Gigerenzer. Er befragte erfahrene Ärzte nach der Bedeutung positiver Mammographie-Befunde bei Frauen ohne Symptome.
Die Werte für Brustkrebs bei Frauen in der Altersgruppe 40–50: Grundrate etwa 0,8%. Sensitivität des Tests: 90%. Falsch-Positiv-Rate: 7%. Bei einem positiven Testergebnis — wie wahrscheinlich ist tatsächlicher Krebs?
Die meisten Ärzte sagten: Sehr hoch, etwa 80–90%. Die korrekte Antwort: rund 9%. Weniger als 1 von 10 positiven Befunden ist echt.
Gigerenzers Schlussfolgerung: Selbst gut ausgebildete Mediziner machen den Grundratenfehler systematisch. Mit Folgen: Patienten werden unnötig verängstigt, unnötige Biopsien werden durchgeführt, Behandlungen eingeleitet, die nicht nötig wären.
Sicherheitskontrollen am Flughafen
Ein Sprengstoffdetektionsgerät am Flughafen hat eine sehr hohe Trefferquote. Aber die Grundrate von Terroristen unter Flugpassagieren ist astronomisch gering — sagen wir, 1 auf 10 Millionen. Selbst mit einem 99,99%-genauen Test würde die überwältigende Mehrheit aller Alarme auf Unschuldige entfallen.
Das ist kein Argument gegen Sicherheitskontrollen — aber es erklärt, warum mehrstufige Prüfprozesse existieren und warum ein einzelner Alarm keine Verurteilung ist.
Dopingtests im Sport
Ähnliche Logik gilt bei Dopingkontrollen. Wenn nur 1% der Athleten dopen, ein Test aber eine Falsch-Positiv-Rate von 5% hat, dann sind bei einem positiven Befund statistisch mehr saubere als gedopte Athleten. Das ist der Grund, warum Dopingverfahren auf mehrfacher Bestätigung, B-Proben und Expertenkommissionen beruhen — nicht auf einem einzelnen Testergebnis.
Gigerenzers Lösung: Natürliche Häufigkeiten
Gerd Gigerenzer hat jahrzehntelang untersucht, warum Menschen den Grundratenfehler machen — und wie man ihn vermeidet. Seine überraschende Entdeckung: Wenn man dieselben Informationen als natürliche Häufigkeiten statt als Prozentzahlen darstellt, sinkt die Fehlerrate dramatisch.
Statt zu sagen: „Die Erkrankungsrate ist 1%, die Sensitivität 99%, die Falsch-Positiv-Rate 1%" — sagen Sie: „Von 10.000 Menschen sind 100 krank. Der Test erkennt 99 davon. Von den 9.900 Gesunden testet er fälschlicherweise 99 positiv."
Mit diesen Zahlen ist die richtige Antwort intuitiv zugänglich: 99 echte Positive plus 99 falsche Positive. Wahrscheinlichkeit bei positivem Befund: 50%.
Das Gehirn wurde für das Zählen konkreter Objekte trainiert, nicht für abstrakte Wahrscheinlichkeiten. Natürliche Häufigkeiten sprechen die evolutionär ältere Rechenlogik an.
Fazit: Fragen Sie immer nach der Grundrate
Wann immer Ihnen ein Test, eine Diagnose, ein Alarm oder eine Risikoabschätzung präsentiert wird, stellen Sie drei Fragen:
- Wie häufig ist das Merkmal in der Grundgesamtheit? (Grundrate)
- Wie oft gibt der Test ein falsches positives Ergebnis? (Falsch-Positiv-Rate)
- Wie groß ist meine Teststichprobe?
Ohne die Grundrate ist eine Trefferquote eine leere Zahl. Ein Test kann exzellent sein und trotzdem häufiger lügen als die Wahrheit sagen — wenn das, was er sucht, selten genug ist.
Das ist kein akademisches Problem. Es ist eine alltägliche Gefahr für jeden, der medizinische Befunde interpretiert, Sicherheitssysteme bewertet oder Risiken abschätzt. Wer die Grundrate kennt, sieht die Welt klarer.
Verwandte Denkfehler
- P-Hacking — Wenn statistische Signifikanz durch Datenmissbrauch erzwungen wird
- Ghost Variables / Confounders — Versteckte Variablen, die statistische Zusammenhänge verfälschen
- Simpson-Paradoxon — Wenn Aggregation die Wahrheit verzerrt
Quellen & weiterführende Literatur
- Gigerenzer, G., & Hoffrage, U. (1995). How to improve Bayesian reasoning without instruction: Frequency formats. Psychological Review, 102(4), 684–704.
- Gigerenzer, G. (2002). Calculated Risks: How to Know When Numbers Deceive You. Simon & Schuster.
- Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux. (Kap. 14–16)
- Tversky, A., & Kahneman, D. (1974). Judgment under Uncertainty: Heuristics and Biases. Science, 185(4157), 1124–1131.
- Bayes, T. (1763). An Essay towards solving a Problem in the Doctrine of Chances. Philosophical Transactions of the Royal Society, 53, 370–418.