Simpsons Paradoxon: Wenn die Zahlen zwei entgegengesetzte Wahrheiten sagen
Das Ding mit den zwei Krankenhäusern
Du brauchst eine Operation. Zwei Krankenhäuser stehen zur Wahl.
Krankenhaus A: 900 von 1.000 Patienten haben überlebt. Das sind 90 % Überlebensrate.
Krankenhaus B: 800 von 1.000 Patienten haben überlebt. Das sind 80 % Überlebensrate.
Klare Sache, oder? Krankenhaus A. Sofort.
Dann zeigt dir jemand die Aufschlüsselung nach Schwere der Fälle:
| Krankenhaus A | Krankenhaus B | |
|---|---|---|
| Leichte Fälle | 870/900 = 96,7 % | 245/250 = 98 % |
| Schwere Fälle | 30/100 = 30 % | 555/750 = 74 % |
Moment.
Krankenhaus B hat eine höhere Überlebensrate für beide Gruppen – sowohl bei leichten als auch bei schweren Fällen. Und trotzdem hat Krankenhaus A die bessere Gesamtrate?
Kein Tippfehler. Das ist das Simpsons Paradoxon.
Und es bedeutet: Dieselben Zahlen können – je nachdem, wie man sie betrachtet – zu genau entgegengesetzten Schlussfolgerungen führen.
Was hier passiert ist
Der Trick liegt in dem, was Statistiker Aggregation nennen: Wenn du Gruppen zusammenführst, kann der Mix wer in jeder Gruppe ist das Ergebnis umkehren.
Krankenhaus A behandelt hauptsächlich leichte Fälle – 900 von 1.000 Patienten. Einfache Siege. Gute Gesamtrate.
Krankenhaus B behandelt hauptsächlich schwere Fälle – 750 von 1.000 Patienten sind Hochrisikopatienten. Schwer zu retten, zieht die Gesamtrate runter. Aber bei jeder einzelnen Patientengruppe macht es bessere Arbeit.
Wenn du ernsthaft krank bist, rettet Krankenhaus B dich fast zweieinhalb Mal so oft. Aber die Gesamtzahl würde dich ins falsche Krankenhaus schicken.
Die Zahlen lügen nicht. Sie beantworten nur eine andere Frage, als du glaubst.
Echte Fälle, wo das passiert ist
UC Berkeley und Diskriminierung (1973)
Die Gesamtzulassungsraten der Universität schienen eine Benachteiligung von Frauen zu zeigen: 44 % der männlichen Bewerber wurden zugelassen, aber nur 35 % der weiblichen.
Klagedrohungen. Empörung. Medienberichte.
Dann hat jemand nach Fachbereich aufgeschlüsselt. In den meisten Fachbereichen wurden Frauen bei höheren Raten zugelassen als Männer. Das Gesamtergebnis sah nach Diskriminierung aus, weil Frauen häufiger die umkämpftesten Fachbereiche wählten – und dort die Zulassungsraten für alle niedrig waren.
Die zusammengefasste Zahl zeigte scheinbare Diskriminierung. Die aufgeschlüsselte Zahl das Gegenteil.
Corona-Sterberaten nach Ländern (2020)
Früh in der Pandemie schien Italien eine viel höhere Sterberate zu haben als China – bei ähnlicher Fallzahl unverständlich. Bis man sich die Altersstruktur anschaute. Italien hat eine der ältesten Bevölkerungen der Welt. COVID tötet ältere Menschen deutlich häufiger. Wenn man Altersgruppe für Altersgruppe vergleicht, sind die Raten ähnlich. Der Unterschied in der Gesamtschau: Simpsons Paradoxon, verursacht durch unterschiedliche Altersstrukturen.
Schulranking in Deutschland
Eine Schule hat in allen Leistungsgruppen (schwache, mittlere, starke Schüler) bessere Ergebnisse als die Nachbarschule. Trotzdem hat sie schlechtere Gesamtergebnisse. Wie? Die gute Schule nimmt mehr Förderschüler auf. Die schlechte Schule nimmt mehr leistungsstarke Schüler. Vergleiche den Mix – und das Paradox löst sich auf.
Warum unser Gehirn damit kämpft
Menschen lieben eine einzige Zahl. Eine Rangliste, ein Prozentsatz, eine Note – weil sie sich wie die Wahrheit anfühlt.
Aber "welches Krankenhaus ist besser?" ist keine Frage mit einer einzigen Antwort. Es kommt an:
- Was für ein Patient bist du?
- Was misst du?
- Was vergleichst du?
Das Simpsons Paradoxon zeigt, dass eine komplexe Situation auf eine Zahl zu reduzieren die Wahrheit aktiv umkehren kann.
Die Daten haben nicht gelogen. Die Zusammenfassung hat etwas Kritisches verloren.
Wie du dich schützt
Wenn dich eine Gesamtstatistik überrascht:
1. Frag: "Gesamt" im Vergleich zu welchen Gruppen?
Gibt es Untergruppen, die sich anders verhalten könnten? Aufschlüsseln.
2. Frag: Wer ist in jeder Gruppe?
Werden vergleichbare Dinge verglichen? Unterschiedliche Zusammensetzungen (Risikopatienten, Fachrichtungen, Altersgruppen) können Ergebnisse umkehren.
3. Frag: Was ist meine eigentliche Frage?
"Welches Krankenhaus hat die bessere Gesamtrate?" und "Welches Krankenhaus gibt mir die beste Chance?" können gegensätzliche Antworten haben.
4. Sei misstrauisch gegenüber Rankings in Wettbewerbssituationen.
Ranglisten, Ligatabellen, Durchschnitte über sehr unterschiedliche Gruppen – das sind die klassischen Brutstätten des Simpsons Paradoxons.
Die Challenge
Stell dir folgendes vor (oder such ein echtes Beispiel):
Ein Nachhilfe-Programm behauptet, Noten zu verbessern. Schule A nutzte das Programm – Gesamtdurchschnitt stieg. Schule B nutzte es – Durchschnitt stieg auch. Aber landesweit haben Schulen mit dem Programm im Schnitt schlechtere Ergebnisse als Schulen ohne das Programm.
Wie ist das möglich? (Hinweis: Denk daran, welche Schulen sich für das Programm entschieden haben.)
Schreibe die Erklärung auf. Wenn du das Simpsons Paradoxon so erklären kannst, dass ein Mensch ohne Statistikkenntnisse es versteht – hast du es wirklich begriffen. Die meisten Erwachsenen können das nicht.
Zahlen lügen nicht. Aber sie können dir eine Wahrheit erzählen, die vollkommen nutzlos ist – oder gefährlich verkehrt herum – wenn du nicht weißt, welche Frage du eigentlich stellst.