Simpson-Paradoxon: Wenn die Wahrheit bei der Zusammenfassung stirbt
Simpson-Paradoxon: Wenn die Wahrheit bei der Zusammenfassung stirbt
1973 erschütterte eine Studie die University of California, Berkeley: Sie nahm offenbar deutlich weniger Frauen ins Masterprogramm auf als Männer. Drohte eine Klage wegen Diskriminierung? Als Forscher die Daten genauer analysierten, fanden sie etwas Verblüffendes — und lehrten der Welt damit eine statistischen Lektion, die bis heute gilt.
Berkeley 1973: Diskriminierung oder Illusion?
Die Gesamtzahlen schienen eindeutig: Von den männlichen Bewerbern wurden 44% zugelassen, von den weiblichen nur 35%. Bei Tausenden von Bewerbungen — ein statistisch hochsignifikanter Unterschied.
Dann analysierten Bickel, Hammel und O'Connell die Daten auf Ebene der einzelnen Fachbereiche. Das Ergebnis verblüffte alle: In den meisten Fachbereichen wurden Frauen zu gleichen oder höheren Quoten zugelassen als Männer. Nirgends fand sich ein systematischer Bias gegen Frauen.
Wie ist das möglich?
Die Auflösung liegt in der Struktur der Bewerbungen. Frauen bewarben sich überproportional häufig bei Fächern mit niedrigen Zulassungsquoten — zum Beispiel Englisch oder Geschichte, die sehr viele Bewerbungen aus dem gesamten Bundesstaat erhielten. Männer bewarben sich häufiger bei Fächern mit hohen Zulassungsquoten — etwa technischen Fächern mit kleiner, spezialisierter Bewerberschaft.
Gesamtbild: Frauen werden seltener zugelassen. Teilbild: Frauen werden gleich oder öfter zugelassen. Beide Aussagen sind korrekt — und trotzdem widersprechen sie einander. Das ist das Simpson-Paradoxon.
Die formale Struktur des Paradoxons
Das Simpson-Paradoxon (benannt nach dem britischen Statistiker Edward H. Simpson, der es 1951 formalisierte — obwohl der Effekt bereits 1899 von Karl Pearson beschrieben wurde) tritt auf, wenn:
- Ein Zusammenhang in jeder Teilgruppe in eine Richtung zeigt,
- aber nach Aggregation aller Teilgruppen in die entgegengesetzte Richtung zeigt.
Dies passiert, wenn die Gruppengrößen ungleich sind — und wenn der Confounder, der die Gruppen aufteilt, sowohl mit der Ursache als auch mit dem Ergebnis zusammenhängt.
Im Berkeley-Fall: Die Fächerwahl korreliert mit dem Geschlecht (Frauen→ Geisteswissenschaften, Männer → Technik) und mit der Zulassungsquote (Geisteswissenschaften → harte Konkurrenz, Technik → leichterer Zugang). Diese Doppelkorrelation dreht den Gesamttrend um.
Nierensteine: Therapie A gegen Therapie B
Ein medizinisches Beispiel macht die Konsequenzen noch anschaulicher. In einer Studie zu Nierensteinen wurden zwei Behandlungen verglichen:
| Behandlung | Kleine Steine | Große Steine | Gesamt |
|---|---|---|---|
| A (offen-chirurgisch) | 93% Erfolg (81/87) | 73% Erfolg (192/263) | 78% Erfolg (273/350) |
| B (perkutan) | 87% Erfolg (234/270) | 69% Erfolg (55/80) | 83% Erfolg (289/350) |
Behandlung A ist bei kleinen Steinen besser (93% vs. 87%). Behandlung A ist bei großen Steinen besser (73% vs. 69%). Trotzdem: Insgesamt ist Behandlung B besser (83% vs. 78%).
Das Simpson-Paradoxon in voller Kraft. Der Grund: Behandlung A wurde überproportional bei den schwereren Fällen (großen Steinen) eingesetzt, was die Gesamterfolgsquote senkt. Bei der Interpretation der Gesamtzahlen wird dieser Confounder — die Schwere des Falls — unsichtbar.
Wäre man der Gesamtzahl gefolgt, hätte man die schlechtere Behandlung bevorzugt. Dieses Beispiel stammt aus einem echten Paper (Charig et al., 1986) und wird seither in der medizinischen Statistiklehre verwendet.
Weitere klassische Beispiele
Baseball-Schlagstatistiken
Ein Baseball-Spieler kann in jedem einzelnen Jahr einen höheren Schlagdurchschnitt haben als ein anderer — und dennoch über die gesamte Karriere einen niedrigeren. Dies passiert, wenn der schlechtere Spieler mehr Spiele in Jahren gespielt hat, in denen alle Spieler schlechter schlugen (z. B. wegen stärkerem Pitching in jener Ära).
COVID-Todesfallraten
Während der COVID-19-Pandemie schienen Todesfallraten in manchen Ländern mit niedrigerer Impfquote paradoxerweise geringer. Beim Aufschlüsseln nach Altersgruppen löste sich das Paradoxon auf: Jüngere Bevölkerungen hatten generell niedrigere Sterberaten — unabhängig von der Impfquote — und verfälschten so die Gesamtstatistik.
Wann ist die aggregierte Sicht richtig?
Das Simpson-Paradoxon wirft eine fundamentale Frage auf: Welche Daten sind „richtig"? Die Teilgruppen? Die Gesamtheit?
Die Antwort hängt vom kausalen Kontext ab. Der Statistiker Judea Pearl hat argumentiert, dass die korrekte Aggregationsebene jene ist, die den kausalen Mechanismus am besten repräsentiert.
Im Berkeley-Fall: Wenn man wissen will, ob die Uni diskriminiert, muss man vergleichen, was innerhalb vergleichbarer Fächer passiert — also auf Fachbereichsebene. Die Gesamtrate misst etwas anderes: sie misst auch, welche Fächer Frauen wählen.
Im Nierenstein-Fall: Wenn man die beste Behandlung für einen konkreten Patienten mit bekannter Steingröße finden will, ist die stratifizierte Sicht richtig. Die Gesamtrate wäre nur relevant, wenn man im Vorfeld nicht weiß, welche Steine ein Patient hat.
Die praktische Lehre
Das Simpson-Paradoxon zeigt auf brutale Weise, was passiert, wenn man Confounders ignoriert. Es ist die versteckte Drittvariable, die Trends umkehrt und Entscheidungen verzerrt.
Für die Praxis gilt:
- Misstrauen Sie Gesamtstatistiken, wenn relevante Untergruppen sehr unterschiedlich groß sind.
- Fragen Sie nach Subgruppenanalysen — nicht als Fischerei nach Signifikanz, sondern als Plausibilitätsprüfung.
- Denken Sie kausal: Welche Variable könnte sowohl die Ursache als auch das Ergebnis beeinflussen und so die Gesamtzahl verzerren?
- Visualisieren Sie Daten: Ein Scatterplot mit farbkodierten Gruppen macht das Paradoxon oft sofort sichtbar, wo Tabellen es verbergen.
Das Simpson-Paradoxon ist kein Beweis, dass Statistik unzuverlässig ist. Es ist ein Beweis, dass Statistik ohne kausales Denken gefährlich ist. Die Zahlen lügen nicht — aber sie erzählen nicht die ganze Geschichte. Das müssen wir tun.
Verwandte Denkfehler
- Ghost Variables / Confounders — Die versteckte dritte Variable, die Trends erzeugt und umkehrt
- Base-Rate-Fallacy — Grundraten ignorieren führt zu systematisch falschen Schlüssen
- P-Hacking — Wie selektive Datenanalyse falsche Ergebnisse produziert
Quellen & weiterführende Literatur
- Bickel, P. J., Hammel, E. A., & O'Connell, J. W. (1975). Sex Bias in Graduate Admissions: Data from Berkeley. Science, 187(4175), 398–404.
- Simpson, E. H. (1951). The Interpretation of Interaction in Contingency Tables. Journal of the Royal Statistical Society B, 13(2), 238–241.
- Charig, C. R., et al. (1986). Comparison of treatment of renal calculi by open surgery, percutaneous nephrostolithotomy, and extracorporeal shockwave lithotripsy. BMJ, 292(6524), 879–882.
- Pearl, J. (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press.
- Wagner, C. H. (1982). Simpson's Paradox in Real Life. The American Statistician, 36(1), 46–48.