Irreführende Aggregation: Wenn der Durchschnitt alles Interessante versteckt
Ein Statistiker ertrinkt in einem Fluss, der im Durchschnitt einen Meter tief ist. Der Witz erklärt sich selbst — aber er erklärt auch ein fundamentales Problem mit Durchschnittswerten: Sie können die Verteilung vollständig verbergen. Ein Fluss, der an den Ufern 10 cm und in der Mitte 2,90 m tief ist, hat einen Durchschnitt von einem Meter. Die mittlere Tiefe stimmt. Der Statistiker ist trotzdem tot.
Was ist irreführende Aggregation?
Irreführende Aggregation (englisch: Misleading Aggregation oder Ecological Fallacy in einem verwandten Kontext) beschreibt eine Klasse von statistischen Fehlern, die entstehen, wenn zusammengefasste Daten — Mittelwerte, Summen, Prozentzahlen — so präsentiert oder interpretiert werden, dass wichtige Informationen über die zugrundeliegende Verteilung, Untergruppen oder Zusammensetzungseffekte verloren gehen.
Das Problem ist nicht, dass Aggregate grundsätzlich falsch sind. Es ist, dass sie selektiv richtig sind — und der Kontext bestimmt, ob sie die relevante Information liefern oder verbergen.
Das Durchschnitts-Trugbild: Verteilt oder konzentriert?
Das US-amerikanische Medianeinkommen und das Durchschnittseinkommen sind zwei ganz verschiedene Zahlen. Das Durchschnittseinkommen liegt deutlich über dem Median — weil extrem hohe Einkommen am oberen Ende den Durchschnitt nach oben ziehen, während die meisten Menschen weit darunter liegen.
Wer sagt, das "Durchschnittseinkommen" sei X und daraus schließt, dass "die meisten Amerikaner" X verdienen, liegt systematisch falsch. Die Verteilung ist rechtsschief. Der Mittelwert befindet sich nicht in der Mitte der Verteilung — er liegt oberhalb des Medians, also oberhalb der Hälfte der tatsächlichen Beobachtungen.
Das gilt für Vermögen (extrem rechtsschief), Unternehmensgröße, Einwohnerzahlen von Städten, und viele andere sozioökonomische Variablen. "Durchschnitt" klingt nach Mitte. Er ist es oft nicht.
Das Simpson-Paradoxon: Wenn sich der Trend umkehrt
Ein besonders dramatischer Fall irreführender Aggregation ist das Simpson-Paradoxon: Ein Trend, der in allen Untergruppen in eine Richtung geht, kehrt sich bei Aggregation um.
Das klassische medizinische Beispiel: In einer klinischen Studie wirkt Behandlung A in der Gruppe der leicht Erkrankten besser als Behandlung B, und in der Gruppe der schwer Erkrankten ebenfalls. Aber wenn man die Gruppen zusammenfasst, scheint Behandlung B insgesamt besser zu sein. Wie ist das möglich?
Der Mechanismus: Die Gruppen haben unterschiedliche Größen, und die Zusammensetzung der Behandlungsgruppen ist nicht ausgeglichen. Wenn Behandlung B häufiger bei leicht Erkrankten eingesetzt wird (die sowieso bessere Prognosen haben), sieht das aggregierte Ergebnis von B besser aus — obwohl B in jeder vergleichbaren Untergruppe schlechter abschneidet. Die Aggregation versteckt den Confounder "Schweregrad der Erkrankung".
UC-Berkeley-Aufnahmen: Diskriminierung oder Simpson?
In den 1970er Jahren analysierte Statistiker Peter Bickel die Zulassungsquoten der UC Berkeley. Die Gesamtquoten sahen nach Diskriminierung gegen Frauen aus: Männer wurden häufiger zugelassen als Frauen. Aber als Bickel die Zahlen nach Fachbereich aufschlüsselte, zeigte sich: In den meisten Fachbereichen war die Zulassungsquote für Frauen gleich oder höher als für Männer.
Die Erklärung: Frauen bewarben sich häufiger in Fachbereichen mit generell niedrigen Zulassungsquoten (Geisteswissenschaften), während Männer häufiger in Fachbereichen mit hohen Quoten (Ingenieurwesen) aufgenommen wurden. Der aggregierte Vergleich verwechselte den Effekt der Bewerbungsverteilung mit dem Effekt von Diskriminierung.
Das Beispiel zeigt: Aggregierte Statistiken können Diskriminierung sowohl erschaffen als auch verbergen — je nachdem, wie die Gruppen zusammengesetzt sind.
Durchschnittliches Wirtschaftswachstum und wen es betrifft
Makroökonomische Aggregate wie das BIP-Wachstum, Arbeitslosenzahlen oder Inflationsraten sind gesellschaftlich relevante, aber notorisch aggregierte Kennzahlen.
Wenn das BIP um 3% wächst, sagt das wenig darüber aus, wer von diesem Wachstum profitiert. Wenn das Wachstum vor allem durch steigende Unternehmensgewinne und Kapitalerträge getrieben wird, während Löhne stagnieren, ist das aggregierte BIP-Wachstum für einen Großteil der Bevölkerung wirtschaftlich irrelevant.
Ähnlich bei Arbeitslosenzahlen: Die offizielle Arbeitslosenquote in vielen Ländern unterschätzt systematisch das Ausmaß unfreiwilliger Teilzeitarbeit, Unterbeschäftigung und Entmutigung. Die Aggregation hinter einer einzigen Zahl verbirgt strukturelle Unterschiede, die für politische Entscheidungen zentral wären.
Untergruppen und Heterogenität
Medizinische Behandlungen sind ein weiteres wichtiges Anwendungsfeld. Ein Medikament, das im Durchschnitt einen kleinen positiven Effekt zeigt, kann für eine Untergruppe stark wirksam und für eine andere schädlich sein. Der Durchschnittseffekt suggeriert einen moderaten Nutzen für alle — während die tatsächliche Implikation ist, dass Patientensubgruppen identifiziert werden müssen, für die das Medikament entweder hervorragend oder kontraindiziert ist.
Das Konzept der Precision Medicine ist eine direkte Antwort auf irreführende Aggregation in der klinischen Forschung: statt Behandlungseffekte zu mitteln, sollen relevante Untergruppen identifiziert werden.
Die ökologische Korrelation: Gruppen vs. Individuen
Ein verwandtes Problem ist der ökologische Fehlschluss (Ecological Fallacy): Wenn Korrelationen auf aggregierter Ebene (Länder, Regionen, Gruppen) auf individuelle Ebene übertragen werden.
Klassisches Beispiel aus der frühen Soziologie: Es gibt eine positive Korrelation zwischen dem Anteil ausländischer Bevölkerung in einer Region und der Selbstmordrate der Region. Bedeutet das, dass Einwanderer häufiger Suizid begehen? Nein — es könnte bedeuten, dass Regionen mit hohem Einwandereranteil andere Charakteristika haben (Urbanität, soziale Fragmentierung), die mit höherer Suizidrate assoziiert sind. Der Zusammenhang auf Gruppenebene sagt nichts über individuelle Risiken.
Wie man Aggregation richtig nutzt
Aggregate und Durchschnitte sind nicht grundsätzlich falsch — sie sind mächtige Werkzeuge, wenn man ihre Grenzen kennt. Einige Leitprinzipien:
- Verteilungen zeigen, nicht nur Mittelwerte: Histogramme, Box-Plots, oder zumindest Standardabweichung und Median neben dem Mittelwert.
- Untergruppen explizit machen: Sind die Untergruppen homogen? Wenn nicht, getrennt berichten.
- Kompositionseffekte prüfen: Wenn sich die Zusammensetzung der Gruppen ändert, können sich aggregierte Kennzahlen auch dann ändern, wenn sich auf Individualebene nichts ändert.
- Den richtigen Mittelwert wählen: Arithmetisches Mittel, Median, geometrisches Mittel — für schiefe Verteilungen oder Wachstumsraten kann der arithmetische Durchschnitt irreführend sein.
- Fragen: Für wen gilt diese Zahl? Ein Gesamtdurchschnitt sagt nichts über spezifische Subpopulationen.
Zusammenfassung
Aggregate und Durchschnitte sind die Abkürzungen des analytischen Denkens — sie komprimieren komplexe Verteilungen in handhabbare Zahlen. Aber jede Kompression verliert Information. Irreführende Aggregation entsteht, wenn diese Kompression wichtige Heterogenität, Untergruppen oder Kompositionseffekte versteckt — und das Ergebnis als vollständige Beschreibung der Realität präsentiert wird. Der ertränkte Statistiker im durchschnittlich flachen Fluss ist die Metapher: Der Durchschnitt stimmte. Die Tiefenverteilung hätte ihn gerettet.
Quellen & Weiterführendes
- Bickel, Peter J., Eugene A. Hammel & J. William O'Connell. "Sex Bias in Graduate Admissions: Data from Berkeley." Science, 187(4175), 1975, S. 398–404.
- Wagner, Clifford H. "Simpson's Paradox in Real Life." The American Statistician, 36(1), 1982, S. 46–48.
- Selvin, Hanan C. "Durkheim's 'Suicide' and Problems of Empirical Research." American Journal of Sociology, 63(6), 1958, S. 607–619.
- Anscombe, Francis J. "Graphs in Statistical Analysis." The American Statistician, 27(1), 1973, S. 17–21. (Anscombe's Quartet: gleiches Mittel, unterschiedliche Verteilungen.)
- Cairo, Alberto. How Charts Lie: Getting Smarter About Visual Information. Norton, 2019.
- Wikipedia: Simpsonsches Paradoxon | Ökologischer Fehlschluss