Ghost Variables: Die unsichtbare dritte Kraft hinter scheinbaren Zusammenhängen
Ghost Variables: Die unsichtbare dritte Kraft hinter scheinbaren Zusammenhängen
Zwei Kurven steigen gemeinsam. Ein Journalist schreibt eine Schlagzeile. Ein Politiker zieht Konsequenzen. Nur hat niemand bemerkt, dass beide Kurven von einer dritten getrieben werden — einer, die im Datensatz gar nicht vorkommt. Willkommen bei den Geistervariablen.
Das Eisdielen-Paradox
Jeden Sommer passiert dasselbe: In deutschen Städten steigen gleichzeitig der Eisverkauf und die Zahl der Ertrinkungsopfer. Wer die Rohdaten betrachtet, ohne nachzudenken, könnte schlussfolgern: Eis essen ist gefährlich. Oder: Ertrinkende haben vorher Eis gegessen.
Natürlich ist das Unsinn. Beides steigt im Sommer — wegen der Temperatur. Die Hitze treibt Menschen ins Wasser, und die Hitze treibt Menschen zur Eisdiele. Die Korrelation ist real. Die Kausalität ist eine Erfindung.
Die Temperatur ist die Confounder-Variable — oder, bildlicher ausgedrückt, die Ghost Variable: Sie geistert unsichtbar durch den Datensatz und erzeugt Zusammenhänge, die sich wie Kausalität anfühlen, es aber nicht sind.
Was ist ein Confounder?
In der Statistik bezeichnet ein Confounder (lateinisch: confundere — vermischen, verwirren) eine Variable, die:
- Mit der untersuchten Ursachenvariable (X) zusammenhängt,
- mit dem untersuchten Ergebnis (Y) zusammenhängt,
- aber nicht auf dem Kausalweg zwischen X und Y liegt.
Sie ist die dritte Partei, die eine Beziehung zwischen zwei anderen Variablen vortäuscht — oder eine echte Beziehung verdeckt. Manchmal heben zwei Confounders einander auf und lassen einen echten Effekt verschwinden. Manchmal erzeugen sie einen Effekt, der gar nicht existiert.
Klassiker der Confounder-Geschichte
Schokolade und Nobelpreise
2012 veröffentlichte Franz Messerli im New England Journal of Medicine eine heute legendäre Analyse: Der Schokoladenkonsum pro Kopf eines Landes korreliert stark mit der Anzahl seiner Nobelpreisträger. r = 0,791, statistisch hochsignifikant.
Der Witz: Messerli wollte eine Satire auf methodisch schwache Korrelationsstudien schreiben. Aber die Grafik war so überzeugend, dass viele sie ernst nahmen. Der wahre Confounder: allgemeiner Wohlstand. Reiche Länder kaufen mehr Schokolade und haben bessere Universitäten.
Schuhgröße und Lesekompetenz
Bei Kindern im Grundschulalter korreliert die Schuhgröße positiv mit der Lesefähigkeit. Größere Schuhe, bessere Leser. Der Confounder ist selbstverständlich das Alter: Ältere Kinder haben größere Füße und können besser lesen.
Rauchen schützt? Das Simpson-Paradoxon als Sonderfall
Manchmal ist die Confounder-Logik noch subtiler. In den frühen Studien zu Rauchen und Lungenentzündung schienen Raucher seltener an bestimmten Erkrankungen zu sterben — bis man kontrollierte, dass Raucher im Schnitt früher an anderen Ursachen starben und gar nicht erst ins Alter kamen, in dem diese Krankheiten auftreten. Überleben-Selektion als Confounder. (Dieses Phänomen berührt auch das Simpson-Paradoxon.)
Confounders in der Medizin: Wenn Leben daran hängen
Im medizinischen Bereich können unerkannte Confounders tödlich sein. Ein klassisches Beispiel: Eine Studie zeigt, dass Patienten, die in ein Krankenhaus eingeliefert werden, häufiger sterben als solche, die zu Hause bleiben. Sollte man Krankenhäuser meiden?
Natürlich nicht. Der Confounder ist die Schwere der Erkrankung. Wer schwer krank ist, geht ins Krankenhaus — und stirbt dort häufiger, nicht wegen des Krankenhauses, sondern trotzdem.
Dieses Phänomen nennt sich Confounding by Indication: Die Indikation für eine Behandlung ist selbst ein Confounder für das Outcome. Es ist einer der Hauptgründe, warum randomisierte kontrollierte Studien (RCTs) als Goldstandard der Evidenz gelten — bei echter Zufallszuweisung werden Confounders systematisch eliminiert.
Observationsstudien: Die Confounder-Falle
Das Problem ist besonders akut bei Beobachtungsstudien — Studien, die Daten über das natürliche Verhalten von Menschen erheben, ohne in dieses Verhalten einzugreifen. Die meisten großen Ernährungsstudien, viele epidemiologische Studien und fast alle soziologischen Langzeituntersuchungen sind Beobachtungsstudien.
Hier lauern Confounders auf Schritt und Tritt. Menschen, die täglich Sport treiben, unterscheiden sich in Dutzenden weiterer Eigenschaften von Menschen, die das nicht tun. Menschen, die viel Gemüse essen, schlafen anders, trinken anders, leben in anderen Verhältnissen. Es ist nahezu unmöglich, alle relevanten Variablen zu messen und zu kontrollieren.
Statistiker versuchen, mit Techniken wie multivariater Regression, Propensity Score Matching oder Instrumental Variables Confounders herauszurechnen. Das gelingt — aber nur für gemessene Variablen. Der echte Feind sind die ungemessenen Confounders: die, die im Datensatz gar nicht vorkommen.
Wie erkennt man Ghost Variables?
Es gibt kein Patentrezept — aber einige Fragen helfen:
- Gibt es eine plausible Drittvariable? Wenn X und Y beide von einem gemeinsamen Faktor abhängen könnten (Zeit, Wohlstand, Alter, Klima), ist Skepsis angebracht.
- Wurde auf Confounders kontrolliert? Ein Paper ohne Kontrollvariablen ist kein Beweis, sondern ein Hinweis.
- Gibt es eine randomisierte Studie? Wenn ja, sind viele Confounders automatisch ausgeschlossen.
- Ist die Korrelation über verschiedene Subgruppen konsistent? Wenn der Zusammenhang in allen Teilgruppen verschwindet, sobald man auf eine Variable kontrolliert, ist das ein starkes Indiz.
- Gibt es einen glaubwürdigen Mechanismus? Korrelation ohne Mechanismus sollte immer misstrauisch machen.
Die Piraten-Klimawandel-Korrelation
Zum Abschluss ein Klassiker der Statistik-Pädagogik, der auch Kirchengründungen inspiriert hat: Die Zahl der Piraten auf den Weltmeeren ist seit dem 18. Jahrhundert dramatisch gesunken — parallel dazu ist die globale Durchschnittstemperatur gestiegen. Schlussfolgerung: Piraten kühlen das Klima. Oder: Klimawandel vernichtet Piraten.
Beides ist Unsinn. Beides teilt einen Confounder: die Zeit. Im Laufe der Jahrhunderte haben sich viele Dinge gleichzeitig verändert. Koinzidenz über die Zeit ist keine Kausalität.
Bobby Henderson, der Erfinder der Fliegenden-Spaghetti-Monster-Religion, nutzte dieses Beispiel, um zu zeigen, wie leicht man mit Korrelationen jeden beliebigen Unsinn „beweisen" kann. Die Lektion ist ernst: Nicht jede Korrelation erzählt eine Geschichte. Manchmal ist sie einfach Rauschen — oder ein Geist.
Verwandte Denkfehler
- Simpson-Paradoxon — Wenn ein Trend sich beim Zusammenfassen von Gruppen umkehrt
- P-Hacking — Wie Datenmissbrauch falsch-positive Ergebnisse produziert
- Regression zur Mitte — Warum scheinbare Verbesserungen manchmal nur statistisches Rauschen sind
Quellen & weiterführende Literatur
- Messerli, F. H. (2012). Chocolate Consumption, Cognitive Function, and Nobel Laureates. New England Journal of Medicine, 367, 1562–1564.
- Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
- Hernán, M. A., & Robins, J. M. (2020). Causal Inference: What If. Chapman & Hall/CRC.
- Greenland, S., Robins, J. M., & Pearl, J. (1999). Confounding and collapsibility in causal inference. Statistical Science, 14(1), 29–46.
- Rothman, K. J., Greenland, S., & Lash, T. L. (2008). Modern Epidemiology. Lippincott Williams & Wilkins.