Störvariablen-Vernachlässigung: Die versteckte dritte Variable
Im Sommer steigen zwei Dinge gleichzeitig an: der Verkauf von Eiscreme und die Zahl der Hai-Attacken. Wer daraus schließt, Eiscreme mache Menschen anfälliger für Haie — oder umgekehrt, Haie würden durch Eiscreme angelockt — der macht einen der ältesten Fehler der Statistik. Die Verbindung ist real. Aber die Ursache ist eine dritte, unsichtbare Variable: das warme Wetter, das gleichzeitig Menschen an den Strand und Haie ins flache Wasser treibt.
Was ist eine Störvariable?
Eine Störvariable (englisch: confounding variable oder confounder) ist eine Variable, die sowohl mit der untersuchten Ursache als auch mit dem beobachteten Ergebnis zusammenhängt — und die bei Nichtbeachtung eine scheinbare Kausalbeziehung erzeugt, die gar nicht existiert, oder eine echte Kausalbeziehung verzerrt.
In der formalen Statistik spricht man von Konfundierung, wenn die Schätzung eines Kausaleffekts durch eine unberücksichtigte Variable verfälscht wird. Der Begriff stammt vom lateinischen confundere — vermischen, verwirren. Und genau das passiert: Ursache und Störeinfluss werden unbeabsichtigt vermischt.
Störvariablen-Vernachlässigung ist kein Randproblem der Wissenschaft. Sie ist systemisch. Besonders in Beobachtungsstudien — wo keine randomisierten Experimente möglich oder ethisch vertretbar sind — lauert sie überall.
Das Eiscreme-Beispiel und was dahintersteckt
Das Eiscreme-Hai-Beispiel ist beliebt, weil es offensichtlich absurd ist. Aber die gleiche Struktur steckt in ernsteren Zusammenhängen:
- Schuhe und Gehalt: Menschen mit mehr Paar Schuhen verdienen im Schnitt mehr. Ursache? Nein — die Störvariable ist Wohlstand: Wer mehr Geld hat, kauft mehr Schuhe und verdient auch selbst mehr.
- Krankenhausaufenthalte und Sterblichkeit: In Krankenhäusern sterben mehr Menschen als zu Hause. Bedeutet das, Krankenhäuser töten? Die Störvariable: Ins Krankenhaus kommen vor allem schwer Erkrankte.
- Filmschauen und schlechte Noten: Kinder, die mehr fernsehen, haben oft schlechtere Schulnoten. Aber der Confounder könnte der sozioökonomische Hintergrund sein, der sowohl Bildungsressourcen als auch Mediennutzung beeinflusst.
In jedem dieser Fälle gibt es eine echte Korrelation — aber die Kausalrichtung ist falsch oder gar nicht vorhanden.
Warum ist das so schwer zu erkennen?
Unser Gehirn ist eine Kausalitätsmaschine. Wir sehen Muster und schließen automatisch auf Ursache-Wirkungs-Beziehungen — es ist eine evolutionär nützliche Abkürzung. Der Apophenie-Bias treibt uns dazu, in zufälligen Zusammenhängen Bedeutung zu sehen. Zusammen mit dem Wunsch nach einfachen Erklärungen wird aus "A und B treten zusammen auf" schnell "A verursacht B".
Dazu kommt: Störvariablen sind per Definition nicht sichtbar, wenn man nicht nach ihnen sucht. Eine Studie, die nur zwei Variablen misst, kann per Konstruktion keine dritte berücksichtigen. Und selbst wenn Forscher viele Variablen erfassen, können ungemessene Confounders — die berüchtigten unmeasured confounders — das Bild verzerren.
Ein historisches Beispiel: Rauchen und Lungenkrebs
Die Debatte um den Zusammenhang zwischen Rauchen und Lungenkrebs in den 1950er Jahren ist ein Lehrstück in Störvariablen-Argumentation — diesmal als Ablenkungsmanöver. Der Statistiker Ronald A. Fisher, einer der brillantesten Köpfe seines Jahrhunderts, argumentierte, es könnte eine genetische Störvariable geben: Gene, die Menschen sowohl zum Rauchen disponierten als auch das Krebsrisiko erhöhten. Die Tabaklobby liebte dieses Argument.
Fisher war nicht unredlich — er war methodisch korrekt. Die Möglichkeit eines Confounders lässt sich nicht einfach ausschließen. Aber die Beweislast hatte sich verschoben: Alle anderen Indizien — Tierversuche, biochemische Mechanismen, epidemiologische Daten aus verschiedenen Kulturen — deuteten konsistent auf Kausalität hin. Das Argument "könnte eine Störvariable sein" wurde zur Verzögerungsstrategie.
Heute ist dieser Mechanismus bekannt: Die Möglichkeit eines Confounders als rhetorische Waffe einzusetzen, um robuste Kausalzusammenhänge in Frage zu stellen. Es ist ein Unterschied, ob man Störvariablen ernsthaft analysiert oder sie als Nebelwand einsetzt.
Randomisierte Experimente: Die Lösung — und ihre Grenzen
Der klassische Ausweg aus dem Confounding-Problem ist die randomisierte kontrollierte Studie (RCT). Wenn Probanden zufällig einer Behandlungs- oder Kontrollgruppe zugewiesen werden, verteilen sich alle Störvariablen — bekannte wie unbekannte — zufällig auf beide Gruppen. Sie heben sich damit auf.
Das ist das Goldstandard-Argument für RCTs in der Medizin. Aber Randomisierung ist nicht immer möglich: Man kann Menschen nicht zufällig zum Rauchen zwingen, in Armut aufwachsen lassen oder einer bestimmten Erziehung aussetzen. Für viele der wichtigsten gesellschaftlichen und medizinischen Fragen sind RCTs ethisch ausgeschlossen.
Dann kommen Methoden wie Propensity Score Matching, Instrumentalvariablen oder Differenz-in-Differenzen zum Einsatz — statistische Techniken, um Confounding auch ohne Randomisierung zu reduzieren. Alle haben Grenzen. Alle setzen Annahmen voraus, die sich nicht vollständig überprüfen lassen.
Confounding und die Replikationskrise
Nicht zufällig ist Störvariablen-Vernachlässigung einer der Hauptverdächtigen in der aktuellen Replikationskrise. Studien, die ohne ausreichende Confounder-Kontrolle durchgeführt werden, produzieren scheinbar signifikante Ergebnisse, die sich bei besserer Methodik auflösen. Wenn dann Medien über "Eine neue Studie zeigt, dass X Y verursacht" berichten, fehlt regelmäßig die Frage: Wurden alle relevanten Störvariablen kontrolliert?
Das Ergebnis ist ein Rauschen aus widersprüchlichen Schlagzeilen — Kaffee ist mal gut, mal schlecht; rotes Fleisch mal krebserregend, mal harmlos. Dahinter steckt oft keine widersprüchliche Wissenschaft, sondern unterschiedlich gute Confounder-Kontrolle in verschiedenen Studien.
Woran erkennt man Confounding-Probleme?
Ein paar Leitfragen helfen bei der kritischen Lektüre von Studien:
- Handelt es sich um eine Beobachtungsstudie? Wenn ja, ist Confounding grundsätzlich möglich — und muss aktiv ausgeschlossen werden.
- Welche Störvariablen wurden gemessen und kontrolliert? Und welche wurden nicht gemessen — und warum nicht?
- Gibt es einen plausiblen Mechanismus? Korrelation ohne Mechanismus sollte misstrauisch machen.
- Wurde die Studie repliziert? Stabile Kausaleffekte sind über verschiedene Populationen und Methoden hinweg robust.
- Wer hat ein Interesse am Ergebnis? Finanzierungsquellen sind ein Hinweis auf selektive Confounder-Wahl.
Zusammenfassung
Störvariablen-Vernachlässigung ist einer der fundamentalsten Fehler im Schließen von Beobachtungen auf Kausalität. "Correlation is not causation" — dieser Satz ist so bekannt, dass er fast zur Phrase geworden ist. Aber sein Kern bleibt messerscharf: Jede Korrelation hat mindestens drei mögliche Erklärungen. A verursacht B. B verursacht A. Oder C verursacht sowohl A als auch B. Die dritte Möglichkeit wird systematisch unterschätzt — von Journalisten, Politikern, aber auch von Wissenschaftlern. Das Eiscreme-Beispiel klingt lächerlich. Die echten Fälle sind es nicht.
Quellen & Weiterführendes
- Pearl, Judea & Dana Mackenzie. The Book of Why: The New Science of Cause and Effect. Basic Books, 2018.
- Hernán, Miguel A. & James M. Robins. Causal Inference: What If. Chapman & Hall/CRC, 2020. (Open Access: hsph.harvard.edu)
- Rothman, Kenneth J., Sander Greenland & Timothy L. Lash. Modern Epidemiology. 3. Aufl., Lippincott Williams & Wilkins, 2008.
- Fisher, Ronald A. "Lung Cancer and Cigarettes?" Nature, 182, 1958, S. 108.
- Doll, Richard & Austin Bradford Hill. "Smoking and Carcinoma of the Lung." British Medical Journal, 2(4682), 1950, S. 739–748.
- VanderWeele, Tyler J. & Ilya Shpitser. "On the Definition of a Confounder." Annals of Statistics, 41(1), 2013, S. 196–220.
- Wikipedia: Konfundierung