Omitted Variable Bias

Auch bekannt als: Confounding bias Unobserved heterogeneity Verzerrung durch ausgelassene Variablen

Statistical Error ID: omitted_variable_bias

Definition

Omitted Variable Bias tritt auf, wenn ein statistisches Modell eine relevante Variable auslässt, die sowohl mit der unabhängigen als auch mit der abhängigen Variable korreliert ist. Dadurch absorbiert der geschätzte Effekt der enthaltenen Variable den Einfluss der fehlenden, was zu verzerrten und inkonsistenten Koeffizientenschätzungen führt. Richtung und Ausmaß der Verzerrung hängen von den Korrelationen zwischen der ausgelassenen Variable und den anderen Variablen im Modell ab.

Beispiele

Eine Studie stellt eine starke Korrelation zwischen Eisverkäufen und Ertrinkungstoden fest und schließt daraus, dass Eis Ertrinken verursacht. Die ausgelassene Variable ist die Temperatur: Heißes Wetter steigert sowohl den Eiskonsum als auch das Schwimmen, was das Ertrinkungsrisiko erhöht.

Eine Analyse zeigt, dass Städte mit mehr Kirchen auch höhere Kriminalitätsraten aufweisen, und einige schließen daraus, Religion fördere Kriminalität. Die ausgelassene Variable ist die Stadtgröße: Größere Städte haben schlicht mehr von beidem – mehr Kirchen und mehr Kriminalität – ohne dass ein kausaler Zusammenhang zwischen den beiden Variablen besteht.

Ein Unternehmen stellt fest, dass Mitarbeitende, die häufig die firmeneigene Kaffeebar nutzen, produktiver sind, und investiert daraufhin in weitere Kaffeestationen. Die ausgelassene Variable ist die Extraversion: Geselligere Mitarbeitende suchen häufiger soziale Räume auf und sind gleichzeitig oft vernetzter und sichtbarer produktiv – der Kaffee selbst ist nicht der treibende Faktor.

Prüfschritte

Prüfschritte

Binäre Ja/Nein-Fragen, die eine KI beantworten muss, um ein Argumentationsmuster in einem Text zu erkennen.

Jeder der 452 Aspekte hat Prüfschritte — einfache Ja/Nein-Fragen, die systematisch erkennen sollen, ob ein Muster in einem Text vorkommt. Für Ad Hominem: "Greift das Argument eine Person statt ihre Behauptung an?" Für falsche Dichotomie: "Werden nur zwei Optionen präsentiert, obwohl mehr existieren?"

Im Glossar ansehen →

Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:

1

Gibt es eine Variable, die nicht im Modell enthalten ist, aber die abhängige Variable plausibel beeinflussen könnte?
Typ: binary
2

Ist die ausgelassene Variable wahrscheinlich mit einer oder mehreren enthaltenen unabhängigen Variablen korreliert?
Typ: binary
3

Könnte die Aufnahme dieser Variable die geschätzten Effekte anderer Variablen wesentlich verändern?
Typ: binary
4

Behauptet die Analyse kausale Effekte, ohne potenzielle ausgelassene Variablen zu berücksichtigen?
Typ: binary

Beschreibung

Warum es funktioniert

Forschende sind sich möglicherweise nicht aller relevanten Variablen bewusst, oder Daten zu wichtigen Confoundern sind nicht verfügbar. Ohne explizite Kontrolle wird der Effekt der fehlenden Variable fälschlicherweise den enthaltenen Prädiktoren zugeschrieben.

Wie man entgegnet

Nutzen Sie Domänenwissen, um potenzielle Confounder vor der Modellierung zu identifizieren. Setzen Sie Sensitivitätsanalysen ein, um zu testen, wie robust die Ergebnisse gegenüber nicht gemessenen Variablen sind. Erwägen Sie Instrumentalvariablen-Ansätze oder Fixed-Effects-Modelle, wenn wichtige Confounder nicht direkt messbar sind.

Auch bekannt als

Confounding bias Unobserved heterogeneity Verzerrung durch ausgelassene Variablen

Praxiskontext

Häufig in beobachtenden Gesundheitsstudien, in denen Lebensstilfaktoren schwer vollständig zu erfassen sind, und in der Wirtschaftsforschung, wo nicht beobachtbare individuelle Merkmale die Ergebnisse beeinflussen.