Multikollinearität

Auch bekannt als: Collinearity Kollinearität Ill-conditioned design matrix

Statistical Error ID: multicollinearity

Definition

Multikollinearität liegt vor, wenn zwei oder mehr unabhängige Variablen in einem Regressionsmodell stark korreliert sind, sodass es schwierig wird, den individuellen Effekt jeder Variable zu isolieren. Während die Gesamtmodellanpassung gut bleiben kann, werden die Standardfehler aufgebläht, die Koeffizientenschätzungen instabil und die statistischen Signifikanztests unzuverlässig. Perfekte Multikollinearität macht eine Schätzung gänzlich unmöglich.

Beispiele

Ein Modell zur Vorhersage von Immobilienpreisen enthält sowohl die Quadratmeterzahl als auch die Anzahl der Zimmer als unabhängige Variablen. Da größere Häuser typischerweise mehr Zimmer haben, sind die beiden Variablen stark korreliert, und das Modell kann ihre individuellen Beiträge zum Preis nicht zuverlässig trennen.

Ein Ernährungswissenschaftler möchte den Einfluss von täglichem Kalorienverbrauch und täglichem Fettkonsum auf das Körpergewicht modellieren. Da Menschen mit hohem Kalorienverbrauch typischerweise auch viel Fett zu sich nehmen, sind die beiden Prädiktoren stark korreliert, und das Modell kann ihren jeweiligen Einzelbeitrag kaum zuverlässig schätzen.

Ein Personalanalyst erstellt ein Modell zur Vorhersage des Mitarbeitergehalts und nimmt sowohl die Anzahl der Berufsjahre als auch das Alter der Person als unabhängige Variablen auf. Da ältere Mitarbeiter in der Regel auch mehr Berufserfahrung haben, sind die beiden Variablen hoch korreliert, was die Koeffizientenschätzungen instabil und schwer interpretierbar macht.

Prüfschritte

Prüfschritte

Binäre Ja/Nein-Fragen, die eine KI beantworten muss, um ein Argumentationsmuster in einem Text zu erkennen.

Jeder der 452 Aspekte hat Prüfschritte — einfache Ja/Nein-Fragen, die systematisch erkennen sollen, ob ein Muster in einem Text vorkommt. Für Ad Hominem: "Greift das Argument eine Person statt ihre Behauptung an?" Für falsche Dichotomie: "Werden nur zwei Optionen präsentiert, obwohl mehr existieren?"

Im Glossar ansehen →

Binäre (Ja/Nein) Fragen, die ein LLM beantworten muss, um diesen Aspekt zu identifizieren:

1

Sind zwei oder mehr unabhängige Variablen im Modell stark miteinander korreliert?
Typ: binary
2

Sind die Standardfehler der Koeffizienten im Verhältnis zu den Koeffizientenschätzungen ungewöhnlich groß?
Typ: binary
3

Ändern sich die Koeffizientenschätzungen dramatisch, wenn eine Variable hinzugefügt oder entfernt wird?
Typ: binary
4

Werden Schlussfolgerungen über individuelle Variableneffekte trotz Kollinearität gezogen?
Typ: binary

Beschreibung

Warum es funktioniert

Wenn Prädiktoren einen Großteil derselben Information teilen, kann das Modell nicht bestimmen, welche Variable für Veränderungen des Ergebnisses verantwortlich ist. Kleine Datenänderungen können große Schwankungen der geschätzten Koeffizienten verursachen und eine Illusion der Instabilität erzeugen.

Wie man entgegnet

Berechnen Sie Varianzinflationsfaktoren (VIF) zur Erkennung von Kollinearität. Erwägen Sie die Zusammenfassung korrelierter Variablen zu einem Index, das Entfernen redundanter Prädiktoren oder den Einsatz von Regularisierungstechniken wie Ridge-Regression, die Kollinearität besser handhaben.

Auch bekannt als

Collinearity Kollinearität Ill-conditioned design matrix

Praxiskontext

Häufig in der sozialwissenschaftlichen Forschung, wo demographische Variablen (Einkommen, Bildung, Beruf) korreliert sind, und in Finanzmodellen, wo sich ökonomische Indikatoren gemeinsam bewegen.