Stichprobenunempfindlichkeit: Warum uns kleine Zahlen täuschen
Stellen Sie sich zwei Krankenhäuser vor. Krankenhaus A ist eine kleine Klinik mit 15 Geburten pro Tag, Krankenhaus B ein großes Universitätsklinikum mit 45 Geburten täglich. Über ein Jahr haben beide Häuser notiert, an wie vielen Tagen mehr als 60 Prozent der Neugeborenen männlich waren. Welches Krankenhaus hatte mehr solcher Tage? Die meisten Menschen tippen auf "etwa gleich viele" oder raten. Die richtige Antwort: das kleine Krankenhaus — mit deutlichem Abstand. Und wer das nicht sofort versteht, steckt mitten im Thema dieses Artikels.
Das Gesetz der kleinen Zahlen
Daniel Kahneman und Amos Tversky prägten 1971 den Begriff des Gesetzes der kleinen Zahlen — in bewusster Anlehnung an das statistische Gesetz der großen Zahlen. Das echte Gesetz besagt: Je größer die Stichprobe, desto näher nähert sich ein beobachtetes Ergebnis dem wahren Durchschnittswert der Grundgesamtheit. Das falsche "Gesetz der kleinen Zahlen" ist unsere intuitive Überzeugung, dass auch kleine Stichproben schon repräsentative Ergebnisse liefern — dass zehn Münzwürfe bereits ebenso zuverlässig "50/50" zeigen wie zehntausend.
Statistisch ist das schlicht falsch. In einer kleinen Stichprobe hat Zufall mehr Gewicht. Wenn in einem Dorf mit 20 Kindern in einem Jahr 14 Mädchen geboren werden, bedeutet das nichts — außer vielleicht, dass das Dorf ein gutes Gesprächsthema hat. In einem Land mit 800.000 Geburten wäre ein Verhältnis von 14:6 ein weltbewegendes Ereignis. Kleine Stichproben schwanken stärker, und wir interpretieren diese Schwankungen fälschlicherweise als bedeutungsvolle Signale.
Die kognitive Verzerrung heißt Stichprobenunempfindlichkeit (englisch: insensitivity to sample size): Unser Gehirn gewichtet die Stichprobengröße kaum — wir reagieren auf Prozentzahlen oder Quoten, ohne zu fragen, wie viele Fälle dahinterstecken.
Das Krankenhaus-Experiment
Das eingangs erwähnte Krankenhaus-Experiment stammt direkt aus Kahnemans und Tverskys Forschung. Sie legten Probanden folgendes Szenario vor: Beide Krankenhäuser haben ein Jahr lang die Tage gezählt, an denen mehr als 60 % der Neugeborenen männlich waren. Welches Krankenhaus hatte mehr solcher Tage?
Die meisten Teilnehmer sagten: "Etwa gleich viele" — denn die zugrunde liegende Wahrscheinlichkeit (50 % für jedes Geschlecht) sei ja dieselbe. Das ist korrekt. Aber die Antwort "etwa gleich viele" ist trotzdem falsch.
Das kleine Krankenhaus hatte an deutlich mehr Tagen extreme Abweichungen. Der Grund: Bei 15 täglichen Geburten reichen schon zwei oder drei "Zufallsausreißer", um über die 60-%-Marke zu kommen. Bei 45 Geburten gleichen sich Zufallsschwankungen viel stärker aus. Kleine Stichproben produzieren per se mehr Extremwerte — und das ist reine Mathematik, keine Besonderheit der Situation.
Bewertungsplattformen: Fünf Sterne, fünf Personen
Niemand klickt an einem Freitagabend bewusst auf ein Statistik-Experiment — aber wir alle erleben Stichprobenunempfindlichkeit täglich auf Plattformen wie Google Maps, Amazon, TripAdvisor oder Booking.com.
Ein kleines Gasthaus in der Uckermark hat auf Google 4,9 Sterne — bei 11 Bewertungen. Das Konkurrenzlokal eine Straße weiter hat 4,2 Sterne — bei 847 Bewertungen. Welches ist wahrscheinlich besser? Intuitiv zieht die 4,9-Wertung. Statistisch ist sie bedeutungslos: Elf Bewertungen reichen nicht aus, um einen zuverlässigen Eindruck zu erzeugen. Vielleicht haben nur die Stammgäste bewertet. Vielleicht war die Inhaberin im Urlaub und alles lief ausnahmsweise reibungslos. Vielleicht bewerteten tatsächlich neun Touristen und zwei enttäuschte Vegetarier, die trotz allem nett waren.
Das Restaurant mit 847 Bewertungen und 4,2 Sternen hat sein Rating über Tausende von Gästen hinweg verdient. Die 0,7 Sterne Unterschied sind kein realer Qualitätsunterschied — sie sind ein statistisches Artefakt der Stichprobengröße.
Plattformen wie Amazon haben das Problem erkannt und zeigen inzwischen "verifizierte Käufer", Verteilungshistogramme und gewichtete Durchschnitte. Dennoch reagieren Nutzer weiterhin stärker auf Sternezahlen als auf die Frage dahinter: Wie viele Bewertungen stützen diesen Wert?
A/B-Tests: Das Fallstrick der schnellen Entscheidung
In der digitalen Produktentwicklung ist der Stichprobenumfang-Bias besonders teuer. A/B-Tests — bei denen zwei Varianten einer Website, App oder E-Mail gegeneinander getestet werden — erfordern ausreichend Datenpunkte, um statistische Aussagekraft zu erreichen. Doch der Druck, schnell Ergebnisse zu sehen, ist groß.
Ein typisches Szenario: Eine neue Button-Farbe wird getestet. Nach zwei Tagen liegt Variante B 8 % vor Variante A. Der Produktmanager schließt den Test, erklärt Variante B zum Gewinner — und implementiert sie. Was er nicht bedacht hat: Bei der vorliegenden Datenmenge liegt die statistische Signifikanz noch deutlich unter dem nötigen Schwellenwert. Die beobachtete Differenz ist mit hoher Wahrscheinlichkeit purer Zufall.
Das klassische Konzept dafür ist der p-Wert und die erforderliche Teststärke (statistical power). Grob gesagt: Ohne ausreichende Stichprobengröße erhält man keine verlässlichen Aussagen darüber, ob ein beobachteter Unterschied real oder zufällig ist. Wer Tests zu früh abbricht, weil das Ergebnis "gut aussieht", implementiert zufällige Schwankungen als Produkt-Feature.
Das paradoxe Gegenstück: Wenn das Ergebnis nach zwei Tagen "nicht gut aussieht", wird der Test ebenfalls oft abgebrochen — bevor er zu einem anderen, vielleicht tatsächlich signifikanten Ergebnis hätte kommen können.
Umfragen und politische Meinungsforschung
Umfragen mit kleinen Stichproben sind ein weiteres Alltagsbeispiel. Eine Befragung von 200 Personen wird mit ähnlicher Autorität zitiert wie eine mit 2.000 — obwohl der statistische Fehlerbereich sich erheblich unterscheidet. Bei 200 Befragten liegt der Fehlerbereich bei etwa ±7 %, bei 2.000 bei ±2 %. Wenn in einer kleinen Umfrage 52 % der Befragten Partei X bevorzugen, ist das tatsächlich statistisch von 48 % kaum zu unterscheiden.
Medien berichtenüber Umfrageresultate, als hätte jeder Prozentwert die Präzision einer Vermessung. Die Stichprobengröße taucht manchmal in einem Fußnotenhinweis auf — selten im Fließtext, nie in der Überschrift.
Warum unser Gehirn Stichprobengrößen ignoriert
Die kognitive Wurzel liegt in der Art, wie wir Informationen verarbeiten. Unser intuitives System — das schnelle, assoziative Denken — arbeitet mit Mustern und Quoten, nicht mit statistischen Konzepten. "60 % der Fälle" klingt nach Information. "60 % aus einer Stichprobe von 10" klingt nach derselben Information. Der Unterschied — dass aus n=10 schlicht keine zuverlässigen Rückschlüsse möglich sind — ist ein abstrakt-mathematisches Konzept, das aktives, langsames Denken erfordert.
Kahneman nennt diesen Mechanismus WYSIATI — "What You See Is All There Is". Wir bauen unser Urteil aus dem vorliegenden Material, ohne systematisch nach dem zu fragen, was fehlt. Und was uns fehlt — die Information, wie groß die Stichprobe war — ist für das Urteil entscheidend.
Dazu kommt die Bestätigungsverzerrung: Wenn wir eine Aussage sehen ("dieses Produkt ist exzellent"), suchen wir nicht aktiv nach Gründen, warum sie unzuverlässig sein könnte. Wir nehmen sie als gegeben und suchen eher nach bestätigenden Beispielen.
Was hilft: Stichprobengrößen aktiv sehen
Die gute Nachricht: Der Bias lässt sich durch einfache kognitive Gewohnheiten erheblich reduzieren.
- Frage automatisch nach n: Hinter jedem Prozentwert, jeder Quoten-Aussage, jedem Durchschnitt steht eine Stichprobengröße. Machen Sie es zur Gewohnheit zu fragen: Wie viele Fälle liegen dieser Aussage zugrunde?
- Misstrauen bei kleinen Stichproben: Als Faustregel gilt in der Statistik: unter n=30 sind robuste Aussagen kaum möglich, unter n=100 bleibt der Fehlerbereich erheblich. Weniger als n=1.000 bei Umfragen mit gesellschaftlichen Aussagen sind mit Vorsicht zu genießen.
- Bewertungen richtig lesen: Nicht nur auf die Sternezahl schauen, sondern auf die Anzahl der Bewertungen und die Verteilung (viele 5 und 1 Sterne bei wenig 3 Sternen ist ein Warnsignal für manipulierte Bewertungen).
- A/B-Tests: Sample-Size-Rechner nutzen: Vor dem Start eines Tests die nötige Stichprobengröße berechnen. Erst testen, wenn diese Zahl erreicht ist. Keinen laufenden Test auf Basis früher Ergebnisse abbrechen.
- Regression zur Mitte kennen: Extreme Ergebnisse in kleinen Stichproben tendieren dazu, sich bei weiterer Messung dem Mittelwert anzunähern. Der Spitzenreiter von heute ist statistisch gesehen morgen oft Durchschnitt — nicht weil er schlechter wurde, sondern weil die Stichprobe größer geworden ist. Mehr dazu im Artikel zur Regression zur Mitte.
Fazit
Stichprobenunempfindlichkeit ist einer der unauffälligsten kognitiven Biases — weil Zahlen Objektivität suggerieren. "83 % der Befragten sagten X" klingt nach harter Tatsache, unabhängig davon, ob 6 oder 6.000 Menschen befragt wurden. Wer gelernt hat, automatisch nach der Stichprobengröße zu fragen, hat einen echten Erkenntnisvorsprung — in der Produktentwicklung, beim Lesen von Studien, beim Bewerten von Bewertungen und beim Einschätzen von Umfragen.
Das Gesetz der kleinen Zahlen ist kein echtes Gesetz. Es ist eine Falle — und sie schnappt häufiger zu, als wir denken.
Quellen & Weiterführendes
- Tversky, Amos & Daniel Kahneman. "Belief in the Law of Small Numbers." Psychological Bulletin, 76(2), 1971, S. 105–110.
- Kahneman, Daniel. Thinking, Fast and Slow. Farrar, Straus and Giroux, 2011. (Deutsch: Schnelles Denken, langsames Denken. Siedler, 2012.)
- Gigerenzen, Gerd. Heuristics: The Foundations of Adaptive Behavior. Oxford University Press, 2011.
- Sedlmeier, Peter & Gerd Gigerenzer. "Do People Ignore Sample Size?" Psychological Bulletin, 115(1), 1994, S. 52–75.
- Optimizely. "Statistical Significance in A/B Testing." optimizely.com
- Wikipedia: Gesetz der großen Zahlen