Statistik (PM)
There are lies, there are damned lies, and there is the statistic…
Ein Hase auf dem Feld. Plötzlich zwei Schüsse. Einer geht rechts am Hasen vorbei, der andere links. Das Tier fällt tot um. Es wurde nicht von den Kugeln erwischt, die haben ja gar nicht getroffen. Es wurde vom »Mittelwert« getötet. Denn wenn man einmal rechts und einmal links am Hasen vorbeischießt, ist der Hase in der Mitte statistisch gesehen tot.
Was lehrt uns das Beispiel von Meister Lampe? Dass der Unterschied zwischen Statistik und Realität über Leben und Tod entscheiden kann. Wenn von zehn Patienten, die an derselben Krankheit leiden, einer stirbt, geht der Arzt ja auch nicht durchs Wartezimmer, zählt neun ab, und der zehnte bricht tot zusammen. Die Tatsache allein, dass eine Zahl vom Statistischen Bundesamt kommt, ist zwar nicht unweigerlich der Beweis für ihre Unrichtigkeit. Aber das ist gerade das Gefährliche an Statistiken: Die Zahlen sind absolut zutreffend, und trotzdem sagen sie nicht die Wahrheit.
Da ist zum Beispiel die Geschichte mit den Mittelwerten, Statistiken lieben Mittelwerte, weil sie unendlich viele Zahlen zu einem griffigen Wert zusammenfassen: Das Durchschnittseinkommen, die durchschnittliche Lebenserwartung, der Wochendurchschnitt beim Zigarettenkonsum, der Monatsdurchschnitt beim Sex, der Jahresdurchschnitt bei den Verkehrsunfällen. Eine feine Sache!
Denkste! Mit Durchschnittswerten ist das so . Wenn man sein rechtes Bein in kochendes Wasser stellt und sein linkes in Eis, steht man statistisch gesehen in warmem Wasser, im richtigen Leben ist man ein Fall fürs Krankenhaus, Der uns geläufigste Mittelwert wird gebildet, indem man alle Einzelwerte addiert und dann durch ihre Anzahl teilt. Das nennt man arithmetisches Mittel. Dank seiner gibt es so viele unvollständige Kinder, denn durch die Division kommt man im Schnitt auf krumme 1,4 Kinder pro Familie.
In einem Betrieb mit sechs Personen verdienen drei 2000 Euro im Monat und drei 4000 Euro, Im arithmetischen Mittel bekommt also jeder 3000 Euro. Aber was ist, wenn von den sechs Mitarbeitern einer 13 000 Euro verdient und jeder andere schlappe 1000 Euro? Oder einer kriegt
18 000 Euro und die anderen gar nichts? Auch dann sagt die Statistik, dass jeder in der Firma im Schnitt anständige 3000 Euro bekommt. Eine solche Statistik ist also rechnerisch wahr, und trotzdem gibt sie die Realität nicht wieder. Das liegt daran, dass diese Art von Durchschnittswert nicht beachtet, wie die einzelnen Zahlen um den Mittelwert herum gestreut liegen. Ob alle in etwa gleich weit vom Durchschnitt entfernt sind oder ob eine krass nach oben ausreißt und alte anderen ganz unten liegen das interessiert das arithmetische Mittel nicht die Bohne. Die Folge: Je größer die Ausreißer nach oben, desto mehr wird das durchschnittliche Einkommen geschönt. Denn die großen Zahlen haben im arithmetischen Mittel natürlich ein extrem starkes Gewicht.
Wenn also ein Arbeitgeberverband bei Tarifverhandlungen mit einem bereits hohen Durchschnittseinkommen der Arbeitnehmer argumentieren will, ist er gut beraten, das arithmetische Mittel zu ziehen: Die Spitzengehälter in der Führungsetage lassen die finanzielle Situation der Mitarbeiter besser erscheinen, als sie ist. Das arithmetische Mittel ist sozusagen eine Gehaltserhöhung für das Gros der Beschäftigten, die den Chef nichts kostet.
Eine andere Möglichkeit, Mittelwerte zu bestimmen, ist der so genannte Median. Dabei muss man nicht einmal rechnen. Man schreibt einfach alle Zahlen in aufsteigender Größe nebeneinander und schaut, welche in der Mitte steht. Wenn man drei Kindern fünf, sechs und sieben Euro Taschengeld gibt, sieht die Reihe so aus: 5 6 7. Die Sechs steht in der Mitte, also kriegt jedes Kind im Schnitt sechs Euro. Bei einer geraden Anzahl von Zahlen (etwa 5 6 7 9) darf man einen der beiden mittleren Werte (6 oder 7) nehmen oder zwischen diesen beiden das arithmetische Mittel bilden. Der Vorteil des Medians: Ausreißer fallen nicht so ins Gewicht. Bekommt z. B. das eine Kind statt sieben 70 Euro, sieht die Reihe so aus: 5 6 70; die mittlere Zahl, also der Median, ist weiter die Sechs. Das arithmetische Mittel (insgesamt 81 Euro geteilt durch 3) läge jetzt schon bei 27 Euro!
Will also ein Arbeitnehmerverband beweisen, dass Angestellte und Arbeiter zu wenig verdienen, berechnet er das Durchschnittseinkommen am besten mit dem Median. Bei unserer kleinen Firma mit ihren sechs Angestellten sieht das dann so aus: Wenn einer von ihnen 13 000 Euro absahnt und alle anderen nur 1000 Euro kriegen, kommen die Arbeitgeber auf ein Durchschnittsgehalt von stattlichen 3000 Euro (arithmetisches Mittel), die Arbeitnehmer nur auf 1000 Euro (Median). 2000 Euro Unterschied und beide Ergebnisse sind statistisch korrekt ermittelt.
So lässt sich mit Zahlen vortrefflich Politik machen. Zuweilen kann das beängstigende Ausmaße annehmen, zum Beispiel wenn es um »Ausländerkriminalität« geht. Jahr für Jahr besagt die Statistik. dass Ausländer, gemessen an ihrem Anteil an der Bevölkerung, einen überproportional hohen Prozentsatz der verurteilten Straftäter stellen. Die Zahl stimmt die Realität ist dennoch anders. Denn mitgerechnet werden bei den Ausländern auch Touristen, Durchreisende, illegal Eingewanderte, Nato Soldaten und Personen, die nur eingereist sind, um eine Straftat zu begehen. Ein weiterer verfälschender Faktor bei dieser Rechnung: Mitgezählt werden auch Straftaten, die überhaupt nur von Ausländern begangen werden können: Verstöße gegen das Ausländergesetz oder das Asylverfahrensgesetz.
Außerdem unterschlägt die Rechnung, dass es nach Untersuchungen des Kriminologischen Forschungsinstituts Niedersachsen einen Zusammenhang zwischen sozialer Lage und Straffälligkeit gibt.
Diebstahl und Raub zum Beispiel werden überwiegend von arbeitslosen männlichen Jugendlichen in Großstädten begangen die sind aber unter den Ausländern überproportional vertreten, sodass der Vergleich zwischen deutschen und ausländischen Straftätern hinkt.
Kann Statistik Betrug sein? Sie kann wenn sie von der Parallelität zweier Tatbestände (Korrelation) auf eine Kausalität zwischen beiden (die eine Größe steuert die andere) schließt. Bekanntes Beispiel: Klapperstörche und Geburtenrate. Nehmen wir mal an, in Schweden ist die Geburtenrate besonders hoch, ebenso die Zahl der Störche; in einem Vergleichsort wie Berlin ist die Geburtenrate sehr niedrig, und es gibt wenig Störche: Daraus könnte man schließen, dass die Störche die Kinder zur Welt bringen. Tatsächlich gibt es hier und da eine gleichzeitige Zunahme von Storchen und Kinderzahl aber beide Tatbestände hängen nicht ursächlich miteinander zusammen, sondern sind jeder für sich die Folge einer dritten Größe: In Schweden ist es besonders ländlich. Störche haben auf dem Land größere Überlebenschancen, und Menschen kommen hier auf eine höhere Geburtenrate als in Großstädten.
Mit der Klapperstorch Logik kann man statistisch auch nachweisen, dass Männer mit weniger Kopfhaar mehr Geld verdienen. Die Wahrheit: Männer mit Haarschwund sind älter, und Ältere verdienen mehr. Falsch war auch die Statistik, derzufolge Linkshänder im Schnitt neun Jahre früher sterben als Rechtshänder. Das US Institute of Aging fand die Mängel des Zahlenwerks heraus: Unter den alten Menschen gibt es kaum noch Linkshänder, weil sie sich inzwischen an die rechtshändig orientierte Gesellschaft angepasst haben diese Gruppe wurde einfach nicht mehr registriert.
Zahlen verleiten oft zu Fehlschlüssen. Eine amerikanische Zeitung hat einmal berichtet, dass es in New York sicherer ist, im Central Park zu übernachten als in seiner Wohnung. Diese Meldung fußte auf einer Statistik, wonach die meisten Gewaltverbrechen zu Hause passieren. Das stimmt auch aber nur deshalb, weil man sich zu Hause viel häufiger aufhält als in' einem Park. Man könnte sich ja auch weigern, sich zum Schlafen ins Bett zu legen, weil die meisten Menschen im Bett sterben. Beunruhigend auch, dass die Mehrzahl der Menschen in einem Krankenhaus das Zeitliche segnet sollten wir nicht mehr ins Hospital gehen? Der Denkfehler: Nicht weil sie ins Krankenhaus gehen, sterben sie , sondern weil sie krank sind, gehen sie ins Krankenhaus, wo sie an einer Krankheit auch sterben können.
Der Statistiker Walter Krämer hat 1990 eine Boulevard Schlagzeile erfunden, die hätte man sie veröffentlicht statistisch korrekt gewesen wäre: »Alarm! Bundesliga Fußballspieler werden keine 65 Jahre alt!« Krämer »Die Fußball Bundesliga existiert seit 1963. Die ältesten Spieler waren damals Mitte 30 und damit 1990 unter 65. Mit anderen Worten, alle bis dato aus welchen Gründen auch immer verstorbenen Spieler Alkohol, Herzinfarkt, Verkehrsunfall, eben alles, was uns auch schon in jungen Jahren bedroht können bei ihrem Tod noch keine 65 Jahre alt gewesen sein; sie starben aber nicht an den Spätfolgen des Fußballspiels, sondern weil es in dieser Risikogruppe keine älteren Personen gab.«
Manchmal gaukeln uns vollkommen korrekte Zahlen auch etwas Falsches vor, weil wir an Rechenschwäche leiden. Vor ein paar Jahren warben amerikanische Elektrizitätsgesellschaften für gute Straßenbeleuchtung mit folgender Statistik: In den USA seien 96 Prozent der innerörtlichen Straßen schlecht beleuchtet, und dort würden 88 Prozent der Verbrechen verübt. Also würde eine gute Beleuchtung Verbrechen verhindern. Tatsächlich? Im Umkehrschluss besagt die Statistik ja wohl, dass in vier Prozent der gut beleuchteten Straßen 12 Prozent der Verbrechen geschehen. Legt man einmal 100 Straßen zu Grunde, bedeutet das: Bei schlechter Beleuchtung gibt es im Schnitt weniger als ein Verbrechen pro Straße (88 Verbrechen geteilt durch 96 Straßen). Auf gut beleuchteten Straßen kommt es dagegen zu drei Verbrechen pro Straße (12 durch 4). Die Zahlen der Elektrizitätswerke beweisen also in Wirklichkeit genau das Gegenteil: Im Licht lebt man gefährlicher.
Eine ähnliche Tücke ist das »Simpsonsche Paradoxon«, benannt nach einem britischen Statistiker. Es lässt sich am besten durch ein Beispiel darstellen: Im Jahr 2001 hatte die Abteilung A einer Firma 10 Angestellte, darunter eine Frau (10 Prozent) , Abteilung B hatte 30 Mitarbeiter, darunter 15 Frauen (50 Prozent). Im Jahr 2002 wurde neues Personal eingestellt. Abteilung A zählt nun 120 Leute, davon 24 Frauen (20 Prozent), Abteilung B 40 Mitarbeiter, darunter 24 Frauen (60 Prozent). Der Anteil der weiblichen Angestellten hat in jeder der beiden Abteilungen zugenommen so gerechnet ein frauenfreundlicher Betrieb. Rechnet man aber den Frauenanteil an der gesamten Belegschaft aus, ergeben sich 40 Prozent für 2001 und nur 30 Prozent für 2002. Die Firma steht jetzt als frauenfeindlich da. Schuld an diesem Paradoxon ist Abteilung A, die überproportional gewachsen ist und einen gestiegenen, aber weiterhin geringen Frauenanteil hat, der das Gesamtergebnis drückt. Fehlrechnungen, die das »Simpsonsche Paradoxon« nicht berücksichtigen, stecken z. B. in Statistiken, die behaupten, dass Frauen im Doktorexamen insgesamt häufiger scheitern (tatsächlich promovieren sie in fast allen Studienfächern erfolgreicher) oder dass im Zweiten Weltkrieg die Frauenquote in fast jedem Industriezweig der USA anstieg (tatsächlich sank der Gesamtfrauenanteil).
Wie eklatant Rechenschwäche Statistiken verfälschen kann, zeigt auch folgendes Beispiel. Man findet auf der Straße einen 10 Eurch Schein und steckt ihn ins Portmonee zu einem 20 Euro Schein ein Gewinn von 50 Prozent. Dann verliert man von den 30 Euro wieder 10 Euro ein Verlust von 33 Prozent. Dennoch hat man ein Plus gemacht: Dem Gewinn von 50 Prozent steht ein Verlust von 33 Prozent gegenüber verbleiben 17 Prozent mehr als vorher. Hübsch. Aber falsch. Der Fehler liegt darin, dass die Prozentsätze von unterschiedlichen Basiswerten errechnet wurden: erst von 20, dann von 30 Euro.
Statistiken sind natürlich besonders dann interessant, wenn sie uns scheinbar Voraussagen für die Zukunft ermöglichen. Wie groß ist die Chance, dass man das Radio anschaltet und von seinem Lieblingslied gerade noch die letzten Takte hört? Oder dass man im Supermarkt immer in der Kundenschlange steht, die am langsamsten vorankommt? Oder dass ein gekauftes Produkt einen Tag nach Ablauf der Garantie kaputt geht? Oder dass jemand, an den man gerade denkt, in dem Moment anruft? Oder dass man im Lotto gewinnt?
Nehmen wir den Lottogewinn. Es gibt eine Menge Computerprogramme, die einem genau ausrechnen, welche Zahlen häufig gezogen wurden und welche statistisch gesehen wieder fällig sind. Man kann solche Software getrost in den Mülleimer werfen sie ist total wertlos. Natürlich weiß der Computer, welche Zahlen lange nicht dran waren aber weiß die Lottomaschine das auch? Bei 6 aus 49 Zahlen beträgt die Wahrscheinlichkeit, sechs Richtige zu tippen, 1:13983816, also 0,000 000 0715 mit oder ohne Computerprogramm. Die Chance, in Deutschland innerhalb eines Jahres vom Blitz getötet zu werden, liegt bei 0,000 001 ist also deutlich größer.
Und was ist mit der Wahrscheinlichkeit, dass jemand anruft, an den man soeben gedacht hat? Viele, denen das passiert, werten es als Beweis für telepathische Kräfte (und unterschlagen gern all die Jahre, in denen niemals ein solcher Anruf kam. In Wirklichkeitt steckt hinter diesem Phänomen reine Statistik. Der amerikanische Mathematiker Alexander Dewdney hat ausgerechnet: Wenn man 200 Leute kennt, täglich an zehn von ihnen einen Gedanken verschwendet und pro Tag im Durchschnitt zwei Anrufe bekommt dann beträgt die Wahrscheinlichkeit 0,05, dass jemand anruft, an den man soeben gedacht hat. Das ist deutlich mehr als die Chance auf einen Lottogewinn. Nach zehn Jahren liegt die Chance auf einen solchen Anruf schon bei 0,52 es ist also etwas wahrscheinlicher, dass er kommt, als dass er ausbleibt. Der »telepathische« Anruf ist mithin statistisch wahrscheinlicher, als man immer denkt; der Lottogewinn hingegen statistisch unwahrscheinlicher, als man hofft.
Übrigens: Um falsche Statistik geht es auch bei der Aussage, dass ein zu Boden fallendes Butterbrot mit einer Wahrscheinlichkeit von 50 Prozent auf die beschmierte Seite fällt. Ein Fernsehmoderator hatte 1991 genau 300 Scheiben in die Luft geworfen, und dabei fiel tatsächlich rund die Hälfte auf die Oberseite. Die Statistik ist trotzdem falsch, weil sie sich nicht auf geworfene Butterbrote bezieht, sondern auf Scheiben, die einfach vom Tisch fallen. Für diesen Fall hat der britische Mathematiker Ian Steward nachgewiesen, dass statistisch gesehen ein Butterbrot mit 78 Prozent Wahrscheinlichkeit auf der Oberseite landet das ist weit mehr als die behaupteten 50 Prozent. Der Grund . Die Brotscheibe rotiert und hat auf dem Weg von der Tischkante zum Boden meistens nur Zeit für eine 180 Grad Drehung, normale Tischhöhe vorausgesetzt. Diese im wahrsten Sinne des Wortes Fall Studie hat auch ergeben, dass ein drei Meter hoher Tisch das Problem verschmutzter Teppiche durch heruntergefallene belegte Brote verhindern kann.
Am kritischsten sollte man Statistiken begegnen, die auf Umfragen beruhen. Schon die Auswahl der befragten Gruppe kann das Ergebnis manipulieren. Wer am Flughafen fragt: »Wie viel verdienen Sie im Monat?«, darf die Antworten nicht als repräsentativ für die gesamte Bevölkerung ausgeben, weil Überdurchschnittlich viele Gutverdienende mit dem Flugzeug reisen. Die amerikanische Militärregierung ließ nach dem Krieg in Deutschland den Ernährungszustand der Deutschen ermitteln und stellte dafür Waagen an Bahnhöfen und öffentlichen Plätzen auf ausschließlich gesunde Menschen gerieten in die Stichprobe, hungernde Bettlägerige nicht.
Auch die Fragetechnik kann Statistiken verfälschen. Fragte man Firmenchefs, ob sie etwas dagegen hätten, wenn ihre Angestellten beim Arbeiten essen, würden sie wohl mit »Ja« antworten. Fragte man sie, ob sie etwas dagegen hätten, wenn ihre Angestellten beim Essen arbeiten, würden sie eher mit »Nein« antworten. Eine Umfrage über »Abtreibung« fällt anders aus als eine zum Thema »Schutz des ungeborenen Lebens«. Bei anderen Umfragen kann man nicht von vornherein mit ehrlichen Antworten rechnen: Duschen Sie jeden Tag? Lesen Sie gern mal ein gutes Buch? Schlagen Sie Ihre Kinder?
Die amerikanische »Randomized Response« Technik gewährleistet hier mehr Realitätsnähe, denn sie ermöglicht Antworten ohne Gesichtsverlust. Der Befragte zieht Fragen aus einem Stapel und antwortet mit Ja oder Nein aber der Interviewer weiß nicht, auf welche Fragen sich die Antworten beziehen. Die Karten kommen in der Reihenfolge, in der die Fragen beantwortet wurden, auf einen Stapel; der Interviewer notiert die Ja und Nein Antworten ebenfalls chronologisch hinterher führt man Fragen und Antworten anonym wieder zusammen. In Amerika hatten 3,5 Prozent der befragten Eltern zum Beispiel zugegeben, dass sie ihre Kinder schlagen , mit der Randomized Response Technik kam plötzlich ein Wert von 15 Prozent heraus.
Unscharf wird jede Statistik, wenn sie mit schwammigen Begriffen hantiert, etwa: »Ist Fliegen sicher?« Was ist mit »sicher« gemeint? Statistisch gesehen ist Fliegen sicherer als Autofahren, hört man immer: Auf eine Milliarde Passagierkilometer kommen im Flugverkehr nur 0,3 Tote, beim Autofahren sind es vier. Legt man in der Statistik aber nicht die zurückgelegten Kilometer zu Grunde, sondern die Anzahl der Reisen, sieht das Bild ganz anders aus . Auf eine Milliarde Flüge kommen 55 Tote, auf eine Milliarde Autofahrten 45. Deshalb muss man sich bei Statistiken zum Thema Sicherheit stets vergegenwärtigen, ob eine Fluglinie sie aufgestellt hat oder ein Autoverband, Unklarheit darüber, worauf sich ein Zahlenwerk genau bezieht, war jüngst auch die Ursache für die hitzige Diskussion um die Arbeitslosenstatistik. Es ist halt Definitionssache, wen man als »arbeitslos« mitzählt und wen nicht. Würde man zum Beispiel alle arbeitswilligen Menschen über 65 Jahre einbeziehen, schössen die Arbeitslosenzahlen in die Höhe.
Erstaunlicherweise scheint es aber auch Zahlenverkäufer zu geben, die nicht an ihre eigenen Zahlen glauben. In den USA warb ein Energieversorger damit, dass seine neuen Glühlampen 200 Prozent an Energie einsparten. Wörtlich genommen würde das bedeuten: Die Lampe kommt nicht nur ohne Energie aus sie liefert auch noch weitere 100 Prozent Energie! Ein Kunde, der rechnen konnte, rief daraufhin bei dem Unternehmen an und wollte seine Kontonummer durchgeben, weil er mit der neuen Birne ja Energie ins Netz einspeise. Die Antwort: »Wir zahlen nichts!« Hier hatte wohl jemand der eigenen Statistik misstraut er wird gewusst haben, warum!
INTERNET ADRESSEN
Statistik-Links der Universität Köln: www.uni-koeln.de/themen/Statistik
Statistisches Bundesamt: www.destatis.de
Zentralarchiv für Empirische Sozialforschung: www.social-science-gesis.de/ZA/index.htm
Quelle: Andreas Séché: PM-Magazin (Juni 2002) p.83 "Haben Sie auch 1,4 Kinder?"