Benfordsches Gesetz: Die übermächtige Eins

Die fabelhafte Welt der Mathematik: Die übermächtige Eins

Zufällige Zahlen sind nicht immer gleich verteilt. Warum die Eins in vielen Fällen dominiert, lässt sich mathematisch erklären – zum großen Bedauern einiger Steuerbetrüger.

von Manon Bischoff

Die übermächtige Eins — © VPanteon / Getty Images / iStock (Ausschnitt)

Wie wäre es mit einer Wette: Wir schlagen ein Magazin von »Spektrum der Wissenschaft« auf, und wenn die erste Zahl, auf die wir stoßen, mit einer Ziffer größer als drei beginnt, gebe ich Ihnen 50 Euro. Wenn 1, 2 oder 3 am Anfang stehen, kriege ich dagegen 50 Euro von Ihnen. Nehmen Sie diese Wette an? Auf den ersten Blick wirkt es so, als solle man den Deal eingehen – schließlich gewinne ich nur in drei von neun Fällen, während doppelt so viele Ziffern auf Ihrer Seite sind.

Dennoch wären Sie gut beraten, die Wette abzulehnen. Tatsächlich habe ich nämlich eine etwa 60 Prozent höhere Chance zu gewinnen. Kaum zu glauben, aber wahr: Denn üblicherweise sind die Zahlen in Zeitschriften nicht gleich verteilt, sondern folgen dem so genannten benfordschen Gesetz. Demnach tauchen in realen Datensätzen kleinere Ziffern am Anfang einer Zahl häufiger auf als große.

Viele Menschen denken, Mathematik sei kompliziert und öde. In dieser Serie möchten wir das widerlegen – und stellen unsere liebsten Gegenbeispiele vor: von schlechtem Wetter über magische Verdopplungen bis hin zu Steuertricks. Die Artikel können Sie hier lesen; viele davon können Sie auch im Podcast »Geschichten aus der Mathematik« hören.

Das fiel erstmals dem kanadisch-US-amerikanischen Astronomen Simon Newcomb im Jahr 1881 auf. Da es damals noch keine Taschenrechner gab, musste er für seine Arbeit häufig Bücher voll mit Logarithmentafeln wälzen. Und wie er bemerkte, waren die Seiten für Zahlen, die mit einer Eins beginnen, viel abgegriffener als für solche, die mit einer Neun starten. Der Forscher gab sogar eine Formel für die Wahrscheinlichkeitsverteilung einer Ziffer N an: log(N + 1) – log(N), und veröffentlichte das Ergebnis im Fachmagazin »Journal of Mathematics«. Doch sein Fachaufsatz erregte kaum Aufmerksamkeit und geriet schnell in Vergessenheit.

Erst 57 Jahre später stieß der Physiker Frank Benford wieder auf den seltsamen Zusammenhang – lustigerweise auf genau die gleiche Weise: Er wunderte sich über die Abnutzung der vorderen Seiten von Logarithmentafeln. 1938 formulierte er das Gesetz nochmals und veröffentlichte es ebenfalls. In seiner Arbeit überprüfte er seine Behauptung anhand von 20 229 Beispieldaten. Dafür untersuchte er die Oberfläche von 335 Flüssen, die Bevölkerung von 3259 US-Städten, 104 Naturkonstanten, 1800 molare Massen, 5000 Einträge eines mathematischen Handbuchs, 308 Zahlen innerhalb einer Ausgabe des Magazins »Reader's Digest« und die Hausnummern der ersten 342 Personen in einem Telefonbuch.

Wo Benfords Entdeckung gilt - und wo nicht

In all diesen grundverschiedenen Daten erkannte er den vorhergesagten logarithmischen Zusammenhang: Kleine Ziffern tauchten am Anfang einer Zahl sehr viel häufiger auf als größere. Manche Datensätze schienen der später als benfordsches Gesetz bekannten Regel besser zu folgen als andere – doch die meisten wiesen zumindest eine annähernd logarithmische Verteilung auf.

Natürlich gibt es Ausnahmen: Beispielsweise gehorcht die Körpergröße von Erwachsenen nicht dieser Regel – dort ist die Eins viel stärker überrepräsentiert. Die Zahlen auf Autokennzeichen entziehen sich dem Gesetz ebenfalls, denn sie werden in manchen Ländern gleich verteilt vergeben. Und auch Telefonnummern folgen offensichtlich anderen Mustern.

Damit das benfordsche Gesetz zur Geltung kommt, müssen die Datensätze offenbar umfangreich sein und Zahlen verschiedener Größenordnungen enthalten. Doch wie lässt sich diese seltsame Verteilung überhaupt begründen? Tatsächlich spielen mehrere Faktoren eine Rolle, aber es gibt eine bemerkenswert einfache und anschauliche Erklärung für das Phänomen.

Betrachtet man einen Datensatz mit Zahlen unterschiedlicher Größe, kann man diese zunächst einmal gruppieren. Im Intervall von 1 bis 9 kommt jede Zahl gleich häufig vor. Bei Zahlen zwischen 1 und 19 ist die Eins als Anfangsziffer hingegen elfmal vertreten, während alle anderen nur einmal auftauchen. Erweitert man das Intervall bis 29, sind 1 und 2 deutlich häufiger als die anderen. Erst wenn man wieder alle Werte bis 99 betrachtet, hat auch die 9 aufgeholt. Aber in keinem dieser Intervalle taucht die 9 häufiger auf als irgendeine andere Ziffer. Der gleiche Zusammenhang ergibt sich für Hunderterschritte, Tausenderschritte und so weiter. Daher ist es nicht überraschend, dass in Datensätzen, die beispielsweise die Größe von etwas bemessen, kleine Ziffern an erster Stelle vermehrt vorkommen.

Diese Überlegung lässt sich formalisieren und führt in der Tat zur benfordschen Verteilung. Dazu bestimmt man den Anteil aller Zahlen innerhalb eines Intervalls von eins bis n, die mit einer Eins beginnen (f₁(n)), sowie jener, die mit einer Zwei starten (f₂(n)) et cetera. Wie sich herausstellt, sind die Zahlenfolgen f nicht konvergent, das heißt, für große Zahlen n nehmen die fs keinen festen Wert an, sondern schwanken zwischen verschiedenen Werten hin und her. Für f₁(n) ergibt sich etwa ein Ergebnis zwischen 1/9 und 5/9, für f₉(n) hingegen zwischen 1/81 und 1/9.

Auch der Zufall ändert daran nichts

Um diese Schwankungen in den Griff zu bekommen, kann man den Mittelwert s₁ über verschiedene Intervalllängen bilden. Das bedeutet: Man berechnet zunächst den Anteil aller Zahlen zwischen 1 und 1, die mit einer Eins beginnen, addiert den Anteil derjenigen zwischen 1 und 2 dazu, anschließend zwischen 1 und 3 und so weiter, bis man wieder beim ursprünglichen Intervall zwischen 1 und n angelangt ist – und teilt das Ergebnis dann durch n: s₁(n) = [f₁(1) + f₁(2) + … + f₁(n)]/n.

Diese Folge konvergiert zwar immer noch nicht, aber sie schwankt zwischen einem kleineren Intervall hin und her. Daher kann man dazu übergehen, nun auch s₁(n) zu mitteln. Das Ergebnis variiert dann zwischen zwei Zahlen, die noch näher beieinanderliegen. Also wiederholt man den Vorgang nochmals und mittelt die Mittelung der Mittelung – und das immer und immer wieder. Geht man auf diese Weise vor und bestimmt jeweils den Anteil der Zahlen, die mit einer Eins beginnen, erhält man am Ende den Logarithmus von zwei, wie die Statistikerin Betty Flehinger 1966 bewiesen hat. Das entspricht genau dem benfordschen Gesetz für N = 1.

Mit dieser Methode erklärt man allerdings nur, warum das benfordsche Gesetz in Zahlenintervallen von eins bis n erfüllt ist. Das genügt noch nicht, um zu erklären, warum so viele reale Datensätze dieser Regel folgen. Schließlich unterliegen deren Zahlenwerte unter Umständen anderen Gesetzmäßigkeiten. Eine einleuchtende Erklärung dafür fand der US-amerikanische Mathematiker Theodore Hill im Jahr 1996.

Stellen Sie sich vor, Sie haben etliche Datensätze vor sich liegen, die jeweils verschiedenen Wahrscheinlichkeitsverteilungen entsprechen, etwa ein Adressbuch mit Hausnummern, eine Enzyklopädie mit der Einwohnerzahl von Städten, einen Finanzbericht mit den Ausgaben einer Firma und so weiter. Zuerst picken Sie sich einen Datensatz heraus und entnehmen diesem einen zufälligen Wert. Dann wählen Sie ein anderes Dokument und notieren eine Zahl daraus. Das wiederholen Sie ein ums andere Mal. Wie Hill herausfand, gehorchen die Ergebnisse in diesem Fall dem benfordschen Gesetz. Denn er konnte beweisen, dass Zahlenwerte, die zufälligerweise verschiedenen Wahrscheinlichkeitsverteilungen entstammen, nach der benfordschen Regel verteilt sind.

Das erklärt auch, warum Zahlen, die in Magazinen wie »Spektrum der Wissenschaft« oder »Gehirn&Geist« stehen, zumindest annähernd der benfordschen Statistik folgen: Die darin enthaltenen Artikel decken unterschiedliche Themengebiete ab, in denen Zahlenwerte aus verschiedensten Wahrscheinlichkeitsverteilungen auftauchen.

Diese Tatsache macht sich unter anderem das Finanzamt zu Nutze, um frisierte Zahlen in Finanzberichten aufzudecken. Weicht die Ziffernverteilung zu stark vom benfordschen Gesetz ab, stammen die Zahlen womöglich nicht aus der Wirklichkeit, sondern aus der Feder von Tricksern. Einige Gutachter stützen sich auf diese Regel, um Fehler in Datenerhebungen festzustellen oder gewollte Manipulationen offenzulegen. Und mit diesem Wissen überlegt man in Zukunft wohl zweimal, ob man eine Wette annimmt, die zu schön klingt, um wahr zu sein.

Was ist euer Lieblingsmathetheorem? Schreibt es gerne in die Kommentare – und vielleicht ist es schon bald das Thema dieser Kolumne!

Schreiben Sie uns!

1 Beitrag anzeigen

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Die fabelhafte Welt der Mathematik: Die übermächtige Eins

Wo Benfords Entdeckung gilt - und wo nicht

Auch der Zufall ändert daran nichts

WEITERLESEN MIT »SPEKTRUM +«

Schreiben Sie uns!

Artikel zum Thema

Perkolationstheorie: Mathematik verbindet

Mathematische Unterhaltungen: Physikalische Beweise

Freistetters Formelwelt: Wie der Zufall der Mathematik zu schaffen macht

Modellansatz: Gender und Mathematik

Themenkanäle

Informationstechnologie

Statistik

Zahlentheorie

SponsoredPartnerinhalte