Benfordsches Gesetz
Das Benfordsche Gesetz, auch Newcomb-Benford's Law (NBL) beschreibt eine Gesetzmäßigkeit in der Verteilung der Ziffernstrukturen von Zahlen in empirischen Datensätzen, zum Beispiel ihrer ersten Ziffern. Es lässt sich etwa in Datensätzen über Einwohnerzahlen von Städten, Geldbeträge in der Buchhaltung, Naturkonstanten etc. beobachten. Kurz gefasst besagt es:: ?Je niedriger der zahlenmäßige Wert einer Ziffernsequenz bestimmter Länge an einer bestimmten Stelle einer Zahl ist, umso wahrscheinlicher ist ihr Auftreten. Für die Anfangsziffern in Zahlen des Zehnersystems gilt zum Beispiel: Zahlen mit der Anfangsziffer '1' treten etwa 6,5-mal so häufig auf wie solche mit der Anfangsziffer '9'?.
1881 wurde diese Gesetzmäßigkeit von dem Mathematiker Simon Newcomb entdeckt und im ?American Journal of Mathematics? publiziert. Er soll bemerkt haben, dass in den benutzten Büchern mit Logarithmentafeln, die Seiten mit Tabellen mit Eins als erster Ziffer deutlich schmutziger waren als die anderen Seiten, weil sie offenbar öfter benutzt worden seien. Die Abhandlung Newcombs blieb unbeachtet und war schon in Vergessenheit geraten, als der Physiker Frank Benford (1883?1948) diese Gesetzmäßigkeit wiederentdeckte und darüber 1938 neu publizierte. Seither war diese Gesetzmäßigkeit nach ihm benannt, in neuerer Zeit wird aber durch die Bezeichnung ?Newcomb-Benford's Law? (NBL) dem eigentlichen Urheber wieder Rechnung getragen. Bis vor wenigen Jahren war diese Gesetzmäßigkeit nicht einmal allen Statistikern bekannt. Da sie schon bei der Lösung zahlreicher praktischer Probleme hilfreich war, wächst ihr Bekanntheitsgrad rasch.
Benfordsche Verteilung
Ist d die erste Ziffer einer Dezimalzahl, so tritt sie nach dem Benfordschen Gesetz in empirischen Datensätzen mit folgenden Wahrscheinlichkeiten p(d) auf:
: (1)
oder, anders geschrieben,
: .
Wenn es sich nicht um eine Dezimalzahl, sondern um eine Zahl zur Basis B handelt, lässt sich p(d) berechnen durch
:
bzw.
: .
So ist für Binärzahlen die Wahrscheinlichkeit, dass die erste Ziffer eine 1 ist, immer eins.
Die Summe p(d) für d=1, ...B-1 ergibt, wie es sein muss, 1, denn:
: (2)
:
:
:
In einer ähnlichen Weise lassen sich auch Wahrscheinlichkeiten für das Auftreten der folgenden Ziffern angeben. Während die erste Ziffer d das logarithmische Intervall von belegt, tritt die zweite Ziffer in allen entsprechenden Teilintervallen auf.
Lautet etwa die zweite Ziffer e=5, dann belegt sie die Intervalle: log(1,6)-log(1,5), log(2,6)-log(2,5), ... log(9,6)-log(9,5). Die Wahrscheinlichkeit p1(5), dass die zweite Ziffer eine 5 ist, lautet (bezogen auf die Gesamtintervall-Länge von log(10)-log(1)=1):
:
Allgemein gilt für die Wahrscheinlichkeit des Auftretens der Ziffer d zur Basis B an der n-ten Stelle (gezählt von 0):
: (3)
Beispiele: für die erste Ziffer, also n=0, folgt unmittelbar die Gleichung (1). Für n=1 (zweite Ziffer) läuft die Summation von Bn-1=1 bis Bn-1 = B-1 und man erhält die Reihe (2).
Gültigkeit des NBL
Ein Datensatz ist eine Benford-Variable (d. h. das Benfordsche Gesetz gilt für diesen Datensatz),
# wenn die Mantissen der Logarithmen des Datensatzes einer Gleichverteilung folgen. Das unbedingte Postulat der Gleichverteilung der Mantissen der Logarithmen der Daten erlaubt es nicht, dass die Daten selbst gleichverteilt sind.
# wenn die Varianz innerhalb des Datensatzes einen bestimmten, von der Klasse der Verteilung, nach welcher der Datensatz verteilt ist, abhängigen Mindestwert nicht unterschreitet.
Bei den Fibonacci-Zahlen (jede Fibonacci-Zahl ist die Summe ihrer beiden Vorgänger) ergeben schon die Anfangsziffern der ersten 30 Zahlen eine Verteilung, die verblüffend nahe an einer Benford-Verteilung liegt. Dies gilt auch für ähnliche Folgen mit geänderten Anfangszahlen (z. B. die Lucas-Folgen.). Viele Zahlenfolgen gehorchen dem Benfordschen Gesetz, es gibt aber ebenso viele, die ihm nicht gehorchen, also keine Benford-Variablen sind.
Das Benford'sche Gesetz als "Allheilmittel" in der Analyse empirischer Datensätze verwenden zu wollen wäre verfehlt: obwohl es für erstaunliche viele Datensätze relative gute Näherungen ermöglicht ist es einfach Situationen zu erdenken, in denen Benfords Gesetz alles andere als zutreffen wird: das durchschnittliche Alter beim Tod eines Menschen wird sehr häufig mit den Ziffern "7" oder "8" beginnen; die Größe eines Menschen in Zentimetern wird fast immer mit der Ziffer "1" beginnen; die Länge eines Autos in Zentimetern wird fast immer mit einer der Ziffern "3", "4" oder "5" beginnen. Vor der Untersuchung eines empirischen Datensatzes nach dem Benforschen Gesetz ist es also immer nötig zu überlegen, ob das im aktuellen Fall überhaupt sinnvoll ist.
Skaleninvarianz
Mit einer Konstanten multiplizierte Datensätze mit Benford-verteilten Anfangsziffern sind wiederum Benford-verteilt. Die Multiplikation der Zahlen mit einer Konstanten entspricht der Addition der logarithmierten Konstanten zu den Logarithmen, was deren Verteilung ebenso wenig ändert wie jene der Mantissen.
Baseninvarianz
Ein Datensatz, der zu einer Basis B1 dem benfordschen Gesetz genügt, genügt diesem auch zur Basis B2. Konkreter gesagt, ein dekadischer Datensatz, der das benfordsche Gesetz erfüllt, erfüllt das benfordsche Gesetz auch dann, wenn die dekadischen Zahlen in ein anderes Zahlensystem (z. B. ins binäre, ins oktale oder ins hexadezimale) umgerechnet werden.
Anschauliche Darstellung
Benfords Gesetz besagt in seiner einfachsten Konsequenz, dass die führenden Ziffern n (n = 1...9) mit folgenden Wahrscheinlichkeiten erscheinen:
log10(n+1) - log10(n), oder
Anwendungen
Entsprechen reale Datensätze dem Benfordschen Gesetz insofern nicht, als die Anzahl des Auftretens einer bestimmten Ziffer signifikant von der durch das Benfordsche Gesetz angegebenen Erwartung abweicht, dann wird ein Prüfer jene Datensätze, die mit dieser Ziffer beginnen, einer tiefergehenden Analyse unterziehen, um die Ursache(n) für diese Abweichungen zu finden. Dieses Schnellverfahren kann zu tieferen Erkenntnissen über Besonderheiten des untersuchten Datensatzes oder zur Aufdeckung von Manipulationen bei der Datenerstellung führen.
Beispiel
Eine Tabelle berichtet über die Ernteergebnisse_aus_dem_Jahre_2002. Im Diagramm geben die blauen Balken die Häufigkeit der Anfangsziffern der 87 erfassten Zahlen an. Die Benford-Verteilung ist als rote Linie eingezeichnet. Sie spiegelt die Verteilung deutlich besser wieder als eine Gleichverteilung (grüne Linie). Trotz der kleinen Stichprobe ist die Bevorzugung kleiner Werte bei der ersten Ziffer erkennbar, ebenso als Tendenz bei der zweiten Ziffer.
Die Tabelle fasst die Ergebnisse zusammen. Die Spalte 1. Ziffer sagt aus, wie oft die Ziffer an erster Stelle beobachtet wird, die Spalte Benford, wie oft sie nach der Benford-Verteilung erwartet wird. Gleiches gilt für die zweite Ziffer unter Spalte 2. Ziffer. Danach tritt die Ziffer 1 27mal an erster Stelle auf, erwartet war 26,19mal. An zweiter Stelle steht die 4 5-mal, nach Benford sollte sie 8,73mal auftreten.
Mit abnehmendem Stellenwert der Ziffer nähert sich die oben angegebene Benford-Verteilung immer mehr der Gleichverteilung der Ziffern.
In der Wirtschaft
Zur Aufdeckung von Betrug bei der Bilanzerstellung, der Fälschung in Abrechnungen, generell zum raschen Auffinden eklatanter Unregelmäßigkeiten im Rechnungswesen. Mit Hilfe des Benfordschen Gesetzes wurde das bemerkenswert ?kreative? Rechnungswesen bei Enron und Worldcom aufgedeckt, durch welches das Management die Anleger um ihre Einlagen betrogen hatte (→ Wirtschaftskriminalität). Heute benutzen Wirtschaftsprüfer und Steuerfahnder Methoden, die auf dem Benfordschen Gesetz beruhen. Diese Methoden stellen einen wichtigen Teil der mathematisch-statistischen Methoden dar, die seit mehreren Jahren zur Aufdeckung von Bilanzfälschung, Steuer- und Investorenbetrug und allgemein Datenbetrug in Verwendung sind.
In der Forschung
Das Benfordsche Gesetz kann auch bei der Aufdeckung von Datenfälschung in der Wissenschaft hilfreich sein. Schließlich waren es Datensätze aus den Naturwissenschaften, die zum Benfordschen Gesetz führten. Dessen ungeachtet ist das Benfordsche Gesetz nicht allen Wissenschaftlern bekannt, wie Wissenschaftsskandale mit gewisser Regelmäßigkeit belegen.
Datenfälschung mit Benford?
Die Erstellung gefälschter Benford-adäquater, selbst großvolumiger, Datensätze ist an sich nicht schwierig (siehe unten: Erzeugung Benford-verteilter Anfangsziffern); um sie jedoch gegen den Blick des geübten numerisch-statistischen Prüfers zu wappnen, muss man bedenken, dass für alle Daten das Benfordsche Gesetz nicht nur für die Anfangsziffer, sondern auch für die Folgeziffern (nach modifizierten Regeln) gelten muss; ferner muss noch einer Reihe anderer stochastischer Gesetzmäßigkeiten Rechnung getragen werden. Trimmt der Datenfälscher andererseits die Daten allzu genau auf die theoretische Erwartung hin, besteht Gefahr, dass die Manipulationen eben daran erkannt werden (siehe unten: Test auf signifikante Abweichungen).
Größe der Städte in Deutschland
Die rechte Abbildung zeigt die Größenverteilung deutscher Städte. Der Grafik hinterlegt sind die Einwohnerzahlen der 998 größten Städte (Quelle: [http://bevoelkerungsstatistik.de]). Eine Benford-Analyse liefert folgende Häufigkeiten die Anfangsziffern:
Die Häufigkeit der Ziffern 3 und 4 entsprechen der Erwartung. Hingegen tritt die Zahl 1 vermehrt auf. Besonders ausgeprägt ist die Abweichung der Ziffer 2, auf Kosten der nur selten an erster Stelle beobachteten Ziffern 7, 8 und 9.
Dieses Beispiel zeigt, dass Datensätze bestimmte Voraussetzungen erfüllen müssen, um dem NBL zu genügen; der vorliegende Datensatz tut dies nicht. Kurioserweise gehören sogar etwa 50 % der Beispiele, die Benford in seiner Publikation als Belege für das NBL anführte, zu der Klasse von Datensätzen, die keine Benford-verteilten Anfangsziffern, sondern eine höchstens im Groben ähnliche Verteilung der Anfangsziffern aufweisen.
Signifikanz
Wie groß die Abweichungen der beobachteten Verteilung von der theoretisch zu erwartenden Verteilung mindestens sein müssen, damit ein begründeter Verdacht auf Manipulation als erhärtet angesehen werden kann, wird mit Hilfe mathematisch-statistischer Methoden (z. B. dem Newcomb,_S. (1881): Note on the Frequency of the Use of Digits in Natural Numbers. Amer. J. Math. 4, S. 39-40.
* Nigrini, M. J. (1992): The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies. Dissertation, Cincinnati, OH: University of Cincinnati.
* Peter N. Posch: Ziffernanalyse in Theorie und Praxis - Testverfahren zur Fälschungsaufspürung mit Benfords Gesetz - ISBN 3-8322-4492-1
* Peter N. Posch: A Survey on Sequences and Distribution Functions satisfying the First-Digit-Law, October 2004; www.mathematik.uni-ulm.de/dof/pnposch/paper/posch_benforddist.pdf
Übersichtsartikel:
Ian_Stewart: [http://www.wissenschaft-online.de/abo/spektrum/archiv/534 Das Gesetz der ersten Ziffer.] In: Spektrum der Wissenschaft'', April 1994, S. 16 ff.
Weblinks
• Ein didaktisch aufbereiter Artikel zu Benfords Gesetz
• Artikel über Wahrscheinlichkeiten, ab S. 11 zum Benfordschen Gesetz
• Benford's Law (engl.)

