Daten-Analyse mittels Statistik (Benford, Chi-Quadrat, Gaußsche Normalverteilung)
Bewertung Ihrer Daten hinsichtlich:
- Feststellung von Abweichungen gegenüber üblichen Zahlen-Häufigkeiten
- Feststellung bevorzugter / vernachlässigter Zahlen-Häufigkeiten
- Anwendung von Verfahren, wie sie auch vom Finanzamt im Programm WinIdea angewendet werden
Vorgehensweise:
- zur Auswertung reicht im einfachsten Fall eine Zahlenreihe
- Prüfung der 1. und 1.+2.Ziffer lt. Benfordschem Gesetz
- Prüfung der 1. und 2.Vor- und Nachkomma-Stelle mittels
Chi-Quadrat-Test und Gaußscher Normal-Verteilung - Kennzeichnung signifikanter Abweichungen
- Anwendung meines Programms, siehe nachfolg. Beispiel
Beispiel einer Daten-Analyse
Angaben zu den auszuwertenden Daten:
Für die Auswertung:
- genügt im einfachsten Fall eine simple Aufzählung von Werten wie z.B. 1.23; 8.15; 34
- sind keinerlei andere Angaben wie Rechnungs-Nummern o.ä. erforderlich
- muss nur gewährleistet werden, dass Daten mit gleichem Ursprung vorhanden sind, d.h. es sind z.B. nur Salden oder einzelne Rechnungspositionen oder Bestellmengen in der Aufzählung enthalten und keine gemischten Daten
- muss sichergestellt sein, dass die Daten voneinander unabhängig sind, d.h. in einer Aufzählung dürfen (siehe vorheriger Punkt) nur Daten eines Ursprungs enthalten sein, z.B. nur einzelne Bestellmengen, jedoch nicht diese Bestellmengen und zugleich Summenangaben dieser Bestellmengen
Nachfolgend sind Auswertungen zu folgenden Punkten dargestellt:
- ausgewertete Daten (als Download-Liste im PDF-Format)
- Auswertung der 1. und 2. führenden linken Ziffer (bevorzugte / selten verwendete Ziffern)
- Grafiken zum vorherigen Punkt
- Auswertung der 1. und 2. Vor- und Nachkommastelle (bevorzugte / selten verwendete Ziffern)
- ausgewertete Daten mit Kennzeichnung besonders auffälliger Zahlen
- Schlussfolgerungen aus der Auswertung
- Download der Auswertung als PDF-Datei
Kurz-Übersichten zu den theoretischen Grundlagen:
- Benford-Verteilung: Häufigkeit der 1. und 1.+2. führenden Ziffer
- Chi-Quadrat-Test: Häufigkeit der 1. + 2. Vor- und Nachkommastelle
- Gauß-Test: Verwendung des Z-Werts zur Erkennung signifikanter Abweichungen
Werte-Tabellen:
- Ziffern-Wahrscheinlichkeiten lt. Benford-Verteilung (1. und 1.+2. Ziffer)
- Chi-Quadrat-Werte zu einem Signifikanzniveau lt. Chi-Quadrat-Test
- Z-Werte zur Normalverteilung
Sprung top | Überschrift | ||
---|---|---|---|
top |
|
- Aus dem Datenbestand wird ermittelt, wie oft die Ziffern 0 - 9 als erste Ziffer vorkommen.
- Aus der erwarteten Häufigkeit pro Ziffer und der vorgefundenen Häufigkeit wird ein Chi-Quadrat Wert ermittelt.
- Die Summe der einzelnen Chi-Quadrat-Werte ist größer als der zur Irrtums-Wahrscheinlichkeit gehörende Wert.
- Für die Gesamtheit aller Daten kann festgestellt werden, dass die in den Daten vorgefundene Häufigkeit der ersten Ziffern mit einer Sicherheit von 95% nicht mit zufälligen Abweichungen erklärbar ist.
- Für jede einzelne Ziffer wurde mit dem Z-Test ermittelt, ob die Differenz aus erwarteter und vorgefundener Häufigkeit noch zufällig entstanden sein kann.
- Für die Ziffern 3, 8 und 9 kann festgestellt werden, dass die Häufigkeit dieser Ziffern zufällig ist.
- Die Ziffern 1, 2 und 7 wurden zu selten verwendet, als dass die Häufigkeit dieser Ziffern noch mit einem Zufall zu erklären wäre.
- Die Ziffern 4, 5 und 6 wurden dagegen häufiger als erwartet verwendet.
Sprung top | Überschrift | ||
---|---|---|---|
top |
|
- Aus dem Datenbestand wird ermittelt, wie oft die Ziffern 10 - 99 als führende Ziffern verwendet wurden.
- Wie zu den führenden Ziffern 0 - 9 wurde per Chi-Quadrat- und Z-Test auf eine Signifikanz der Abweichungen getestet.
- Zu den rot und grün markierten Zahlen kann festgestellt werden, dass die in den Daten vorgefundene Häufigkeit der ersten Ziffern mit einer Sicherheit von 95% nicht mit zufälligen Abweichungen erklärbar ist.
- die rot markierten Zahlen wurden zu selten verwendet, die grün markierten Zahlen hingegen bevorzugt.
...
...
Sprung top | Überschrift | ||
---|---|---|---|
top |
|
- In den nachfolgenden Grafiken sind diejenigen Ziffern / Zahlen mit Rot markiert, deren Häufigkeit in den ausgewerteten Daten mit einer Sicherheit von 95% nicht zufällig entstanden sein kann.
- In nachfolgenden Prüfungen ist zu ermitteln, warum die Ziffern 1 und 2 seltener und die Zahlen im Bereich von 45 - 66 zu häufig verwendet wurden.
Sprung top | Überschrift | ||
---|---|---|---|
top |
|
Sprung top | Überschrift | ||
---|---|---|---|
top |
|
- Aus dem Datenbestand wird ermittelt, wie oft die Ziffern 0 - 9 als Vor- und Nachkommaziffer verwendet wurden.
- Wie zu den führenden Ziffern 0 - 9 wurde per Chi-Quadrat- und Z-Test auf eine Signifikanz der Abweichungen getestet.
- Die Summen aus den einzelnen Chi-Quadrat-Werten liegen deutlich über den zum Signifikanzniveau zulässigen Wert.
- Die Häufigkeit einzelner Ziffern an diesen Ziffern-Positionen wicht ebenfalls zu deutlich von den üblichen Häufigkeiten ab.
Sprung top | Überschrift | ||
---|---|---|---|
top |
|
- In der nachfolgenden Übersicht sind Teile des ausgewerteten Datenbestandes in der ersten Spalte dargestellt.
- in der rechten Spalte sind Zeilen mit rot markiert, in denen Werte vorhanden sind, zu denen es mehrere Auffälligkeiten gibt.
Sprung top | Überschrift | ||
---|---|---|---|
top |
|
- Im Datenbestand gibt es beim Vergleich der erwarteten und tatsächlich vorgefundenen Häufigkeiten Abweichungen, die nicht mehr einem Zufall erklärbar sind.
- Da diese Abweichungen an alle geprüften Stellen auftreten, besteht die begründete Vermutung, dass die Daten bewusst geändert wurden.
- In nachfolgenden Prüfungen wäre zu ermitteln, warum einzelne Zahlenbereiche zu oft vorkommen.
Sprung top | Überschrift | ||
---|---|---|---|
top |
|
- 1881: der amerikanische Mathematiker und Astronom Simon Newcomb stellt fest, dass die ersten Seiten der Logarithmentafeln häufiger genutzt werden als nachfolgende Seiten
- die Entdeckung gerät in Vergessenheit
- 1938: amerikanische General Electric Physiker Frank Benford entdeckt die Gesetzmäßigkeit erneut und belegt sie mit Daten aus den unterschiedlichsten Lebensbereichen
- das Gesetz wird auch als NBL-Gesetz bezeichnet (Newcomb Benford Law)
- für die Wahrscheinlichkeit p der ersten beiden führenden Ziffer z1z2 gilt: p(z1z2) = LOG10(1 + 1/z1z2)
- die Wahrscheinlichkeit der Ziffer 1 beträgt an der ersten Ziffern-Position ca. 30%, die Ziffer 9 kommt zu ca. 4% vor
- mit abnehmendem Stellenwert der Ziffer nähert sich deren Verteilung der Normalverteilung an, das Gesetz wird daher praktisch nur zur Prüfung der ersten oder der ersten beiden Ziffern einer Zahlenreihe verwendet
- Voraussetzung ist, dass die ausgewerteten Daten statistisch unabhängig voneinander sind
- der Umfang der ausgewerteten Daten (die Stichprobe) muss einen Mindestumfang haben, die gemeinsame Auswertung der beiden führenden Ziffern liefert erst ab einem Umfang von mehreren Tausend Werten signifikante Aussagen
- Ablauf: es werden Hypothesen aufgestellt:
Nullhypothese H0: die Häufigkeit der Ziffern entspricht der Benford-Verteilung,
Alternativ-Hypothese H1: die Häufigkeit der Ziffern entspricht nicht der Benford-Verteilung - mit weiteren Tests (Chi-Quadrat-Test, Kolmogorow-Schmirnow-Test) kann ermittelt werden, ob die Abweichungen von der Benford-Verteilung so signifikant sind, dass von einer bewussten manuellen Veränderung der Zahlen ausgegangen werden kann (also die Null-Hypothese verworfen wird)
- die Benford-Verteilung ist Skalen-unabhängig (Skalen-Invarianz): Wenn Daten, deren Anfangs-Ziffern der Benford-Verteilung entsprechen, mit einer Konstanten multipliziert werden, so entspricht die Häufigkeit der Anfangsziffern der entstehenden Datenmenge wiederum der Benford-Verteilung.
Ursache: Eine Multiplikation der Daten mit einer Konstanten entspricht der Addition einer Konstanten zu den Logarithmen. Sofern die Daten hinreichend weit verteilt sind, ändert sich dadurch die Verteilung der Mantissen nicht. - die Benford-Verteilung ist Basen-Invariant: eine Datenmenge zu einer Zahlen-Basis, deren Anfangsziffern der Benford-Verteilung entsprechen, kann in eine andere Zahlenbasis transformiert werden und ist dort auch wieder Benford-verteilt.
Sprung top | Überschrift | ||
---|---|---|---|
top |
|
- Grundlage: mit abnehmendem Stellenwert der Ziffer entspricht die Häufigkeit der Ziffern der Normalverteilung
- der Test kann für jede Verteilungsfunktion angewendet werden
- ab einem genügend großen Datenumfang kommen die Ziffern 0...9 einer Ziffern-Position gleich-häufig zu 10% vor
- Grundlage der Auswertung ist der Quadrat-Wert der Abweichung von der erwarteten Wahrscheinlichkeit
- dieser Quadrat-Wert entspricht bei ausreichend großem Stichprobenumfang der Chi-Quadrat-Verteilung mit f-Freiheitsgraden
- die Nullhypothese wird abgelehnt, wenn die Summe der Chi-Werte der Klassen den Wert der Chi-Quadrat-Verteilung zum Freiheitsgrad und gegebenen Signifikanzniveau überschreitet
- Aussagen werden für einen Freiheitsgrad f und ein Signifikanzniveau 1 - alpha getroffen
- Freiheitsgrad = Anzahl Klassen (hier Ziffern 0...9) minus 1 minus (Anzahl geschätzter Parameter)
- Signifikanzniveau: bedeutet, mit welcher Wahrscheinlichkeit (1 - alpha) die Aussage bei einer Irrtums-Wahrscheinlichkeit alpha zutreffend ist
- Irrtums-Wahrscheinlichkeit alpha: in Praxis werden häufig 5% angewendet; Werte von Verteilungsfunktionen sind häufig zu für 5%, 1% und 0,1% in Tabellen dargestellt
- der Test ist daher erst ab der 3.Stellenposition der Ziffern zweckmäßig, für die ersten beiden Ziffern gilt die Benford-Verteilung
- der Umfang der ausgewerteten Daten (die Stichprobe) muss einen Mindestumfang haben
- Die Anzahl von Werten einer Klasse (hier: Ziffer) sollte mindestens 5 betragen, ggf. sind dazu Klassen zusammen zu fassen, damit die Prüfgröße als annähernd Chi-Quadrat-verteilt angesehen werden kann
- in Praxis werden häufig die 1. oder 1.+2. Vor- und Nachkommastelle ausgewertet
Sprung top | Überschrift | ||
---|---|---|---|
top |
|
Übersicht:
- die Gaußverteilung ist eine der wichtigsten Wahrscheinlichkeits-Verteilungen
- diese Verteilung wird mit dem Mittelwert (eines beliebigen Wertes) und der Varianz (Streuung dieses Wertes) beschrieben
- Gauß-Verteilung: f(x)=1/(o * Quadratwurzel(2*Pi)) * e^ (-0,5 *((x-µ)/o)^2)
(mit: o = Streuung von x, µ = Mittelwert von x, Eulersche Zahl e = 2,7182...) - es gibt unendlich viele Normalverteilungen:
- mit der Z-Transformation können alle Normalverteilungen in die Standard-Normalverteilung (mit Mittelwert µ = 0, Streuung o = 1) überführt werden
- Z-Transformation: Zi = ( Xi - µ ) / o (mit µ = Mittelwert, o = Streuung)
- da die Ermittlung des Gaußschen Fehlerintegrals aufwendig ist, werden die gängigen Werte der Standard-Normalverteilung in Tabellen dargestellt
- die Standard-Normalverteilung ist symmetrisch zu x = 0, daher sind in den Tabellen nur Wahrscheinlichkeiten P für positive Z-Werte enthalten
- beliebige Normalverteilungen werden in die Standard-Normalverteilung überführt, um die tabellierten Werte nutzen zu können
- mit dem Gaußschen Fehlerintegral kann die Wahrscheinlichkeit P des Auftretens eines Messwertes Xi innerhalb einer Wertemenge ermittelt werden
- Beispiel-Anwendung: bei einer Material-Prüfung werden durchschnittlich 60 Bewertungspunkte erreicht. Wie hoch ist die Wahrscheinlichkeit, dass bei einer Streuung von 20 Punkten ein zu prüfendes Teil mit 85 Punkten bewertet wird? (11 Prozent)
Gaußscher Z-Test:
- Häufig werden zu einem Z-Wert (zu Mittelwert und Streuung) die Wahrscheinlichkeit des Auftretens eines Messwertes gesucht, d.h., mit welcher Wahrscheinlichkeit ist der zum Messwert gehörende Z-Wert innerhalb der roten Fläche=
- Bei der Prüfung, ob eine Wert signifikant von der Normalverteilung abweicht, wird jedoch die entgegengesetzte Vorgehensweise benötigt.
- Zu einer vorgegebenen Irrtums-Wahrscheinlichkeit, z.B. 5%, wird der Z-Wert gesucht, der den der zu prüfende Wert maximal haben darf, damit die Null-Hypothese nicht abgelehnt wird. (siehe o.g. Datentabelle)
- Beispiel: Der zu einem Messwert ermittelte Z-Wert beträgt 2,03. Bei einer vorgegegebenen Irrtumswahrscheinlichkeit von 5% beträgt der Z-Wert: 1,96. Der ermittelte Z-Wert (2,03) ist größer als der zum Signifikanzniveau max. zulässige Z-Wert von 1,96. Die Null-Hypothese wird somit abgelehnt, d.h. die Abweichung ist mit 95%iger Sicherheit nicht mit zufälligen Abweichungen zu erklären.