Freistetters Formelwelt: Wie man echte Ausreißer in Datensammlungen findet

Alle Folgen seiner wöchentlichen Kolumne, die immer sonntags erscheint, finden Sie hier.
In der echten Welt ist das Konzept von Abstand vergleichsweise einfach zu verstehen. In der Praxis kann es zwar durchaus komplex sein, wenn man die Geografie der Erde berücksichtigt oder akzeptieren muss, dass der kürzeste Weg nicht immer der schnellste ist. Aber in der abstrakten Welt der Mathematik kann Abstand sehr viel mehr bedeuten als die physische Distanz zwischen zwei Punkten. Betrachten wir zum Beispiel diese Formel:
Auf den ersten Blick und ohne weitere Erklärungen ist die Gleichung nicht sehr zugänglich. Es handelt sich um die Mahalanobis-Distanz, benannt nach dem indischen Statistiker Prasanta Chandra Mahalanobis, der dieses Konzept in den 1930er Jahren entwickelt hat.
Um zu verstehen, worum es dabei geht, kann man zum Beispiel eine Gruppe von Menschen betrachten. Es lässt sich messen, wie groß die Teilnehmenden jeweils sind, und dann kann ein Mittelwert berechnet werden. Danach lässt sich mit klassischen statistischen Methoden prüfen, ob es in der Gruppe Menschen gibt, deren Größe signifikant vom Mittel abweicht. Wir können dasselbe auch mit dem Körpergewicht machen. Aber was, wenn wir nach relevanten Abweichungen suchen, die beide Variablen betreffen? Eine Person kann zum Beispiel zehn Zentimeter größer als der Durchschnitt sein und zehn Kilogramm schwerer. Je nach Zusammensetzung der Gruppe kann es sich dabei im Kontext der Größe um eine signifikante Abweichung handeln, beim Gewicht aber nicht. Oder es ist umgekehrt – beziehungsweise sowohl bei der Körpergröße als auch beim Gewicht außergewöhnlich (oder nicht).
Mahalanobis hat ein Konzept des Abstands entwickelt, das genau solche Fälle berücksichtigt und angibt, wie weit ein Datenpunkt von einer gegebenen Verteilung entfernt liegt, wobei auch die Streuung der Variablen berücksichtigt wird. In der Formel ist Q eine Wahrscheinlichkeitsverteilung und der n-dimensionale Vektor µ gibt den Mittelwert an. Die Mahalanobis-Distanz dM eines Punkts vom statistischen Mittel berechnet sich dann nach der Formel, wobei man zuerst noch die Kovarianzmatrix Σ berechnen muss. Sie beschreibt, wie stark die einzelnen Variablen einer Verteilung streuen und wie stark sie miteinander zusammenhängen.
Rein formal ist der Mahalanobis-Abstand eine Verallgemeinerung der klassischen euklidischen Distanz, bei der der Abstand zwischen den Punkten A und B durch die Wurzel aus (B – A)² berechnet wird. Ersetzt man die inverse Kovarianzmatrix in der obigen Formel durch die Einheitsmatrix, erhält man den euklidischen Abstand.
Die Mathematik der Gesichtserkennung
Durch die Berücksichtigung der Streuung und der Korrelation der Daten kann man mit der Mahalanobis-Distanz statistische Ausreißer im mehrdimensionalen Fall sehr viel leichter erkennen. Im Wesentlichen ist es eine Verallgemeinerung der Standardabweichung auf mehrere Dimensionen: Der Mahalanobis-Abstand gibt an, wie viele Standardabweichungen ein Punkt von einem Mittelwert entfernt liegt.
Die Anwendungen dieses Konzepts reichen weit über die Statistik hinaus. Ein klassisches Beispiel ist die maschinelle Gesichtserkennung. Um das Aussehen eines Menschen zu beschreiben, braucht man viele Parameter: den Abstand der Augen, die Breite der Nase, die Form des Kinns, und so weiter. Typischerweise sind diese Werte korreliert, das heißt, sie ändern sich von Mensch zu Mensch nicht beliebig, sondern hängen zusammen. Will man wissen, wie ähnlich einander zwei Gesichter sind, kann man all diese Parameter als Punkte in einem hochdimensionalen Vektorraum interpretieren und ihre Mahalanobis-Distanz bestimmen.
Man verwendet das Konzept aber auch in der Medizin, der Astronomie, der Meteorologie und überall sonst, wo man nach Phänomenen sucht, die von einer erwarteten Verteilung an Parametern abweichen.
Schreiben Sie uns!
Beitrag schreiben