Wie man echte Ausreißer in Datensammlungen findet

Freistetters Formelwelt: Wie man echte Ausreißer in Datensammlungen findet

Zwischen Datenpunkten verlaufen unsichtbare Landschaften aus Streuung und Korrelation. Wer darin Entfernungen misst, muss mehr berücksichtigen als bloße Geometrie.

von Florian Freistetter

Statistische Daten in 3D dargestellt — © piranka / Getty Images / iStock (Ausschnitt)
Man kann Datenpunkten nicht immer ansehen, welchen Abstand zum Mittel sie haben.

Die legendärsten mathematischen Kniffe, die übelsten Stolpersteine der Physikgeschichte und allerhand Formeln, denen kaum einer ansieht, welche Bedeutung in ihnen schlummert: Das sind die Bewohner von Freistetters Formelwelt.
Alle Folgen seiner wöchentlichen Kolumne, die immer sonntags erscheint, finden Sie hier.

In der echten Welt ist das Konzept von Abstand vergleichsweise einfach zu verstehen. In der Praxis kann es zwar durchaus komplex sein, wenn man die Geografie der Erde berücksichtigt oder akzeptieren muss, dass der kürzeste Weg nicht immer der schnellste ist. Doch in der abstrakten Welt der Mathematik kann Abstand sehr viel mehr bedeuten als die physische Distanz zwischen zwei Punkten. Betrachten wir zum Beispiel diese Formel:

d_M(\vec{x}, Q) = \sqrt{(\vec{x}-\vec{\mu})^T \Sigma^{-1} (\vec{x}-\vec{\mu})}

Auf den ersten Blick und ohne weitere Erklärungen ist die Gleichung nicht sehr zugänglich. Es handelt sich um die Mahalanobis-Distanz, benannt nach dem indischen Statistiker Prasanta Chandra Mahalanobis, der dieses Konzept in den 1930er-Jahren entwickelt hat.

Um zu verstehen, worum es dabei geht, kann man zum Beispiel eine Gruppe von Menschen betrachten. Es lässt sich messen, wie groß die Teilnehmenden jeweils sind, und dann kann ein Mittelwert berechnet werden. Danach lässt sich mit klassischen statistischen Methoden prüfen, ob es in der Gruppe Menschen gibt, deren Größe signifikant vom Mittel abweicht. Wir können dasselbe auch mit dem Körpergewicht machen. Aber was, wenn wir nach relevanten Abweichungen suchen, die beide Variablen betreffen? Eine Person kann zum Beispiel zehn Zentimeter größer als der Durchschnitt sein und zehn Kilogramm schwerer. Je nach Zusammensetzung der Gruppe kann es sich dabei im Kontext der Größe um eine signifikante Abweichung handeln, beim Gewicht dagegen nicht. Oder es ist umgekehrt – beziehungsweise sowohl bei der Körpergröße als auch beim Gewicht außergewöhnlich (oder nicht).

Mahalanobis hat ein Konzept des Abstands entwickelt, das genau solche Fälle berücksichtigt und angibt, wie weit ein Datenpunkt von einer gegebenen Verteilung entfernt liegt, wobei auch die Streuung der Variablen berücksichtigt wird. In der Formel ist Q eine Wahrscheinlichkeitsverteilung, und der n-dimensionale Vektor µ gibt den Mittelwert an. Die Mahalanobis-Distanz d_M eines Punkts vom statistischen Mittel berechnet sich dann nach der Formel, wobei man zuerst noch die Kovarianzmatrix Σ berechnen muss. Sie beschreibt, wie stark die einzelnen Variablen einer Verteilung streuen und wie stark sie miteinander zusammenhängen.

Rein formal ist der Mahalanobis-Abstand eine Verallgemeinerung der klassischen euklidischen Distanz, bei der der Abstand zwischen den Punkten A und B durch die Wurzel aus (B – A)² berechnet wird. Ersetzt man die inverse Kovarianzmatrix in der obigen Formel durch die Einheitsmatrix, erhält man den euklidischen Abstand.

Die Mathematik der Gesichtserkennung

Durch die Berücksichtigung der Streuung und der Korrelation der Daten kann man mit der Mahalanobis-Distanz statistische Ausreißer im mehrdimensionalen Fall sehr viel leichter erkennen. Im Wesentlichen ist es eine Verallgemeinerung der Standardabweichung auf mehrere Dimensionen: Der Mahalanobis-Abstand gibt an, wie viele Standardabweichungen ein Punkt von einem Mittelwert entfernt liegt.

Die Anwendungen dieses Konzepts reichen weit über die Statistik hinaus. Ein klassisches Beispiel ist die maschinelle Gesichtserkennung. Um das Aussehen eines Menschen zu beschreiben, braucht man viele Parameter: den Abstand der Augen, die Breite der Nase, die Form des Kinns und so weiter. Typischerweise sind diese Werte korreliert, das heißt, sie ändern sich von Mensch zu Mensch nicht beliebig, sondern hängen zusammen. Will man wissen, wie ähnlich zwei Gesichter einander sind, kann man all diese Parameter als Punkte in einem hochdimensionalen Vektorraum interpretieren und ihre Mahalanobis-Distanz bestimmen.

Man verwendet das Konzept aber auch in der Medizin, der Astronomie, der Meteorologie und überall sonst, wo man nach Phänomenen sucht, die von einer erwarteten Verteilung an Parametern abweichen.

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Freistetters Formelwelt: Wie man echte Ausreißer in Datensammlungen findet

Die Mathematik der Gesichtserkennung

WEITERLESEN MIT »SPEKTRUM +«

Schreiben Sie uns!

Artikel zum Thema

Freistetters Formelwelt: Mit Mathematik Plagiaten auf der Spur

Freistetters Formelwelt: Mathematik offenbart Überraschungen in einem Kinderspiel

Freistetters Formelwelt: Mathematik zum Selberbacken

Themenkanäle

Informationstechnologie

Das Digital-Manifest

Quantenphysik

SponsoredPartnerinhalte