Direkt zum Inhalt

Data Mining: Suche im Datendschungel

Es geht darum, in großen Datenmengen etwas zu entdecken, von dessen Existenz man noch nichts weiß.


Der dänische Adlige und Astronom Tycho Brahe (1546-1601) ist eine tragische Figur. Indem er über mehrere Jahre hinweg Daten in bis dahin unübertroffener Menge und Qualität sammelte, vollbrachte er eine bedeutende wissenschaftliche Leistung; und doch ist sein Werk heute fast vergessen.

Auf der 1576 errichteten Sternwarte auf der Insel Ven, etwa dreißig Kilometer nordöstlich von Kopenhagen, bestimmte er mit den besten Instrumenten seiner Zeit die Positionen der Sonne, des Mondes und der Planeten mit einer Genauigkeit von einer Bogenminute: große Mengen von Daten. Aber er war nicht in der Lage, sie in einem einheitlichen Schema zusammenzufassen. Er konnte genau sagen, wo der Mars an einem bestimmten Tag des Jahres 1582 gestanden hatte, aber er konnte die Positionen an verschiedenen Tagen nicht durch eine Theorie in Beziehung setzen. Alle Hypothesen, die er aufstellte, scheiterten an seinen hochgenauen Daten, auch das von ihm selbst entwickelte Planetensystem, in dem sich Sonne und Mond um die Erde, alle anderen Planeten aber auf Kreisen um die Sonne bewegen.

Eine brauchbare Theorie fand erst sein Gehilfe, der deutsche Astronom Johannes Kepler. Er suchte nach einer mathematischen Beschreibung, was für seine Zeit ein geradezu radikaler Ansatz war. Nach vielen erfolglosen Versuchen gelang es Kepler schließlich, die von Tycho Brahe gesammelten Daten in den drei einfachen Gesetzen zusammenzufassen, die heute Keplers Namen tragen.

Die Kataloge Tycho Brahes haben heute nur noch historischen Wert. Keplers Gesetze werden dagegen in allen Astronomie- und Physiklehrbüchern behandelt, denn sie geben die Prinzipien an, nach denen sich sowohl Planeten als auch Kometen bewegen. Außerdem lassen sie Voraussagen zu: Kennt man die Position eines Planeten zu einem bestimmten Zeitpunkt, so kann man mit Hilfe der Kepler'schen Gesetze seine weitere Bahn berechnen.

Das ist ein klassisches Beispiel für Data Mining ("Daten schürfen"): Es geht darum, aus großen Datenmengen allgemeine Gesetzmäßigkeiten zu extrahieren, ohne vorher zu wissen, welcher Art diese Gesetzmäßigkeiten sein könnten. Wenn am Ende die so gewonnene, konzentrierte Information die gesamte Datensammlung schlicht erübrigt – aus Keplers Gesetzen kann man Brahes Daten einfach ausrechnen – und auch noch verlässliche Prognosen ermöglicht, dann hat Data Mining den größten überhaupt denkbaren Erfolg erzielt.

Anders als zur Zeit Brahes und Keplers sind große Datenmengen heute leicht zu erhalten. In praktisch jedem Unternehmen zeichnen Computer jedes Einzelereignis aus der Produktion, dem Vertrieb, der Lagerhaltung oder dem Personalwesen gewissenhaft auf. Sie geben auch ohne weiteres Antworten auf gezielte Fragen ("Was hat Kunde X beim letzten Mal bestellt, und wann?", "Wie hoch war im Jahr 2000 der durchschnittliche Monatsumsatz im Raum Frankfurt?"), allgemeinere Muster, Strukturen, Regelmäßigkeiten bleiben dagegen meist unbemerkt. Aber gerade diese Muster lassen sich oft nutzen. Findet man etwa in einem Supermarkt heraus, dass bestimmte Produkte häufig zusammen gekauft werden, so lässt sich der Umsatz vielleicht noch steigern, indem man beide Produkte in benachbarte Regale stellt.

Wie können solche Regelmäßigkeiten gefunden werden? Angesichts der heutigen Datenflut ist mit intensivem Nachdenken und schriftlichem Rechnen nach dem Vorbild Keplers wenig auszurichten. Wir sind auf die Hilfe von Computern angewiesen. "Intelligente" Verfahren zur Datenanalyse zu entwickeln ist daher die Hauptaufgabe des noch jungen Forschungsgebiets "Wissensentdeckung in Datenbanken" (Knowledge Discovery in Databases, KDD), das kurz auch "Data Mining" genannt wird.

Wesentliche Prinzipien sind schon in anderen Forschungsrichtungen ausgearbeitet worden. Die klassische Statistik hat die Datenanalyse zur hohen Kunst entwickelt; die Forschungsrichtung Künstliche Intelligenz stellt zum Lernen aus Beispielen verschiedene maschinelle Verfahren bereit: künstliche neuronale Netze, Fuzzy-Systeme, genetische Algorithmen. Der wesentlich neue Aspekt von KDD liegt in der Verknüpfung bekannter Verfahren und ihrer Anpassung auf große Datenmengen.

Im Laufe der Zeit haben sich typische Aufgaben herauskristallisiert, die Data-Mining-Verfahren lösen können sollten. Zu diesen gehören vor allem
- Klassifikation: Ist dieser Kunde kreditwürdig oder nicht?
- Konzeptbeschreibung: Welche Eigenschaften haben reparaturanfällige Fahrzeuge?
- Segmentierung: Wie lassen sich meine Kunden in aussagekräftiger Weise in Untergruppen einteilen?
– Prognose: Wie wird sich der Dollarkurs entwickeln?
- Abhängigkeitsanalyse: Welche Produkte werden häufig zusammen gekauft?
- Abweichungsanalyse: Gibt es jahreszeitliche Umsatzschwankungen?

Am häufigsten sind Klassifikations- und Prognoseprobleme, da ihre Lösung sich unmittelbar auf den Umsatz und den Gewinn eines Unternehmens auswirken kann. Aber auch Abhängigkeitsanalysen werden sehr oft benötigt, zum Beispiel wenn Verbundkäufe ausgewertet (Warenkorbanalyse) oder Ursachen für Fehler in technischen Geräten gesucht werden.

Einige Verfahren zur Lösung der genannten Aufgaben werden in den folgenden Beiträgen näher beschrieben. Im Allgemeinen liegen in einem Unternehmen die Daten nicht so vor, dass diese Verfahren unmittelbar angewandt werden könnten. Vielmehr müssen sie zunächst aufbereitet werden, was in der Regel sechzig bis neunzig Prozent des Gesamtaufwandes ausmacht. Dazu gehört etwa die Auswahl aussichtsreicher Datensätze und die Vereinheitlichung des Datenformats, vor allem wenn Daten aus verschiedenen Quellen zusammengeführt werden. Dann sind die Daten von Fehlern und Ausreißern zu säubern. Wenn die Datenmenge zu groß ist, empfiehlt es sich, sie zu reduzieren, indem man Stichproben zieht, Teile jedes Datensatzes ignoriert oder Datensätze zu Gruppen gleicher Eigenschaften zusammenfasst.

Nachdem auf die so vorverarbeiteten Daten Data-Mining-Verfahren angewandt wurden, müssen die Ergebnisse interpretiert, geprüft und bewertet werden. Denn obwohl die meisten Verfahren eine saubere theoretische Grundlage haben und sich Computer bei der Datenauswertung natürlich nicht verrechnen, sind die Ergebnisse nur als Hypothesen anzusehen, deren Korrektheit noch zu prüfen und deren Bedeutung noch von menschlichen Experten zu bewerten ist.

So liegt vielen Verfahren die Annahme zu Grunde, dass die auszuwertenden Daten eine Zufallsstichprobe sind. Dies ist jedoch fast nie der Fall. Die Daten wurden in der Regel zu anderen Zwecken gesammelt und geben daher die tatsächlichen Verhältnisse verzerrt wieder, was auf die Ergebnisse durchschlägt.

Ein automatisches Verfahren kann auch die Relevanz eines Ergebnisses nur schwer einschätzen. So wird ein Data-Mining-Verfahren aus Krankenhausdaten unweigerlich den statistisch bestens gestützten Schluss ziehen: "Alle schwangeren Patienten sind weiblich." Dem menschlichen Experten bleibt es überlassen, aus den Aussagen des Systems diejenigen herauszufiltern, die man sich nicht unbedingt vorher denken konnte.

Schließlich können selbst mit den schnellsten Rechnern nicht alle denkbaren Hypothesen getestet werden. Zwangsläufig beschränken sich die Systeme auf Fragen, die auf Grund gewisser plausibler Kriterien ("Heuristiken") aussichtsreich erscheinen. Dabei kann eine eigentlich interessante Antwort untergehen, weil die zugehörige Frage nicht gestellt wurde.

Unter Umständen ist der gesamte Wissensentdeckungsprozess aus Datenaufbereitung, Aufgabendefinition, Anwendung der Verfahren, Prüfung und Interpretation der Ergebnisse mehrmals zu wiederholen. Vielleicht gewinnt man ja doch noch neue Erkenntnisse, wenn man mehr oder andere Daten einbezieht, andere Teile jedes Datensatzes berücksichtigt oder ein anderes Verfahren anwendet. Neben der Verbesserung der Verfahren selbst ist es daher ein vorrangiges Forschungsziel, diesen Probierprozess durch geeignete Software zu unterstützen und (teilweise) zu automatisieren.

Aus: Spektrum der Wissenschaft 11 / 2002, Seite 80
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

  • Infos
Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.