Keine Angst vor der Ähnlichkeit

News: Keine Angst vor der Ähnlichkeit

Die Flut an Informationen, die in der heutigen Zeit auf uns einstürzt, ist wirklich überwältigend. Aber hilfreich ist sie nur, wenn man die benötigten Informationen auch findet. Oft scheitern Suchen in Datenbanken oder im Internet jedoch aufgrund ungenauer Fragen von Seiten des PC-Benutzers, da dem Computer assoziative Fähigkeiten fehlen. Jetzt haben deutsche Informatiker einen an künstlicher Intelligenz orientierten Datenbankindex entwickelt, der auch inhaltliche Ähnlichkeiten berücksichtigen kann, in dem er die Daten nach bestimmten Kriterien in eine Art Taxonomie einordnet.

Wer hat nicht auch schon einmal ein Reisebüro mit seinen Anforderungen an eine Urlaubsreise beglückt: In die Berge soll es gehen, mit dem Auto. Ehefrau, zwei Kinder und der Hund sollen mit – und die Nachbarn. Ja, die haben drei Kinder. Nein, keinen Hund. Halbpension wäre gut. Ruhig soll das Quartier sein, aber für die Kinder wäre ein Erlebnisprogramm genau richtig. Ein Bauernhof zur besten Reisezeit mitten in den Ferien und – ach ja, kosten darf es auch nicht viel! "Dies ist ein typisches Beispiel aus dem täglichen Leben, in dem der Mensch mit seiner Erfahrung und seinem erlernten Wissen besser ist, als die meisten Computer", weiß der Chemnitzer Datenbankexperte Wolfgang Benn. "Die Mitarbeiter des Reisebüros kennen ihr Angebot und geben dem Kunden ausgewählte Kataloge mit – das eigentliche Suchen nach dem passenden Urlaubsziel bleibt diesem dann allerdings meist selbst überlassen." Ähnlich ist es bei Versandhauskatalogen: Die Kunden durchsuchen das Warenangebot nach Merkmalen, wie Bedarf, Aussehen, Qualität oder Preis, um dann über den Kauf eines Artikels zu entscheiden. Und selbst Anfragen an Suchmaschinen im Internet folgen diesem Muster, indem sie buchstabengetreu nach Begriffen oder Kategorien suchen und dem Benutzer schließlich die Auswahl der gesuchten Information aus langen Listen mit Seitenadressen selbst überlassen.

Informatiker versuchen derartige Probleme mit Datenbanken und intelligenten Verzeichnissen für die darin enthaltenen Daten – sogenannte Indexe – zu lösen. Allerdings mit bislang mäßigem Erfolg, denn Datenbanken suchen lediglich nach einem einzigen Merkmal effizient und nur relativ schwerfällig nach einem Kriterien-Mix. Außerdem ist "Ähnlichkeit" einer der ungeliebtesten Begriffe im Datenbankbereich: "Hier soll alles möglichst exakt festgelegt und dauerhaft präzise sein", so Benn. Der Leiter der Forschungsgruppe für Datenverwaltungssysteme der Technischen Universität Chemnitz und sein Team haben jedoch vor dem Begriff Ähnlichkeit keine Angst. "Uns ist es gelungen, einen Datenbankindex zu erzeugen, der die inhaltliche Ähnlichkeit von Daten berücksichtigt und dazu beliebig viele Merkmale auswertet: den sogenannten Intelligenten Cluster Index ICIx. Vergleiche von Merkmalen, die heute nur komplizierte Anwendungsprogramme lösen, erledigt die Datenbank selbst und bietet von sich aus Gruppen mit ähnlichen Eigenschaften an", erklärt Benn. Erstmals präsentieren die Chemnitzer Informatiker ihre Entwicklung vom 24. Februar bis 1. März 2000 auf der CeBIT in Hannover (Halle 16, Stand B23).

Der von den Forschern gewählte Ansatz orientiert sich an der Künstlichen Intelligenz (KI). Durch die Weiterentwicklung von KI-Mechanismen und ihre Anpassung an die Anforderungen aus dem Datenbankbereich entstand ein Verfahren, das zunächst eine hierarchische Ordnung der gespeicherten Datenobjekte erzeugt. Es entsteht das, was die Biologen eine Taxonomie nennen – also eine Einordnung in systematische Kategorien. Danach werden datenbanktypische Indexstrukturen aufgebaut, die den Kriterien-Mix auf ein einziges Merkmal verdichten. Der eigentliche Datenzugriff ist damit hoch optimiert und schnell. Im Vergleich zu Standardverfahren mit sogenannten Sekundärindexen bei kommerziell eingesetzten Systemen (Oracle-Testdatenbank mit etwa 20 000 Einträgen; gleichzeitige Auswertung von 100 Merkmalen) war der Chemnitzer Prototyp 16-mal so schnell, und auch gegenüber etablierten mehrdimensionalen Indexverfahren hatte der Prototyp deutlich die Nase vorn. Das Verfahren kann prinzipiell für alle Arten von Datenbanken verwendet werden.

Und weil der Einsatzbereich des entwickelten Indexes traditionelle Problembereiche ebenso umfasst, wie technologische Frontbereiche – etwa Data Warehouse, Data Mining oder objektorientierte Datenbanken – steht das Verfahren unmittelbar vor dem industriellen Einsatz. So könnte es sein, dass in naher Zukunft die Mitarbeiter im Reisebüro die Wünsche ihres Kunden in eine einzige Datenbankanfrage eintragen und diesem aus der Fülle des Angebots ein oder mehrere genau passende Reisevorschläge präsentieren – wenn der dann nicht doch lieber ohne die Nachbarn an die See fahren will ...