Direkt zum Inhalt

News: Wer suchet, der findet - jetzt auch im Internet

Das World Wide Web (WWW) ist eine fast unerschöpfliche Informationsquelle. Da jedoch von Regierungen, Universitäten und Firmen bis hin zu Sechstkläßlern und Anhängern von Verschwörungstheorien buchstäblich Millionen von Seiten veröffentlicht werden, wird ein Problem immer dringender: Wie findet ein Nutzer im Internet die Informationen, die er tatsächlich gerade benötigt? Ein neuer Algorithmus für Suchmaschinen soll hier die dringend benötigte Unterstützung bringen.
Jon Kleinberg, Professor für Computerwissenschaften an der Cornell University, hat eine neue Methode für die Suche im Web entwickelt. Das Ergebnis soll nicht nur aus einer Auflistung der informativsten Seiten zu einem bestimmten Thema bestehen, sondern auch noch Listen der Sites enthalten, die auf Verweissammlungen zu diesem Thema hinweisen. Die Resultate erster Testläufe sind vergleichbar mit Listen, die von Web-Suchexperten sorgfältig zusammengestellt wurden. Vorgestellt wurde eine Auswertung der Methode in einem Vortrag von Kleinberg, David Gibson von der Fakultät für Computerwissenschaften von der University of California in Berkeley und mehreren IBM-Forschern auf der siebten International World Wide Web Conference, die vom 14. bis 18. April in Brisbane, Australien, stattfand.

Die meisten populären Suchmaschinen im Internet wie Lycos oder AltaVista suchen nach Stichwörtern, die im Text von Webseiten enthalten sind. Wie viele Nutzer aus leidvoller Erfahrung wissen, kann dies bei einigen Themen zu Hunderten oder gar Tausenden von Ergebnis-Hinweisen führen. Der von Kleinberg entwickelte Algorithmus analysiert nach einer solchen Volltextrecherche die Art und Weise, wie Web-Seiten miteinander verknüpft sind. Die zugrundeliegende Annahme ist, daß die informativsten Seiten über ein bestimmtes Thema jene sind, auf die am häufigsten von anderen Seiten aus verwiesen wird.

Kleinbergs Methode kann mehr als nur Seiten mit nützlichen Informationen zu einem Thema identifizieren, die er authorities, also "Autoritäten", nennt. Es werden auch jene Seiten gefunden, die viele Verweise auf Seiten mit nützlichen Informationen zu dem gewünschten Thema enthalten. Solche Linksammlungen werden von ihm als hubs, das bedeutet "Verteiler", bezeichnet.

Die besten Autoritäten, sagt Kleinberg, sind jene, die auf die besten Verteiler verweisen, und die besten Verteiler sind wiederum jene, die Links auf die besten Autoritäten enthalten. Kleinberg verhindert, daß dies ein Ringschluß wird, indem er die Beziehungen mehrere Male berechnet und sich dabei einem idealen Ergebnis immer ein Stückchen weiter nähert. Diese Technik wird als Hyperlink-Induced Topic Search (HITS) bezeichnet. Ein von Kleinberg geschriebenes Suchprogramm, welches auf HITS basiert, beginnt mit einer gewöhnlichen Textsuche zu einem Thema mit Hilfe einer Suchmaschine wie AltaVista. Damit wird ein Grundbestand von ungefähr 200 Seiten aufgebaut, die das eingegebene Stichwort enthalten. Dieser Bestand wird dann um alle Seiten erweitert, die mit Seiten im Grundbestand verknüpft sind. Der ausgebaute Bestand kann dann 1 000 bis 3 000 Seiten umfassen.

Von da ab werden nur noch die Verknüpfungen der Seiten beachtet. Beim ersten Durchlauf selektiert das Suchprogramm die Seiten, die die meisten Verweise von anderen Seiten erhalten und weist ihnen ein bestimmtes "Gewicht" zu. Auf der Grundlage dieses Wertes kann beurteilt werden, ob sie sehr wahrscheinlich zu den Autoritäten zu zählen sind. Gleichzeitig werden die Seiten notiert, die viele Links auf andere Seiten enthalten, und ihnen mehr Gewicht als Verteiler zugeordnet.

Diese Berechnung wird mehrere Male wiederholt. Jedes Mal weist das Programm Seiten mit Links zu Sites mit einer hohen Bewertung als Verteiler ein größeres Gewicht an Autorität zu. Gleichzeitig wird für die Seiten, die auf Sites mit hohen Autoritätswerten verweisen, das Verteiler-Gewicht heraufgesetzt. Nach Kleinbergs Meinung reichen zehn Wiederholungen aus, um überraschend genaue Listen von Autoritäten und Verteilern zu erstellen.

Durch die neue Methode werden auch Seiten selektiert, die bei einer reinen Textsuche nicht gefunden würden. Zum Beispiel befand sich bei einer Textsuche nach "Gates" die Microsoft-Homepage nicht in der Ergebnisliste, weil der Microsoft-Vorstandsvorsitzende Bill Gates auf der Eröffnungsseite nicht erwähnt wurde. Bei Kleinbergs System zählt sie aufgrund der auf sie zeigenden Links dazu.

Ein weiteres Problem heutiger Suchmaschinen ist die Vieldeutigkeit von Begriffen. Eine Suche nach "Jaguar" produziert ein Wirrwarr von Seiten über Autos, Tiere, das Football-Team der Jacksonville Jaguars und den veralteten, aber immer noch viel diskutierten Computer Atari Jaguar. Kleinbergs Methode geht hier einen neuen Weg: Steht ein Wort für mehr als ein Thema, dann werden die Sites automatisch in communities – "Gemeinschaften" – von Autoritäten und Verteilern geordnet, wobei jede Gemeinschaft eines der möglichen Themen repräsentiert. So produziert eine HITS-Suche nach "Jaguar" zuerst eine Liste mit einer Gemeinschaft von Sites zum Thema Jaguar-Computer, weil die Anzahl der Web-Sites zu diesem Thema vorherrschen. Danach werden communities zum Thema Football-Team und Auto aufgeführt. Schließlich finden sich noch vereinzelte Informationen über das Tier Jaguar.

Gemeinschaften werden auch gebildet wenn ein Thema kontrovers dargestellt wird: Eine Suche nach "Abtreibung" produziert separate Gemeinschaften von Sites, auf denen Einstellungen pro oder contra vertreten werden. Sites in denen dieselbe Meinung vorherrscht, sind dichter miteinander verknüpft als mit anderen Sites, mit gegenteiligen Meinungen.

Aber einen Nachteil der neuen Methode sieht auch Kleinberg noch. Auf schon von vornherein genau eingegrenzte Anfragen reagiert es häufig mit Ergebnismengen, die thematisch viel zu umfassend sind. Zum Beispiel erzeugt eine Suche nach "Netscape 4.04" eine allgemeine Liste über Sites mit Informationen zu Web-Browsern.

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.