Direkt zum Inhalt

Wissenschaft im Internet: Durch das Internet mit Links



Wie findet der einzelne Nutzer in der "allwissenden Müllhalde" Internet genau die verlässliche Information, die er sucht? Immerhin stehen dem wissbegierigen User auf über 36 Millionen Web-Angeboten (Sites) mehr als vier Milliarden Einzelseiten zur Verfügung. Deshalb gibt er meist in ein eigens dafür konzipiertes Internet-Programm, eine so genannte Suchmaschine, eine Kombination von Suchwörten ein und erhält eine Liste von Webseiten, in denen diese Wörter vorkommen. Nur allzuoft enthält diese Liste einen hohen Anteil Unbrauch-bares, denn aus dem bloßen Vorhandensein eines Wortes geht nicht hervor, ob die Webseite zu dem zugehörigen Begriff etwas zu sagen hat.

Mehr Sinn steckt schon in den in Hyperlinks, anklickbaren Verweisen, die der Autor der Webseite selbst in diese eingefügt hat. Das Web lässt sich als ein riesiges Netz aus Knoten auffassen, die durch die Hyperlinks miteinander verknüpft sind. Spezielle Computerprogramme sind in der Lage, in diesem unübersehbaren, zufällig erscheinenden Fadengewirr eine gewisse Ordnung zu finden (Spektrum der Wissenschaft 8/1999, S. 44). Dabei erweist sich die Hyperlink-Struktur oftmals als ein deutlicheres Kennzeichen für die inhaltliche Verwandtschaft von Webseiten als noch so geschickt gewählte Suchbegriffe.

Alle Verknüpfungen im gesamten Internet unter die Lupe zu nehmen scheitert jedoch an ihrer riesigen Menge. Deshalb haben Gary Flake und seine Kollegen vom Forschungsinstitut der amerikanischen Firma NEC in Princeton einen etwas anderen Weg gewählt. Sie beschränken sich nicht auf eine vorgegebene Menge von Seiten, sondern wählen zunächst eine aus, die als Keimzelle für eine so genannte Community (Gemeinschaft) dient. Kandidaten für die Community sind zunächst die Webseiten, die mit der Keimzelle direkt oder indirekt über (ein- oder ausgehende) Hyperlinks verknüpft sind. Durch einen raffinierten Algorithmus wird dann bestimmt, welche Webseiten endgültig zur Community gehören: Per Definition ist jedes Mitglied einer Community mit mehr Mitgliedern als Nicht-Mitgliedern verbunden. Das Computer-Programm der NEC-Forscher identifiziert somit ausgehend vom gewählten Startpunkt die Gemeinschaft, die sich selbstorganisiert über die Hyperlinks im Internet gebildet hat (IEEE Computer, Bd. 35, S. 66, 2002).

Ein Beispiel für diese Methode findet sich unter http://webselforganization.com/example.html. Dort hat der Algorithmus der NEC-Forscher einer Internetseite mit Themen zum 11. September eine Gemeinschaft von mehr als 6000 weiteren Seiten zugeordnet – nur aufgrund der Verknüpfungen über Hyperlinks und ohne Zuhilfenahme von Text-informationen. Innerhalb dieser Community führt das Suchwort "why" nun sofort auf Seiten, die sich mit der Frage "Why did it happen and why did the buildings collapse?" beschäftigen. Auch die an-sonsten mehrdeutigen Begriffe "bin" und "laden" führen nicht mehr in die Irre, sondern auf Informationen über Usama Bin Laden.

Filtersoftware zur Abwehr pornografischer oder anderer anstößiger Web-Inhalte könnte mit dem Community-Algorithmus noch treffsicherer werden. Wie sich herausstellt, ist eine Pornografie-Seite nicht unbedingt am Vorhandensein gewisser Reizwörter zu erkennen, die von den Betreibern vielleicht mit Fleiß vermieden werden, sondern weit zuverlässiger daran, dass sie auf andere Pornografie-Seiten verweist oder auf sie von diesen verwiesen wird. Auch sind effektivere Suchmaschinen denkbar, bei denen sich text- und linkbasierte Methoden geschickt ergänzen.

Allerdings läuft man im kurzlebigen Internet oft ins Leere. Was nützt der schönste Fund, wenn die zugehörige Internetseite nicht mehr existiert? John Markwell und David Brooks von der Universität von Nebraska in Lincoln haben das bei den von ihnen entwickelten Web-basierten Kursen zur Biochemie (http://dwb.unl.edu/Teacher/NSF/C10/C10.html, -C11/C11.html und -C08/C08.html) schmerzlich zu spüren bekommen: Häufig fielen Hyperlinks aus – als würden aus einem Lehrbuch immer wieder Seiten ausgerissen. Einen vorläufigen Bericht dazu haben Markwell und Brooks unter http://www-class.unl.edu//biochem/url/broken_links.html veröffentlicht. Ihr Ergebnis: Hyperlinks haben eine Halbwertszeit von etwa 55 Monaten. Nach dieser Zeit sind somit die Hälfte von ihnen "zerbrochen", nach 13 Monaten schon 16,5 Prozent. Dabei erwiesen sich die Links von Regierungsstellen (Kürzel .gov) mit nur vier Prozent Verlust als einigermaßen robust, solche von Bildungsstätten (.edu) mit 17,5 Prozent als besonders kurzlebig. Diese Resultate haben die Begeisterung von Markwell und Brooks für die Verwendung von Hyperlinks erheblich gedämpft.

Der Psychologe Ulf-Dietrich Reips von der Universität Zürich hat das Problem bereits seit längerem erkannt und für sich gelöst. Der Spezialist für psychologische Web-Experimente verweist nicht nur auf die Experimente seiner Kollegen, sondern archiviert sie gleich komplett unter der Adresse http://130.60.239.96/wexlist/, um sie so langfristig verfügbar zu halten.

Aus: Spektrum der Wissenschaft 5 / 2002, Seite 111
© Spektrum der Wissenschaft Verlagsgesellschaft mbH
5 / 2002

Dieser Artikel ist enthalten in Spektrum der Wissenschaft 5 / 2002

Lesermeinung

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Leserzuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Leserzuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmer sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Lesermeinungen können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!