Direkt zum Inhalt

Strategien der Informationssuche


Mitunter bezeichnet man das Internet als Weltbibliothek des digitalen Zeitalters. Doch davon ist es – selbst bei oberflächlicher Betrachtung – noch weit entfernt. Das ist auch nicht verwunderlich, denn dieses Netz der Netzwerke diente ursprünglich zur Kommunikation, nicht dem penibel geregelten Veröffentlichen und Abfragen von Inhalten; und das gilt insbesondere für seine als World Wide Web bekannte Sammlung von Multimedia-Ressourcen. Mehr und mehr wandelt es sich zu etwas völlig Neuem: zu einem chaotischen, aus allen Kontinenten unentwegt wahllos bestückten Sammellager für digitale Dokumente – Notizen, Zeitschriften und Bücher, wissenschaftliche Rohdaten, Homepages genannte Präsentationsseiten von Firmen und Privatpersonen, Protokolle von Online-Konferenzen, Werbeanzeigen, Video- und Tonaufnahmen. Manches davon verschwindet schnell wieder, anderes bleibt länger im Angebot, noch anderes unterliegt steter Veränderung.

Wenn das Internet sich jedoch als globales Kommunikationsmittel weiterentwickeln soll, sind Einrichtungen nach Art traditioneller Bibliotheksdienste erforderlich, um die vernetzten Informationen zu systematisieren, für Abfragen bereitzustellen und auch zu pflegen. Selbst wenn dies geschehen ist, wird sich das Internet von herkömmlichen Archiven unterscheiden, denn seine Inhalte sind weiträumig – eben weltweit – verteilt gespeichert. Somit müssen die Fertigkeiten von Bibliothekaren, Dokumente zu klassifizieren und anhand gezielter Fragen auszuwählen, um die der Informatiker erweitert werden, Verfahren zur automatischen Indizierung und Speicherung von Daten zu entwickeln. Nur wenn diese Synthese gelingt, kann das neuartige System die Erwartungen der bislang schon aktiven und der potentiellen künftigen Benutzer dauerhaft erfüllen.


Alle Daten sind gleichwertig

Gegenwärtig obliegt die Organisation der Inhalte nicht direkt Menschen, sondern aktueller Computertechnologie. Denn während Bibliographen wegen der Informationsflut völlig überfordert wären, vermögen Software-Programme – zumindest theoretisch – die riesigen Datensammlungen selbständig zu klassifizieren und zu indizieren. Menschliche Arbeitskräfte wären zudem vergleichsweise langsam und teuer, automatische Verfahren hingegen arbeiten schnell und nutzen die rasch sinkenden Hardware-Kosten aus.

Wie so oft liegen zwischen Theorie und Praxis aber Welten. Anders als Menschen es tun würden, behandeln sogenannte Suchmaschinen – automatische Indizierungs- und Katalogisierungswerkzeuge – alle Daten im Netz prinzipiell gleichwertig. Demzufolge erhält man nach Eingabe eines Schlagwortes nur allzuoft eine Liste mit Tausenden von Fundstellen, die großenteils für das Anliegen irrelevant sind, während wichtige Quellen ungenannt bleiben.

Zum Verständnis will ich die Vorgehensweise von Web-Suchmaschinen wie Lycos oder AltaVista skizzieren. Diese Systeme finden die gewünschten Informationen auf der Grundlage selbsterstellter Indizes. Dazu senden sie in regelmäßigen Abständen spezielle Programme – Web-Crawler, Spinnen oder Index-Roboter genannt – zu jeder Adresse, die sie im Netz ausmachen können. Diese sogenannten Internet-Sites bieten jeweils die Dokumente an, auf die über das Netz zugegriffen werden kann; im World Wide Web spricht man von Seiten. Crawler laden und prüfen sie und extrahieren daraus Index-Informationen zu ihrer Beschreibung (Bild 1). Manche Suchmaschinen erstellen dazu einfach eine möglichst umfassende Liste der auf einer Seite vorkommenden Wörter, während andere komplexe Analysen zur Identifizierung von Schlüsselwörtern durchführen (Bild 3); das Programm Excite sucht sogar anhand von Konzepten die Dokumente Themenkreisen zuzuordnen und findet deshalb später auch solche, in denen der Suchbegriff nicht vorkommt.

Die Resultate werden zusammen mit der Adresse der zugehörigen Seite, genannt uniform resource locator oder URL, in der Datenbank der Suchmaschine abgelegt. Richtet ein Internet-Nutzer eine Anfrage an einen solchen Dienst, wird dessen Datenbank erkundet. Das Suchergebnis ist eine Liste von Adressen, die man mit der Maus anklicken kann, um sie sich anzusehen. (Das Internet ist nach dem Client-Server-Modell strukturiert: Ein Client-Programm auf dem Rechner des Nutzers – im Web Browser genannt – wickelt die Kommunikation mit Server-Computern ab, auf denen Informationen etwa in Datenbanken oder als Web-Seiten liegen, und stellt die empfangenen Inhalte dar.)


Unzulänglichkeiten der automatischen Indizierung

Suchmaschinen bearbeiten täglich Millionen von Anfragen. Offensichtlich ist ihr Vorgehen aber, wie schon gesagt, bei weitem nicht optimal. Günstiger wäre es, sie könnten wie menschliche Bibliothekare wichtige Texteigenschaften wie Sachgebiet oder Gattung erkennen. Doch ob Gedicht, offener Brief eines Psychopathen oder Werbetext – den Programmen ist alles gleich.

Noch immer fehlen auch Normen, die eine automatisierte Indizierung erleichtern würden. Die Dokumente im Netz sind darum nicht so strukturiert, daß gewisse Grundangaben verläßlich zu ermitteln wären. Ein Mensch erkennt bereits bei oberflächlicher Prüfung Metadaten wie Autor, Datum der Veröffentlichung, Textlänge oder Thema. Auch ein Web-Crawler kann einen bestimmten Artikel von Jane Doe ausfindig machen; gleichzeitig findet er aber eventuell Tausende weiterer, in denen der Name im Text oder auch nur in der Bibliographie vorkommt.

Zahlreiche Anbieter mißbrauchen derlei Schwächen, um Aufmerksamkeit auf eine Site zu lenken: Weil die meisten Suchmaschinen in der Liste der Fundstellen zuerst die URLs anzeigen, die den gesuchten Begriff am häufigsten enthalten, wiederholen sie häufig abgefragte Worte – beispielsweise "Sex" – dort besonders oft; entsprechende Statistiken lassen sich im Netz leicht programmgestützt erstellen.

Ein menschlicher Indexgestalter kann hingegen die Bestandteile einzelner Seiten – vom Text bis zur Filmsequenz – und ihren Zusammenhang beschreiben und strukturiert in einer Datenbank ablegen. So würde er einen Satz Photographien von der Marne-Schlacht 1914 einer Sammlung über den Ersten Weltkrieg zuordnen, zu der auch zeitgenössische Literatur und Musik oder Soldatentagebücher gehören. Regeln, nach denen diese übernommenen Seiten zu lesen oder zu erweitern sind, vermag er ebenfalls zu erkennen und festzulegen. Index-Roboter hingegen können Zweck, Geschichte und Strategien von Sites nicht berücksichtigen.

Außerdem verarbeiten die meisten Suchmaschinen ausschließlich Text. Das große Interesse am Web beruht jedoch wesentlich auf dem Angebot stehender und bewegter Bilder. Deshalb sucht man unter anderem, darin mittels Programmen signifikante Farben und Muster aufzuspüren (siehe Kasten Seite 93). Sowenig aber bislang ein Computer den Inhalt von Text zu verstehen vermag, läßt sich auch die Bedeutung einer Graphik, eines Photos oder einer Viedeoaufnahme automatisch im kulturellen Kontext ableiten. Wie wäre einem Web-Crawler beizubringen, eine an einem Tisch sitzende und eine Mahlzeit einnehmende Gruppe von Männern zu erkennen und als Leonardo da Vincis berühmtes "Abendmahl" zu identifizieren?

Überdies ändert sich derzeit die Struktur der angebotenen Informationen, so daß sie häufig den Suchmaschinen nicht mehr zugänglich sind. Beispielsweise erstellen professionell genutzte Rechner Internet-Seiten erst aufgrund konkreter Benutzeranfragen; man spricht von dynamischen Web-Seiten. So plant Spektrum der Wissenschaft, seinen Abonnenten in naher Zukunft ein Archiv veröffentlichter Artikel sowie einen Nachrichtendienst anzubieten. Diese Datensätze werden nicht ständig im Netz aufliegen, sondern erst auf Anfrage zusammengestellt, so daß der jeweilige Kunde nur die aktuell gewünschte Information erhält. Die zugrundeliegende Datenbank können Index-Roboter freilich nicht durchsuchen.

Lösungsansätze

Zumindest einige Probleme ließen sich dadurch lösen, daß Metadaten an statische Seiten angehängt und so Indiziersystemen verfügbar würden. Nach diesem Konzept am weitesten fortgeschritten sind die Programme Dublin Core Metadata, benannt nach einem Workshop in Dublin (Ohio), und Warwick Framework, bezeichnet nach einem Kolloquium im britischen Warwick. Bei diesen Treffen wurden jeweils ein Satz von Metadaten-Elementen definiert und Verfahren zu ihrem Anhängen an Internet-Seiten entwickelt.

Die Definitionselemente sollten dabei einfacher sein als die in der traditionellen Bibliothekskatalogisierung verwendeten, etwa Titel und Autor, aber auch Art des Dokuments, also beispielsweise seine Einordnung als Text oder Filmsequenz. Diese Angaben können automatisch oder von Menschen erstellt werden.

Sofern die Kosten vertretbar sind, haben Menschen mit dem mühseligen Erstellen von Bibliographien einiger Web-Sites bereits begonnen. Die Suchdatenbank Yahoo, ein kommerzielles Unternehmen, klassifiziert nach groben Themenbereichen. Mehrere Projekte, darunter eines an der Universität von Michigan in Ann Arbor, befassen sich mit der formalen Beschreibung wissenschaftlich interessanter Dokumentationen.

Unterschiedliche Strategien

In welchem Umfang menschliche Klassifizierungsfertigkeiten sowie fortschrittliche automatische Indizierungs- und Suchstrategien erforderlich sind, das wird von den Nutzern des Internet und dem kommerziellen Nutzen für Verlage abhängen. Für Wissenschaftler dürfte das Modell eines organisierten Datenbestandes – einer digitalen Bibliothek – weiterhin interessant sein. Andere Anwender bevorzugen möglicherweise ein nicht kontrolliertes, allen Informationsquellen gleiche Verbreitungsmöglichkeiten gewährendes Medium. Wieder andere Benutzer, von Finanzanalytikern bis hin zu Mitarbeitern von Geheimdiensten, wünschen umfassenden Zugriff auf Rohdatenbanken ohne Kontrolle oder Überarbeitung; für sie sind die vorhandenen Suchmaschinen ideal, weil sie keine Daten filtern.

Die Vielfalt des Materials im Netz geht aber weit über das Angebot einer herkömmlichen Bibliothek hinaus. Anders als dort wäre beispielsweise eine Qualitätseinstufung von Nutzen, um die Zeit für eine thematisch genau umrissene Recherche zu minimieren. Wer nur drei für einen bestimmten Zweck optimale Dokumente sucht, möchte weder Hunderte uninteressanter sichten, noch anteilig die Kosten für deren Prüfung durch eigens angestelltes Personal tragen. Doch wer soll entsprechende Leitlinien erstellen? Eine Lösung wäre, daß sich alle Netzbenutzer den Aufwand teilen, indem sie eine Seite jeweils beim ersten Zugriff beurteilen; weitere Interessenten hätten dann einen Anhalt für die Qualität des Angebots. Es gibt bereits Bewertungsprogramme, die Web-Dokumente derart beschreiben.

Wahrscheinlich bedarf es auch neuer Verfahren, Index-Roboter gezielt mit Informationen zu füttern. Einige Web-Manager beklagen, daß ihre Server mittlerweile einen wesentlichen Teil ihrer Zeit Suchmaschinen anstatt Nutzer bedienen. Und die Staus auf der Datenautobahn erklären sich zumindest teilweise dadurch, daß Web-Crawler Seiten zu ihren Servern transferieren und damit Leitungskapazität belegen.

Mike Schwartz und seine Kollegen an der Universität von Colorado in Boulder entwickelten deshalb das Programm Harvest, das Indexdaten für Seiten zusammenstellt und sie auf Anfrage an Suchmaschinen verschickt (Bild 4). Wesentlicher Bestandteil sind automatische Sammler, die kurze Dateien über Seiten versenden, die seit dem letzten Zugriff geändert wurden – die Datenbanken der Suchdienste sind damit immer auf dem neuesten Stand. Auf diese Weise verringert sich sowohl die Belastung des Netzes wie die der Server.

Mit solchen Sammlern läßt sich auch festlegen, welche Daten überhaupt allgemein zur Verfügung stehen. Eine derartige Beschränkung ist dringend erforderlich, denn das Internet bietet mehr und mehr Zugriff auf geschützte Informationen, die gegen Entgelt bereitgestellt werden und Web-Crawlern nicht immer zugänglich sein sollten. Sammler leiten nur die von den Verlegern erwünschten Daten weiter, beispielsweise Verknüpfungen mit Inhaltsangaben beziehungsweise mit Auszügen aus den online angebotenen Texten und kostenfrei einsehbare Informationen etwa über Abrechnungsmodalitäten.

Von den Benutzern des Internet wird es abhängen, welches Vorgehen sich bei der Informationserfassung durchsetzt. Solche, die bereit sind, eine Gebühr für die Werke von Autoren und Verlagen, für Indexe, Zusammenfassungen und Rezensionen zu bezahlen, können die bibliothekarische Tradition erhalten. Für andere Fälle, in denen Informationen kostenlos zur Verfügung gestellt oder durch Werbung bezahlt werden, bleibt die derzeit vorherrschende kostengünstige Indizierung durch Computer erforderlich. Nicht technische Entwicklungen, sondern gesellschaftliche und wirtschaftliche Faktoren werden also wesentlich die Gestaltung der Informationsabfrage im Internet beeinflussen.

Literaturhinweise

– The Harvest Information Discovery and Access System. Von C. M. Bowman und anderen in: Computer Networks and ISDN Systems, Band 28, Heft 1 bis 2, Seiten 119 bis 125, Dezember 1995, und unter http://harvest.transarc.com – The Warwick Metadata Workshop: A Framework for the Deployment of Resource Description. Von Lorcan Dempsey und Stuart L. Weibel in: D-lib Magazine, Juli bis August 1996, und außerdem unter http://www.dlib.org/dlib/july96/07contents.html – The Warwick Framework: A Container Architecture for Diverse Sets of Metadata. Von Carl Lagoze, ebenda.


Aus: Spektrum der Wissenschaft 5 / 1997, Seite 90
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Kennen Sie schon …

Spektrum - Die Woche – Riechverlust als Warnsignal

Der Geruchssinn kann dabei helfen, neurologische und psychische Erkrankungen früher zu erkennen. Warum das so ist und ob ein plötzlicher Riechverlust tatsächlich auf Alzheimer, Parkinson oder Depressionen hinweist, lesen Sie ab sofort in der »Woche«. Außerdem: Bekommt Google Konkurrenz?

Spektrum - Die Woche – Die zwei Gesichter der Intelligenz

In dieser Ausgabe widmen wir uns der Intelligenz, wie Covid-19 das Gehirn beeinträchtigen kann und wie es um die tiefe Geothermie steht.

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.