Meinels Web-Tutorial: Wie weiß Google, was wo steht?

Eine Suchmaschine muss Inhalte finden. Aber mehr noch: Sie muss sie auch bewerten. Ohne diese Fähigkeit wäre das ganze Internet nutzlos, sagt unser Kolumnist Christoph Meinel.

von Christoph Meinel

Und wer findet so schnell die richtige Akte? — © BrianAJackson / Getty Images / iStock (Ausschnitt)

Was haben Tempo-Taschentücher und Aspirin mit Google gemeinsam? Alle diese Produkte haben es geschafft, zum unangefochtenen Standard ihrer Branche zu werden. Ihre Markennamen stehen - sogar verbrieft vom »Duden« - als Synonym für Taschentücher, Schmerztabletten und digitale Suchen. »Googlen« sagen die meisten wahrscheinlich selbst dann, wenn sie Bing oder Ecosia verwenden. Viele bezeichnen auch heute schon digitale Offline-Suchen als googlen. Wie hat es das Unternehmen aus dem Silicon Valley geschafft, in gerade einmal 20 Jahren zum unangefochtenen Weltmarktführer (nicht nur) für Websuche zu werden?

Google ist heute mit Abstand die meistbesuchte Website und hat in Deutschland einen Marktanteil von über 90 Prozent im Suchmaschinengeschäft. Das digitale Unternehmen war mit seinem Ansatz am erfolgreichsten damit, das exponentiell wachsende World Wide Web zu kartografieren und die Milliarden von Webseiten mit ihren unterschiedlichsten Angeboten im Netz für seine Nutzer auffindbar zu machen. Ohne Suchmaschinen hätte das Web nicht die Relevanz erlangen können, die es heute hat, einfach weil es für interessierte Nutzer unmöglich wäre, auf Grund der unüberschaubaren Vielzahl überhaupt Kenntnis von einer im Web erreichbaren Information oder einem dort angeboten Service zu erlangen.

Noch bis 2008 veröffentliche Google die Gesamtzahl der Webseiten (URLs), die es für seine Suchmaschine besucht und indexiert hatte, und das waren damals bereits über eine Billion. Seitdem werden keine Zahlen mehr veröffentlicht, aber es ist davon auszugehen, dass diese weiter sprunghaft gestiegen sind. Die Zahl der für die Suchmaschine erschlossenen Websites macht dabei dem Namen der Marke alle Ehre, denn »Google« leitet sich von »Googol« ab, die Bezeichnung für eine 1 mit 100 nachfolgenden Nullen.

Welche clevere Technik steckt hinter dem Begriff TCP/IP? Wie bekommt man Videos ins Netz? Und warum erscheint uns das Internet aus einem Guss, obwohl es aus Milliarden unterschiedlicher Rechner besteht? Das und mehr beleuchtet Informatikprofessor Christoph Meinel alle drei Wochen bei seinem Blick hinter die Kulissen des World Wide Web.
Alle Folgen gibt es hier: »Meinels Web-Tutorial«

Schon bald nach der Einführung des World Wide Web war klar, dass die Nutzer bald Dienste brauchen würden, mit denen sie die immer zahlreicheren Inhalte und Dienste finden können. Dazu waren verschiedene Strategien denkbar, die auch von unterschiedlichen Suchmaschinenherstellern mit unterschiedlichem Erfolg umgesetzt wurden. So findet man Webkataloge, indexbasierte Suchmaschinen, Metasuchmaschinen, Paid-Placement-Suchmaschinen und Ähnliche mehr.

Die Gelben Seiten fürs WWW

Webkataloge waren die klassische Art, das Web zu strukturieren. So wie in einer Bibliothek oder einem Versandkatalog werden Webdokumente von menschlichen Redakteurinnen und Redakteuren gesichtet, bestimmten thematischen Kategorien zugeordnet und alphabetisch oder nach Relevanz einsortiert.

Gegebenenfalls werden sie auch verworfen, wenn sie als irrelevant erscheinen. Das ist ein Vorteil von solchen Webkatalogen, dass sie Webseiten dank der redaktionellen Sichtung auf Qualität prüft können. Der Suchdienst Yahoo - vier Jahre vor Google online gegangen - arbeitete zunächst auf dieser Basis. Allerdings überstieg die händische Katalogisierung der Dokumente im Zuge der rasanten Ausbreitung des Webs bald die Grenze des Machbaren. Man kam selbst mit einer immer größeren Zahl von Mitarbeitenden mit der rasant steigenden Anzahl neuer Websites nicht mehr hinterher. Es wurde immer mühsamer, die neu hinzukommenden Websites überhaupt aufzufinden und in den Katalog aufzunehmen. Auch war es unmöglich, die dynamischen Veränderungen auf den einzelnen Dokumenten zeitnah zu verfolgen, so dass weder eine gewisse Vollständigkeit noch die Aktualität der katalogisierten Informationen gewährleistet werden konnte. So ereilte solche noch jungen Webkataloge das gleiche Schicksal wie das altehrwürdige Brockhaus-Lexikon - sie war zu antiquiert für die voll vernetzte dynamische Webwelt.

Schnell wurde klar, dass bei exponentiell wachsender Zahl von Webseiten und -dokumenten nur automatisierte Verfahren bei der Websuche eine Chance haben. Und Google war eines der ersten Start-ups, die auf diesem Weg mit einer indexbasierten Suchmaschine ein leistungsfähiges Angebot zur Websuche auf den Markt brachte. Die Aufbereitung der Webdokumente für die Suche, also die Datenbeschaffung, Dokumentanalyse und -bewertung sowie die Erstellung und Verwaltung einer Index-Datenstruktur läuft hier vollständig automatisch mit Hilfe von speziellen Softwarewerkzeugen, den so genannten (Web-)Robots beziehungsweise (Web-)Crawlern. Damit können automatisiert neue Webseiten gefunden, archiviert, nach Relevanz sortiert und aktuell gehalten werden.

Der Nachteil dieser Form von Katalogisierung ist natürlich, dass die Qualitätssicherung deutlich schwieriger ist, weil Maschinen Sinn und Bedeutung der Dokumente nicht verstehen. Die Qualität von indexbasierten Suchmaschinen hängt also von der Qualität der eingesetzten Algorithmen zur Qualitäts- und Relevanzbewertung ab. Und genau in diesem Feld tobt der Wettbewerb der besten Suchmaschinen.

Das Geheimrezept steckt im Algorithmus

Ein wesentlicher Grund für den Erfolg von Google war und ist es, über die Zeit bessere Algorithmen zur Bewertung von Webdokumenten als die Mitbewerber entwickelt und zum Einsatz gebracht zu haben. Auch wenn der Relevanz-Algorithmus von Google Verschlusssache ist und man annehmen kann, dass inzwischen auch betriebswirtschaftliche Aspekte darin einfließen, liegen die Methoden der beliebtesten Suchmaschine der Welt nicht ganz im Dunkeln.

Wenn Web-Crawler das Web kartografieren, arbeiten sie wie die anderen Internetprogramme nach dem Client-Server-Prinzip. Sie fordern bei WWW-Servern Webdokumente an, anschließend durchsucht der Crawler die Webseite nach Hyperlinks und fordert systematisch alle verlinkten Webseiten an. So arbeitet sich das Programm anhand der Milliarden von Links durch das Web und archiviert jede neue Website, deren Dokumente und die Veränderungen gegenüber dem letzten Besuch. Es entsteht so eine riesige Datenbank des Webs, in der die Informationen aus den HTML-Dokumenten in einheitlicher, maschinenlesbarer Weise zusammengetragen sind und ständig aktualisiert werden. Dabei können die, die den HTML-Code der Website verfassen, ein Wörtchen mitreden, indem sie dem Crawler über spezielle Meta-Tags ihre Wünsche mitteilen, bis hin zur Aufforderungen, die Indexierung ganz zu unterlassen.

Nachdem Web-Crawler die Daten aus den angeforderten Webseiten extrahiert haben, werden diese so aufbereitet, dass sie automatisiert weiterverarbeitet und in Bezug auf ihre Inhalte analysiert werden können. Dieser Prozess wird als Information Retrieval bezeichnet. Wenn dann sämtliche indizierte Daten in einheitlicher maschinenlesbarer Form vorliegen, können Relevanzfilter angelegt werden, und die eigentliche Kernaufgabe der Suchmaschine beginnt: die für eine Suchanforderung des Nutzers relevanten Informationen identifizieren und anzeigen.

Im Kern geht es dabei darum, zu ermitteln, welche Dokumente und Webseiten für die Suchanfrage inhaltlich relevant sind. Dabei hilft das zipfsche Gesetz. Es zeigt mit mathematischen, im wesentlichen statistischen Methoden, einen Zusammenhang zwischen dem Inhalt eines Dokuments und der Häufigkeit des Vorkommens einzelner Wörter im Dokument und besagt ganz vereinfacht, dass je häufiger gesuchte Wörter in einem Dokument vorkommen, desto relevanter ist die Webseite für den Suchanfragenden. Da Suchmaschinen den Inhalt eines Textes ja nicht verstehen können, sondern die einzelnen Wörter nur als Anreihungen bestimmter Buchstaben erfassen, können sie mit Hilfe des zipfschen Gesetzes aus dem Vorkommen einzelner Wörter und deren Häufigkeit »Rückschlüsse« auf den Inhalt eines Dokuments ziehen - und so die Dokumente nach ihrer Wichtigkeit im Hinblick auf eine konkrete Suchanfrage ordnen.

Weiterhin ist es möglich, mit Hilfe von Vektoranalysen die Relevanz von ganzen Webseiten zu bewerten. Man stellt dazu die in einem Dokument vorkommenden Wörter als Vektoren dar und kombiniert diese zu einem Dokumentenvektor. Wie ähnlich sich zwei Dokumente in ihrem Inhalt sind, lässt sich dann mit mathematischen Methoden aus deren Dokumentenvektoren berechnen.

Was geklickt wird, bekommt mehr Klicks

Neben diesen Techniken nutzt Google noch eine Vielzahl andere Gewichtungsverfahren und Tricks, um seine Suchfunktion zu verbessern. Der Page-Rank-Algorithmus beispielsweise bewertet eine Webseite als wichtig, wenn erstens viele andere Webseiten auf sie verlinken oder zweitens eine andere als wichtig eingestufte Webseite auf sie verweist. Drittens wird sie als eher unwichtig eingestuft, wenn sie auf sehr viele andere Dokumente verweist. Google analysiert auch das Feedback das Nutzer unwillkürlich geben, indem sie auf Suchergebnisse klicken. Wird ein Dokument häufiger ausgewählt als andere, die ebenfalls in der Ergebnisliste auftauchen, als desto wichtiger bewertet der Algorithmus dieses Dokument.

Es ist schon sehr bemerkenswert, dass Google und andere Suchmaschinen mit diesen recht einfachen mathematischen Mitteln so gute Ergebnisse erzielen. Allerdings haben diese Verfahren ihre Grenzen. Maschinen verstehen den Sinn und die Bedeutung von Webinhalten nicht, sondern können nur zählen, wie häufig Wörter vorkommen und in welchen Kombinationen. Eine wirklich »kluge« Suchmaschine beziehungsweise ein wirklich smartes Web bedarf aber weiterer Fortschritte beim Verständnis von Inhalten. Tatsächlich hat Google begonnen, auch eine »semantische Suche« einzuführen und sich nicht nur statistische Methoden für die inhaltliche Einschätzung von Dokumenten zu verlassen, sondern auch die inhaltliche Bedeutung der Wörter in den Dokumenten besser zu verstehen und zu bewerten. Damit begibt sich Google in die Domäne des »Semantic Web«, das sich selbst und seine Nutzer kennt und für jeden genau die richtigen Dokumente auffindbar macht. Doch davon in den nächsten Beiträgen mehr.

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!