Semantic Web: Wie das Internet Inhalte verstehen könnte

Meinels Web-Tutorial: Die Vision des intelligenten Webs

Es wäre der nächste große Schritt in der Entwicklung des WWW: ein Netz, das Inhalte versteht. Ansätze dafür gibt es bereits, schreibt unser Kolumnist Christoph Meinel.

von Christoph Meinel

Das Semantic Web könnte das Internet revolutionieren — © metamorworks / Getty Images / iStock (Ausschnitt)

Die Erfindung des Webs und seine rasche globale Verbreitung ist eine historisch einmalige Erfolgsstory. Erst 1990 eingeführt, ist das WWW heute die größte Informations- und Interaktionsquelle der Menschheit geworden und wächst beständig und exponentiell weiter. Während es 1991 gerade einmal ein paar Dutzend Websites gab, sind es heute schon fast zwei Milliarden mit geschätzt 100 Milliarden Webdokumenten. Und alle sechs Monate verdoppelt sich die Anzahl der Webdokumente. Das Web droht damit Opfer seines eigenen Erfolgs zu werden, denn wer blickt bei einer solchen immensen Zahl an Informationen noch durch? Die einschlägigen Suchmaschinen leisten ihren Beitrag, den Webinformationsraum zu strukturieren und überschaubar zu machen. Ohne sie wären Nutzer des WWW heillos überfordert. Aber auch Suchmaschinen »sehen« nur einen Teil des Web. Im »Deep Web«, das ist der Teil des WWW, der nicht über eine Suchmaschine gefunden werden kann, existieren eine weitere unüberschaubare Anzahl von Webseiten und -dokumenten. Ebenso im »Dark Web«, zu dem man sich den Zugang nur durch die Nutzung bestimmter Anonymisierungsprogramme beschaffen kann.

Aber selbst in dem Bereich, den traditionelle Suchmaschinen »sehen« können, fehlen ihnen Fähigkeiten, die Suchergebnisse inhaltlich zu ordnen und zu strukturieren. So steht die große Frage im Raum, wie man es schafft, die Informationen, die uns das Web bereitstellt, so aufzuarbeiten, dass jeder mit seinen ganz eigenen Ansprüchen den vollen Nutzen daraus ziehen kann. Gefragt ist ein »intelligentes« Web, das jedem Nutzer individuell die Inhalte mit genau den für seine Person relevanten Informationen bereitstellt, eine Version des Webs, die gerne auch als »Web 3.0« oder »Semantic Web« bezeichnet wird.

Welche clevere Technik steckt hinter dem Begriff TCP/IP? Wie bekommt man Videos ins Netz? Und warum erscheint uns das Internet aus einem Guss, obwohl es aus Milliarden unterschiedlicher Rechner besteht? Das und mehr beleuchtet Informatikprofessor Christoph Meinel alle drei Wochen bei seinem Blick hinter die Kulissen des World Wide Web.
Alle Folgen gibt es hier: »Meinels Web-Tutorial«

Warum ist es so schwierig, ein solches intelligentes Web zu erschaffen? Computer »sehen«, »hören« und »denken« anders als Menschen, und das betrifft alle Medien wie Texte, Fotos, Musik oder Videos. Sie »verstehen« nicht, was die Texte, Bilder und Musik bedeuten. Für Computer sind alle Medien nur spezifisch strukturierte Folgen aus Nullen und Einsen. Sie können erkennen, wie die Wörter aus Buchstaben aufgebaut sind, sie können zählen, wie oft Wörter in Texten vorkommen, sie können Pixel in Bildern voneinander unterscheiden, aber verstehen erst einmal nicht, ob die Bilder Katzen oder Politiker zeigen, ob Bitfolgen, die Töne repräsentieren, ein harmonisches Musikstück beschreiben, oder binär codierte Videosequenzen ein cineastisches Meisterwerk darstellen. Wenn wir als Menschen solche medialen Informationen präsentiert bekommen, greifen wir auf ein tiefes Erfahrungs- und Kontextwissen zurück, das uns hilft, die Bedeutung (Semantik) der präsentierten Information zu erfassen und neu angebotene Informationen richtig einzuordnen. Wir können auf einer Zeitungsseite auf einen Blick eine Werbeanzeige identifizieren und unterscheiden von einem inhaltsschweren Artikel über den aktuellen Stand der Corona-Pandemie. Wir erkennen in Wort und Bild handelnde Politiker und können politische Informationen leicht von Reisebeschreibungen oder lyrischen Betrachtungen unterscheiden, obwohl uns alles nur in Form von Texten oder Bildern vorgelegt wurde.

Das Semantic Web benötigt die richtigen Hintergrundinformationen

Damit Maschinen die Bedeutung von Dokumenten erfassen können, brauchen sie genau wie Menschen Informationen zum Kontext der Informationen in dem Dokument und ebenso eine Erfahrungshistorie. Derartige Zusatzinformationen werden als Metadaten bezeichnet. Metadaten sind also Informationen über Informationen. Auch im Web kann man Metainformationen zur Verfügung stellen. So bietet HTML für Autoren von Webseiten die Möglichkeit, Metadaten über die Inhalte ihrer Webseiten bereitzustellen. Diese sind allerdings äußerst beschränkt und außerdem sehr missbrauchsanfällig. So haben viele Autoren die Metadaten für ihre Website nicht zur inhaltlichen Beschreibung, sondern für ein effektives Marketing so ausgewählt, dass sie von Suchmaschinen bei jedem erdenklichen Suchwort angezeigt werden. Grundsätzlich war es lediglich der Sinn von HTML und CSS, Webseiten zu strukturieren und ihre Elemente, wie zum Beispiel Links, zu gestalten. Mit den ursprünglichen Mitteln der Webtechnologie ist es deshalb auch unmöglich, für ein intelligentes Web verlässliches Kontext- und Weltwissen bereitzustellen.

Deshalb nutzt man zur Verwirklichung der Vision eines intelligenten Webs inzwischen die Mittel der Semantik - eines Teilgebiets der Linguistik, das sich mit Sinn und Bedeutung von Sprache sowie sprachlicher Symbole beschäftigt -, um dieses Kontext- und Weltwissen zur Verfügung zu stellen. Dabei wird die Bedeutung komplexer Begriffe aus der Bedeutung einfacherer Begriffe abgeleitet auf der Basis formal beschriebener inhaltlicher Beziehungen zwischen diesen. Das ist natürlich ein sehr komplexer Vorgang mit großem Einfluss auf die aktuelle Bedeutung eines Wortes im spezifischen Kontext eines Satz beziehungsweise Textes. Dabei gilt es zu berücksichtigen, dass Wörter in den unterschiedlichen Zusammenhängen drastisch ihre Bedeutung ändern können. Wörter und ihre Bedeutungen sind nicht für alle Zeit festgelegt, Sprache ist eine soziale Angelegenheit. Und genau das macht es für rein maschinell arbeitende Computer auch so schwer, den Inhalt von Sprache oder Medien im Allgemeinen nachzuvollziehen. Bei aller Vielfalt kommt aber die Bedeutungsebene der Sprache nicht ohne gewisse Regeln aus, die auf die Bedeutung von Begriffen Einfluss nehmen, ansonsten wäre eine Verständigung unter Menschen nicht möglich. Die Idee bei der Bereitstellung eines intelligenten Webs ist es, diese Regeln zu identifizieren und dann den Rechnern »beizubringen«.

Wie schwer es ist, mit klassischen Mitteln wie zum Beispiel der schlüsselwortbasierten Suche etwas im Web zu finden, haben wir schon am Beispiel von Homonymen und Synonymen besprochen. Daher muss man Computern ein ganzes Sprach- und Bedeutungssystem an die Seite stellen, damit sie die in einem Text beschriebenen Sachverhalte »verstehen« können. Solche Sprach- und Bedeutungssysteme heißen Ontologien. Mit ihrer Hilfe kann man formal die Verständniskonzepte und Bedeutungen spezifizieren. Eine Ontologie besteht dabei aus einer Taxonomie, also einer Hierarchie von sprachlichen Konzepten, wie man sie zum Beispiel aus der Biologie kennt (mit Familien, Gattungen, Arten und Unterarten von Lebewesen), sowie ihrer sprachlichen Beschreibung. Bedeutungen wird also über ein System von Ober- und Unterbegriffen erfasst. Zusätzlich braucht es eine »Datenbank« an hilfreichen Informationen, wie Namen von Menschen, Liste von Orten, Lebewesen, Produkten und Dingen aller Art sowie ihre Beziehungen zueinander.

Ein intelligentes Web kann dann dank seiner Ontologien und auf Basis ausgewerteter Nutzerdaten (Kontext- und Erfahrungswissen) feststellen, was der Nutzer tatsächlich meint. Gibt er beispielsweise »Golf« in eine Suchmaschine ein, dann kann das Semantic Web richtig feststellen, dass hier der Golfsport gemeint ist, weil der Nutzer beispielsweise regelmäßig die Ergebnisse von Golfturnieren überprüft und sein Bildschirmhintergrund einen Golfspieler zeigt. Bei einem anderen Nutzer würden bei der gleichen Anfrage Ergebnisse zum VW Golf angezeigt werden, weil sich in seiner Nutzerhistorie entsprechende Hinweise auf das Auto finden lassen.

Da es HTML, als Sprache zur Strukturierung des Webs, an der Möglichkeit, Bedeutung von Informationen auszudrücken, fehlt, braucht es für die Verwirklichung der Vision des intelligenten Semantic Web viele weitere Bausteine. Dazu gehören:

Uniform Resource Identifier (URI): eindeutige Identifikation von Informationsquellen im Web,
Extensible Markup Language (XML): einheitliche Syntax zur Darstellung von Informationen,
Resource Description Framework (RDF): Ausdruck einfacher semantischer Beziehungen zwischen Informationsentitäten,
Ontologien: Beschreibung, wie Begriffe zusammenhängen,
Inferenz-Mechanismen: damit neue Informationen aus vorhanden abgeleitet werden können,
XMLEncryption/XMLSignature: Gewährleistung von Datenschutz,
und vieles mehr.

Ein ganz wesentlicher Baustein eines intelligenten Webs sind die so genannten Linked Open Data. Solche LOD bieten ein riesiges weltweites Netzwerk frei verfügbarer Informationen aller Art in maschinenlesbarer Form. Die bekanntesten LOD-Datensätze sind DBpedia (extrahierte Informationen aus Wikipedia), FOAF (Personen und Beziehungsdatenbank), GeoNames (Informationen über Orte und ihre Position).

Mit all diesen Technologien und Informationssammlungen gelingt es, der Vision eines intelligenten Webs mit Riesenschritten näherzukommen. Bei aller Bequemlichkeit, die ein solches »intelligentes« Web uns bei seiner Nutzung bietet, kann es einem schnell unheimlich werden, wenn man bedenkt, wie viel das Web schon heute über uns weiß (Kontextwissen aus Nutzerdatenanalysen). Aber ohne dieses Kontextwissen hat ein Semantic Web keine Chance, uns zu »verstehen«.

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Meinels Web-Tutorial: Die Vision des intelligenten Webs

Das Semantic Web benötigt die richtigen Hintergrundinformationen

WEITERLESEN MIT »SPEKTRUM +«

Schreiben Sie uns!

Artikel zum Thema

Künstliche Intelligenz: »Go Explore« knackt die noch verbliebenen Atari-Spiele

Gedächtnis: Wie sich ein Schleimpilz erinnert

Shift: Reisen durch den Amazonas-Regenwald

Shift: Wer nutzt Virtual Reality?

Themenkanäle

Informationstechnologie

Der digitale Mensch

Das Digital-Manifest

SponsoredPartnerinhalte