Direkt zum Inhalt

Informatik: Wissen unsterblich machen - im Vorbeigehen

Wissenschaftler sorgen nun dafür, dass wir nicht weiterhin eine unserer herausragendsten menschlichen Fähigkeiten tagtäglich beim Surfen im Internet verschwenden. Nebenbei retten sie dabei alte Bücher vor dem Vergessen.
BücherregalLaden...
Der Wettkampf zwischen Mensch und Maschine scheint immer öfter zu unseren Ungunsten auszugehen. Aber auch Maschinen haben ihre Grenzen. Es gibt Gebiete, auf denen wir Menschen zumindest derzeit einfach noch unschlagbar sind.

Ein Beispiel dafür ist unsere überragende Fähigkeit, Strukturen und Muster zu erkennen. Trotz möglicher Verzerrung, Spiegelung und Drehung fällt es uns im Allgemeinen leicht, Objekte zu identifizieren oder Texte zu entziffern. Diese scheinbar simple Aufgabe zu lösen ist für Computer noch Zukunftsmusik – bislang gilt eine solche Fähigkeit als ein Leistungsmerkmal höherer kognitiver Systeme.

CAPTCHALaden...
CAPTCHA | Erst Entziffern, dann Eintippen, dann Zugang zur Seite erhalten: Dies soll Computer am Einloggen hindern. Hier kommen nur Menschen weiter – denn nur diese können das verbogene Wort entziffern.
Mustererkennung brauchen wir überall im Alltag – beispielsweise auch beim Einloggen in Internetseiten. Immer öfter finden wir dort nämlich Zahlen oder Buchstaben vor, die verzerrt, gekrümmt oder aus einem wirren Bild herauszulesen und dann in ein Feld einzutippen sind. Erst wenn Zerrbild und Eingetipptes übereinstimmen, erlangen wir Zutritt auf die entsprechende Seite.

Diese so genannten CAPTCHAs – Completely Automated Public Turing tests to tell Computers and Humans Apart – sollen verhindern, dass sich automatische Programme und Suchmaschinen in Seiten einloggen und deren Inhalt im großen Maßstab missbrauchen. CAPTCHAs gelingt dies dadurch, dass Computerprogramme es im Gegensatz zu Menschen nicht schaffen, die verzerrten Strukturen als Zahlen oder Buchstaben zu erkennen.

Bücher digitalisierenLaden...
Bücher digitalisieren | Computerprogramme können etwa 75 Prozent eines alten Buches entziffern und digitalisieren – der Rest bleibt ihnen unleserlich. Hier können menschliche Entzifferer weltweit helfen, wenn sie CAPTCHAs lösen, die vom Projekt reCAPTCHA angeboten werden.
Weltweit lösen Internetnutzer täglich 100 Millionen CAPTCHAs – eine gewaltige Leistung hochqualifizierter Entzifferer. Man könnte sie alle sinnvoller einbinden, dachten sich Luis von Ahn von der Carnegie Mellon University und seine Kollegen im vergangenen Jahr. und gründeten das Projekt reCAPTCHA. Es bietet Internetseiten neue CAPTCHAs an – und zwar solche, die nicht künstlich generiert wurden, sondern aus alten Büchern stammen und sich als für Texterkennungsprogramme unlesbar erwiesen hatten.

Die Idee ist clever und hilft allen Beteiligten: Zum einen bekommen Anbieter von Internetseiten sehr sichere CAPTCHAS. Da reCAPTCHA nur solche Worte herausgibt, an denen bereits zwei gute Texterkennungsprogramme gescheitert sind, dürften sich auch andere, womöglich böswillige Eindringlingssoftware an ihnen die Zähne ausbeißen. Internetnutzer können zudem einen sinnvollen Beitrag zum Erhalt menschlichen Wissens leisten, – sie helfen beim Digitalisieren alter Bücher.

Einloggen und Bücher entziffernLaden...
Einloggen und Bücher entziffern | Wer sich hiermit einloggt, hilft beim Entziffern alter, eingescannter Bücher – quasi im Vorbeigehen.
Dies ist ein wichtiger Schritt, denn im Internetzeitalter bleibt trotz der glücklicherweise noch immer weit verbreiteten Liebe zum gedruckten Buch langfristig wohl nur solches Wissen erhalten, das weiterverarbeitet und durch Suchmaschinen gefunden werden kann – das also digitalisiert ist. Google Books Project und Internet Archive sind zwei große Initiativen, die alte Bücher bereits im großen Maßstab einscannen und Texterkennungsprogrammen unterwerfen. Solche Programme entziffern jedoch im Allgemeinen nur etwa achtzig Prozent des teilweise vergilbten und verblassten Buchtextes – und menschliche Übersetzer, die die unleserlichen Worte ergänzen könnten, sind teuer.

Auf bereits 40 000 Internetseiten lösen Nutzer mittlerweile per reCAPTCHA beim Einloggen unentzifferte Worte. Und sie tun es eifrig: Etwa eine Million Worte werden täglich erkannt und digitalisierten Buchtexten wieder zugeführt. Nachteile hat das Verfahren für die Internetnutzer nicht: Ob sie ein Wort aus einem alten Buch entziffern müssen oder ein künstlich verzerrtes, ist für sie im Grunde egal.

Die Forscher beruhigen überdies: Das Einloggen in die Lieblingsseite wird mit reCAPTCHA nicht komplizierter. Eigentlich sogar im Gegenteil, meinen die Forscher, da der Mensch mit Leichtigkeit vergilbte Buchseiten lesen kann. Für den Nutzer gibt es lediglich einen Unterschied: Bei den neuen CAPTCHAs sind statt einem nun stets zwei Worte zu entziffern. Das eine ist ein unentziffertes Wort aus einem alten Buch, das andere ein Referenzwort, zu dem die Lösung bekannt ist. Nur letzteres muss richtig entziffert werden, um zur Internetseite zugelassen zu werden – das vergilbte Wort kann theoretisch auch falsch eingegeben werden, ohne den Nutzer am Einloggen zu hindern.

Wird das Referenzwort richtig entziffert, so gehen die Forscher davon aus, dass der Nutzer wohl auch das Buchwort richtig rät und lassen sich das Ergebnis zuschicken. Anschließend vergleichen sie die Ergebnisse der weltweit ersten drei Entzifferungsversuche für ein Wort. Stimmen alle drei überein, so setzen sie das Wort als "entziffert" in den digitalisierten Buchtext ein. Bei Nichtübereinstimmung tritt es eine erneute Reise ins Internet an. Von diesem allen bekommt der Nutzer nichts mit – er hat sich längst in seine Seite eingewählt.

Mit reCAPTCHA erreichen Internetnutzer eine 96-prozentige Entzifferquote – und sie haben seit dem Start von reCAPTCHA bereits über 440 Millionen Worte erfolgreich erkannt. Wenn man etwa 100 000 Worte für ein Buch mit 400 Seiten ansetzt, von denen ein Texterkennungsprogramm durchschnittlich 20 Prozent nicht richtig löst, ergibt das seit Beginn von reCAPTCHA über 17 600 endgültig entzifferte digitalisierte Bücher. Dieses Ergebnis hätten sonst nur 1500 professionelle Übersetzer in einer 40-Stunden-Woche erreichen können.

reCAPTCHA ist allerdings nicht der einzige Versuch, CAPTCHAS sinnvoller zu nutzen. Ein alternatives Verfahren nennt sich ASIRRA. Dabei soll der Internetnutzer zum Einloggen Hunde und Katzen sortieren. Wenn der Leser dabei an einem der Bilder hängen bleibt und das Tier adoptieren will – so hat das Programm seinen verborgenen Zweck erfüllt.
16.08.2008

Dieser Artikel ist enthalten in Spektrum - Die Woche, 16.08.2008

Lesermeinung

1 Beitrag anzeigen

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Leserzuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Leserzuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmer sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Lesermeinungen können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Partnervideos