Direkt zum Inhalt

Die digitale Bücherwelt


Im Pariser Stadtviertel Tolbiac, direkt am Ufer der Seine, bilden vier L-förmige Hochbauten die Kanten eines gigantischen imaginären Kubus. Darin stehen Regale mit einer Gesamtlänge von 395 Kilometern, die bis zu 22 Millionen Bücher aufnehmen können (Bild 1). Der neue Komplex der französischen Nationalbibliothek, im vergangenen Dezember teilweise bezogen, wird wohl einzigartig auf der Welt bleiben: Kaum eine andere Großstadt kann sich noch derart ehrgeizige Bauprojekte leisten, und kaum eine andere Bibliothek wird heutzutage technisch derart innovativ ausgestattet. Bald sollen nämlich mehrere hundert Computer-Workstations den Zugriff auf den vollständigen Text von etwa 110000 elektronisch gespeicherten Werken ermöglichen, die einen Großteil der französischen Geschichte und Kultur abdecken.

Derzeit suchen Bibliotheken in aller Welt, getreue digitale Kopien vieler Bücher, Bilder und Tonaufzeichnungen anzufertigen, welche die geistigen Errungenschaften der Menschheit dokumentieren. Gelehrten könnte damit eine solch riesige Fülle von Informationen direkt an ihrem Arbeitsplatz ohne nennenswerten Zeitverzug zur Verfügung stehen, daß das heutige Internet im Rückblick als Medium von Amateuren erscheinen mag. Freilich sind noch etliche systemtechnische, wirtschaftliche und rechtliche Hürden zu nehmen.


Vorteile digitaler Speicherung

Elektronisch verfügbare Informationen sind bequem erreichbar. Nach der Umwandlung gedruckter Seiten in binäre Daten dauert ihr Abruf lediglich Sekunden. Ein digitales Dokument, gleich welcher Art, können zudem mehrere Interessenten gleichzeitig einsehen. Schließlich sind die virtuellen Bestände über das Internet auch all jenen zugänglich, welche die Bibliothek nicht persönlich aufzusuchen vermögen.

Die Kosten für die Digitalisierung, hofft man, werden sich durch Einsparungen amortisieren, beispielsweise beim Personal. Bibliothekare müssen nicht mehr Tag für Tag unzählige Bücher von ihren Standorten holen und wieder zurückstellen. Vor allem aber benötigen die Daten voluminöser Werke nur wenige Quadratzentimeter auf einem Speichermedium anstelle von Kubikmetern in einem Regal; wegen der Informationsflut, die bei herkömmlicher Archivierung immer kostspieligere Erweiterungen der Gebäude erfordert, ist das ein großer wirtschaftlicher Vorteil. So hat die Universität von Kalifornien in Berkeley kürzlich knapp 74 Millionen Mark für den Ausbau des Kellergeschosses investiert, um dort 1,5 Millionen Bücher unterzubringen – ein Aufwand pro Band von durchschnittlich fast 50 Mark. Der Preis für elektronische Speichermedien hingegen ist inzwischen auf etwa 3,20 Mark für einen Text von 300 Seiten gefallen und wird noch weiter sinken.

Zu den Vorzügen gehört schließlich, daß sich in elektronischer Form auch seltene und empfindliche Objekte allgemein zugänglich machen lassen. Ein Beispiel ist die einzige existierende Handschrift des "Beowulf"; die altgermanische Heldensage über Abenteuer dieses Fürsten hat ein Mönch im 8. oder 9. Jahrhundert in die Form eines Stabreim-epos mit römisch-antiken und christlichen Anklängen gebracht; die Abschrift aus dem 10. Jahrhundert befindet sich im Besitz der Britischen Bibliothek in London. Nur wenige Wissenschaftler erhielten Einsicht, bis Kevin S. Kiernan von der Universität von Kentucky in Lexington das Manuskript digitalisieren ließ; dabei verwandte er verschiedene Lichtquellen, wodurch bis dahin verborgene Details der beschädigten Vorlage sichtbar wurden (Bild 2). Heute kann jedermann den Text via Internet einsehen und zu Forschungszwecken verwenden.

Die Nationale Parlamentsbibliothek Japans erzeugt ähnlich hochauflösende digitale Photographien von 1236 Holzschnittdrucken, Schriftrollen und anderen Materialien, die als nationales Kulturgut betrachtet werden. Bald können Forscher sie eingehend studieren, ohne die raren und kostbaren Originale berühren zu müssen.

Angemessene technologische Lösungen

Allerdings sind nicht alle diese Vorteile gleichzeitig zu haben. Jede Strategie zur Digitalisierung von Bibliotheksbeständen ist ein Kompromiß zwischen Anforderungen zu ihrer Erhaltung, jeweils am ehesten zugänglichen Verfahren und Finanzierungsmöglichkeiten.

Die preiswerteste Form ist das Scannen von Seiten. Sie werden dabei in einem Raster mit einem Laser abgetastet und der Farb- oder Grauwert eines jeden Rasterelements als Bildpunkt gespeichert. Beim Scannen entstehen also Bilder des ursprünglichen Satzspiegels.

Anne Kenney untersuchte 1992 an der Cornell-Universität in Ithaca (New York), ob und zu welchen Kosten sich damit Bücher aus dem späten 19. Jahrhundert archivieren ließen. Infolge der in jener Zeit aufkommenden Masseleimung von holzhaltigem Papier mit Harzsäuren und Aluminiumsulfat zersetzen sich die Bindungen zwischen den Zellstoff- Fasern stärker und sehr viel schneller als bei säurefreien Papieren – die Seiten vergilben und brechen (Spektrum der Wissenschaft, September 1995, Seite 96). Andere Archivierungsverfahren wie die Mikroverfilmung sind bereits erprobt und würden etwa 50 Mark pro Buch kosten. Anne Kenney scannte mit 400 dpi (dots per inch, eine übliche Maßeinheit für die Dichte der Bildpunkte im Rasterbild; 400 dpi entsprechen 158 Punkten pro Zentimeter). Der Grauwert jedes Pixels wurde in acht Bit gespeichert, so daß 256 Werte unterscheidbar waren (zum erneuten Ausdruck von Kopien wurden die Daten aufgrund der technischen Spezifikation der Geräte auf 600 dpi mit jeweils einem Bit Tiefe – entsprechend weiß und schwarz – konvertiert). Jede Seite mußte aus dem Buch herausgetrennt und auf einem Flachbett-Scanner per Hand positioniert werden, denn eine automatische Zuführung – vergleichbar dem Einzug eines Photokopiergeräts – kam wegen des schlechten Zustands der Papiere nicht in Frage. Dementsprechend machten den größten Teil der Kosten die Gehälter des Bedienpersonals aus. Sie sind mit schätzungsweise 50 bis 60 Mark pro Band aber trotzdem denen der Mikroverfilmung vergleichbar; allerdings bleiben dabei die Bücher intakt – die Kamera nimmt nur die aufgeschlagenen Seiten auf.

Für 80000 Plakate – Theaterankündigungen, Wahlpropaganda und Reklameanschläge – aus der Judaica-Sammlung der Harvard-Universität in Cambridge (Massachusetts) war dieses Verfahren nicht geeignet. Scanner, die so große Vorlagen rastern können, sind teuer und arbeiten recht langsam. Statt dessen wurden die großenteils aus dem frühen 20. Jahrhundert stammenden Objekte photographiert und die Negative anschließend digitalisiert. Die Photo-CD-Technik von Kodak ermöglichte, das zu automatisieren. Die Bilder lassen sich auf einer CD-ROM ablegen und mit der zugehörigen Software ansehen oder auch bearbeiten. Auf diese Weise wurden täglich 1000 Blätter für etwas mehr als drei Mark pro Stück umgesetzt.

Insgesamt dürfte das Scannen die preisgünstigste Methode der Digitalisierung sein. Da die Etats der Bibliotheken chronisch knapp sind, werden die meisten zur Replikation vorgesehenen Objekte gescannt – darunter 91 Prozent der neun Millionen Bücher der französischen Nationalbibliothek und fünf Millionen Objekte, deren Inhalt die amerikanische Kongreßbibliothek bis zum Jahre 2000 digital speichern will.

Scannen ist auch deswegen gut geeignet, weil das gesamte Erscheinungsbild eines Werkes einschließlich beispielsweise handschriftlicher Randnotizen erfaßt wird, und auch Elemente mit feinen Details wie verzierte Initialen sind mit entsprechender Auflösung separat abzubilden. Dabei entstehen unter Umständen allerdings sehr große Dateien. So muß eine 38 mal 78 Zentimeter große Landkarte, deren Schrift 1,3 Millimeter groß ist, mit einer Auflösung von mindestens 4500 mal 9300 Bildpunkten gerastert werden, um lesbar zu bleiben. Das entspricht 125 Megabyte – zuviel für die meisten Desktop-Computer. Mitunter ist aber für eine bestimmte Frage nur ein Teilbereich der Karte interessant. Dann würde es reichen, sie mit geringerer Auflösung darzustellen, das fragliche Gebiet zu markieren und nur dieses in originaler Qualität auf den Bildschirm zu bringen oder auszudrucken. Leistungsfähigere Rechner und neue Bildformate werden das möglich machen. Schon heute ist es üblich, aus einer Reihe von Bilddateien anhand sogenannter Thumbnails – briefmarkengroßer Repliken – gewünschte Motive auszuwählen.

Nun erzeugen diese Verfahren jedoch nur elektronische Abbilder der Vorlagen, in denen sich beispielsweise nicht ohne weiteres nach einer bestimmten Textpassage suchen läßt – der Computer hat schließlich keine inhaltliche Information. Deswegen kann man auch nicht Auszüge eines gescannten Buches einfach als E-mail verschicken oder in eine Textdatei einbinden, etwa um bei einer Werkanalyse die betreffenden Stellen zu zitieren. Und sehbehinderten Benutzern sind Abbildungen von Büchern ebensowenig zugänglich wie die Originale, während eine textuelle Information mit geeigneter Hard- und Software mittels Sprachausgabe vorzulesen wäre (Spektrum der Wissenschaft, Juni 1995, Seite 94).

Die preiswerteste Methode, gescannten in elektronischen Text umzuwandeln, ist die optische Zeichenerkennung (optical character-recognition oder OCR). Solche Software-Programme identifizieren in den Textbildern Wörter mit Hilfe von Mustererkennungsverfahren buchstabenweise; in den letzten Jahren sind sie wesentlich billiger und etwas verläßlicher geworden.

Marktführende Programme machen mehr als 99 Prozent der Zeichen in Standardtestbildern aus. Dies bedeutet jedoch, daß sie sich immer noch ein dutzendmal oder öfter pro Seite irren; zudem ist die Qualität üblicher Vorlagen oft nicht so gut wie die der Testbilder. Eine solche Fehlerquote kann akzeptabel sein, wenn der umgewandelte Text nur zum Indizieren und nicht zum Lesen verwendet wird. Ansonsten müssen die Fehler von Hand korrigiert werden – eine mühevolle Arbeit, die genausoviel wie oder sogar mehr als das Scannen selbst kostet.

Auf diese Weise hat die Andrew-W.-Mellon-Stiftung bei ihrem Projekt Zeitschriftenspeicherung zehn verbreitete Wirtschafts- und Geschichtszeitschriften der USA digital umgesetzt. Scannen, optische Texterkennung und Korrektur kosteten etwa 62 Pfennig pro Seite, das wären knapp 190 Mark für ein 300seitiges Buch. Doch ist zu erwarten, daß sich diese Kosten schnell durch geringeren Katalogisierungs- und Lageraufwand amortisieren werden: Textdateien erfordern nur ein Zehntel des Speicherplatzes von gescannten Bilddateien, und Artikel können viel schneller aufgefunden werden.

Indes muß jedes Archiv, das seine gedruckten Werke ersetzen möchte, auch die darin enthaltenen Zeichnungen und Photographien speichern. Sie irritieren allerdings die Texterkennungsprogramme. Deshalb entwickelt man Verfahren, sie automatisch zu entdecken und bei der Texterkennung auszunehmen (Bild 3). So ließ die Amerikanische Chemische Gesellschaft fast 400000 Abbildungen und Diagramme aus 428000 Seiten von Fachzeitschriften extrahieren; allerdings galt es hier nur, die Bilder zu digitalisieren, denn die Texte lagen bereits elektronisch vor. Grundlage der Methode war, daß die Druckschrift einen recht einheitlichen Grauwert hat, während Diagramme heller und ihre schwarzen Elemente unregelmäßiger verteilt sind.

Das sicherlich langsamste Digitalisierungsverfahren ist die manuelle Eingabe. Spezielle Publikationen wie zum Beispiel der "Duden" oder das "Oxford English Dictionary", deren zahlreiche Schriftarten, Sonderzeichen und Auszeichnungen Detailinformationen geben, lassen sich überhaupt nur durch Neuerfassung zuverlässig digitalisieren. Im allgemeinen ist die manuelle Eingabe aber zu teuer: Für die Erfassung eines normalen 300seitigen Textes sind nahezu 1000 Mark zu veranschlagen; die Umsetzung ins Format Hypertext Markup Language (HTML, die für das World Wide Web benutzte Seitenbeschreibungssprache) kann bis zu dreißigmal so viel kosten wie einfaches Einscannen der Seiten. Allerdings gibt es in Asien Unternehmen, die Tausende von Schreibkräften zu niedrigen Löhnen nur für die Texterfassung beschäftigen. Doch werden insbesondere Personen, die der jeweiligen Sprache eines Buches nicht mächtig sind, auch Rechtschreibfehler und Eigentümlichkeiten der Vorlage mitübernehmen, die Texterkennungsprogramme häufig automatisch korrigieren.

Mit Werken der Gegenwart und Zukunft verhält es sich anders: Ein Großteil der Neuerscheinungen wird bereits mit Computern erstellt oder bearbeitet. Die Bibliotheken können darum immer größere Bestände schon auf CD-ROM oder in sonstiger maschinenlesbarer Form erwerben; eine Konvertierung erübrigt sich. So veröffentlicht das amerikanische Institut der Elektro- und Elektronikingenieure (IEEE) alle 62 von ihm herausgegebenen Fachzeitschriften im Format HTML im Internet. Da neuere Artikel in einer Bibliothek häufiger genutzt werden als ältere, wird meiner Schätzung zufolge bis zum Jahre 2000 etwa die Hälfte des benötigten Materials digital vorliegen; dann dürfte es noch einmal zehn Jahre dauern, bis dies auch für die Hälfte ihrer Gesamtbestände gilt.


Schwierigkeiten in der Übergangszeit

Dieser Wandel birgt auch Risiken, wie ein Beispiel aus der jüngeren Vergangenheit zeigt: In den achtziger Jahren ersetzten viele Bibliotheken ihre Papierkataloge durch Datenbanken; war aber etwa ein Drittel des Bücherbestandes im Computer erfaßt, benutzten viele Leser die alten Karteikästen gar nicht mehr – die nur dort zu findenden Werke wurden weithin ignoriert. Inzwischen verwaisen die noch nicht digital verfügbaren Bestände. Trotz ihres Potentials zur leichteren und breiteren Wissensvermittlung werden elektronische Bibliotheken also zumindest eine Zeitlang den gegenteiligen Effekt haben.

Auch viele Probleme des Urheberrechts sind noch nicht geklärt. Als IBM 1992 zum fünfhundertsten Jahrestag der Entdeckung Amerikas durch Christoph Kolumbus eine CD-ROM herausbrachte, mußte das Unternehmen mehr als 1,6 Millionen Mark für Nutzungslizenzen bezahlen. Bislang haben die meisten Bibliotheken solche Kosten vermieden, indem sie nur vor 1920 veröffentlichtes und damit nicht mehr geschütztes Material digitalisierten. So hat die amerikanische Kongreßbibliothek Tausende von Bürgerkriegs-Photographien, Dokumente des Kontinentalkongresses (des zwischen 1774 und 1789 tätigen Gremiums von Vertretern der 13 britischen Kolonien in Nordamerika, aus denen die Vereinigten Staaten hervorgingen) sowie Reden aus der Zeit des Ersten Weltkrieges elektronisch verfügbar gemacht – aber nicht Margaret Mitchells 1936 erschienenen Bürgerkriegsroman "Vom Winde verweht". Und als die Cornell-Universität die wichtigsten Werke zur Landwirtschaft aus den Jahren 1850 bis 1950 zur Weitergabe an Entwicklungsländer digitalisierte, schloß sie dabei sorgfältig alle urheberrechtlich geschützten Veröffentlichungen aus.

Falls Bibliotheken nicht gestattet wird, digitale Bücher wie jetzt die gedruckten Fassungen auszuleihen, könnten Leser des Jahres 2015 von ihnen alles jemals Publizierte in elektronischer Form beziehen – mit Ausnahme des zwischen 1920 und 1990 neuveröffentlichten und solcher Werke, für die der Autor eine solche Form der Publikation von vornherein ausgeschlossen hat. Denn es ist fraglich, ob die zur Digitalisierung geschützter Bücher erforderlichen zusätzlichen Mittel für Lizenzen überhaupt aufgebracht werden können. Diese Rechtsunsicherheit ist höchst bedauerlich, weil der breiten Öffentlichkeit mit populären Werken mehr gedient wäre als mit eher historisch interessanten; so wurde "Vom Winde verweht" in gedruckter Form während des letzten Jahres in den USA häufiger ausgeliehen, als Internet-Surfer die digitalisierten Reden aus der Zeit des Ersten Weltkrieges aufriefen.

Bei knappen Kassen können die Institutionen auch zusammenarbeiten, ihre virtuellen Sammlungen über das Internet austauschen und so die Erstellungskosten untereinander aufteilen. Zahlreiche politische und organisatorische Fragen müssen jedoch noch geklärt werden: Welche Dienstleistungen sollten öffentliche Bibliotheken Personen außerhalb des Ortes oder Staates anbieten, der sie finanziert? Wie lassen sich die Kosten von Erwerb und Lagerung der Werke gerecht verteilen? An solchen Problemen sind bislang fast alle Kooperationsmodelle gescheitert.

Wenn eines Tages alle Hindernisse aus dem Weg geräumt und Abermillionen von Büchern, Bildern und Tonaufzeichnungen digitalisiert sind – wird es unseren Kindern dann auch gelingen, sie überhaupt zu finden? Das Problem ist nicht die Entwicklung ausreichend beständiger Materialien für Speichermedien, sondern deren schnelle technische Entwicklung (Spektrum der Wissenschaft, September 1995, Seite 66). Das Überspielen digitaler Information von einem Gerät zu einem gleichartigen ist nicht schwierig – Bits bleiben Bits. Doch neue Datenformate und Geräte werden im Abstand weniger Jahre immer wieder das Konvertieren der Bestände erfordern. Zudem lassen sich einige Formate nur unter Informationsverlust in andere umwandeln. Immerhin finden Normen wie die Seitenbeschreibungssprache SGML (Standard Generalized Markup Language) für Texte oder Formate wie TIF (Tag Image File) für gescannte Bilder mehr und mehr Akzeptanz.

Bibliotheken sind im übrigen nicht die einzigen Institutionen, die ihre Dokumente digitalisieren. Mit der gleichen Problematik beschäftigen sich beispielsweise auch Unternehmen, die Blaupausen und andere Dokumente, und Krankenhäuser, die Patientenberichte samt verschiedenartigsten Bildern archivieren müssen, des weiteren Ämter und Behörden von der Gemeindeverwaltung bis zur UNO. Die Digitalisierung des Weltwissens wird Jahrzehnte dauern und Milliarden kosten.

Andererseits dürfte der Aufwand lohnen, und die für viele noch ungewohnte Form der Repräsentation dürfte eines Tages Alltag sein. Obwohl etwa Johann Sebastian Bach seine Fugen eigentlich für das Cembalo komponiert hat, denken wir uns kaum etwas dabei, wenn sie heute auf dem Klavier gespielt werden; William Shakespeares Werke kann man mit ebensoviel Genuß lesen, wie das zeitgenössische Publikum wohl im Londoner Globe-Theater empfunden hat; und Charlie Chaplins Filme sind auf Videoband oder in der Celluloid-Fassung gleich unterhaltsam. Eines Tages dürften unsere Kinder ebenso selbstverständlich mit ihren vernetzten Computern die Vielfalt menschlichen Schaffens leichter, billiger und für die Originale schonender als je zuvor erkunden.

Literaturhinweise

– The Digitization of Primary Textual Sources. Von Peter Robinson. Office for Humanities Communication, Universität Oxford, 1993. – Building Large-Scale Digital Libraries. Sonderausgabe von Computer, Band 29, Heft 5, Mai 1996. – Practical Digital Libraries: Books, Bytes and Bucks. Von Michael Lesk. Morgan Kaufman (im Druck). – Informationen im World Wide Web: – zum Projekt Zeitschriftenspeicherung der Mellon-Stiftung unter http://www.mellon.org/jsesc.html; – zum Projekt CORE unter http://community.bellcore.com/lesk/chem94/chtx.html; – zu Beowulf unter http://www.uky.edu/%7Ekiernan/ und http://portico.bl.uk/access/beowulf/electronic-beowulf.html.


Aus: Spektrum der Wissenschaft 5 / 1997, Seite 96
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Kennen Sie schon …

Spezial Physik - Mathematik - Technik 3/2021

Spektrum der Wissenschaft – Spezial Physik - Mathematik - Technik 3/2021: Algorithmen für die Zukunft

Algorithmen für die Zukunft - Beweisführung: Mathematiker aus Silizium • Arzneimittel: Automatisiert zu neuen Medikamenten • Neuronale Netze: Der gesunde Maschinenverstand

Algorithmen im Alltag

Spektrum Kompakt – Algorithmen im Alltag

Sie unterstützen bei der ärztlichen Diagnose, bringen Filmstars ins Kino, die nie am Set waren, steuern im Hintergrund, was wir als Empfehlungen auf unseren Monitoren sehen, und vieles mehr: Algorithmen, klar formulierte Abfolgen einzelner Schritte in Programmen, stecken überall in unserem Alltag.

7/2021

Spektrum der Wissenschaft – 7/2021

»Spektrum der Wissenschaft« berichtet über Künstliches Bewusstsein und selbstlernende Algorithmen. Außerdem im Heft: Energiekosten, der Preis der Digitalisierung; Chondren, die Gesteinskügelchen in Meteoriten sowie wie Massenaussterben die Evolution prägt.

Lesermeinung

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Leserzuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Leserzuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmer sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Lesermeinungen können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!