Direkt zum Inhalt

Mit den Ohren sehen - ein sprachgesteuerter Vorlese-Arbeitsplatz für Blinde


Nach Angaben des Statistischen Bundesamtes lebten 1993 etwa 112000 Blinde und schwer Sehbehinderte in Deutschland; Blindenverbände schätzen, daß die tatsächliche Zahl noch höher sei. Ein Großteil der Betroffenen, nämlich 85000, war damals älter als 55 Jahre. Entsprechend der Veränderung der Alterspyramide dürfte dieser Anteil weiter zunehmen.

Die Integration von Blinden und stark Sehbehinderten in soziale Prozesse und insbesondere in die Arbeitswelt ist somit ein notwendiges, aber schwieriges Unterfangen. Sie wird, seit sich der Computer zu einem universellen Instrument entwickelt hat, durch das Vordrängen von Anwendungssoftware, die mittels graphischer Benutzungsoberflächen zu bedienen ist und ihre Ergebnisse auch graphisch präsentiert, stark beeinträchtigt. Von Nachteil ist ebenso, daß gedruckte Informationen von der Zeitung bis zum Nachschlagewerk mehr und mehr zur Darstellung auf dem Bildschirm aufbereitet werden.

Andererseits basieren gerade Geräte und Vorrichtungen für Behinderte oft auf der Informationstechnologie. Deshalb unterbreitete uns die zentrale Koordinationsstelle für Behinderten-Projekte der IBM in Boca Raton (Florida) die Idee eines Vorlese-Computerarbeitsplatzes.

Aufgrund unserer Erfahrungen in Software-Ergonomie und Spracherkennung entwickelten wir dafür einen Prototyp: Dem Sehbehinderten ermöglichen ausgewählte handelsübliche Anwendungsprogramme, das Vorlesen von gespeicherten Texten mittels Sprachkommandos zu steuern. In einer Ausbaustufe soll er über eine tagesaktuelle elektronische Form der Tageszeitung sowie über Anwendungsprogramme, wie sie auf Personal Computern üblich sind, verfügen können.


Von Braille zur Sprachsynthese

Die individualisierte Datenverarbeitung mit dem Personal Computer begann für Sehende mit einer Eingabe-und Ausgabe-Konvention, die dem Aufbau einer Schreibmaschinenseite folgt: Information gliedert sich in Zeilen von Buchstaben, Ziffern und einigen Sonderzeichen; die Anzahl der Zeichen ist meist auf 72 oder 80 pro Zeile beschränkt.

Der geübte Blinde oder stark Sehbehinderte vermochte bei der Eingabe dieser Technik zu folgen, indem die Tasten F und J einer sonst normalen Tastatur zur Orientierung mit kleinen Markierungen versehen wurden. Die Ausgabe, an sich eine rein serielle Abfolge von Zeichen, entspricht gewöhnlicher Braille-Schrift, also in Zeilen und auf Seiten angeordneten gestanzten Punktmarkierungen, die mit den Fingerkuppen zu ertasten sind. Bald stand auch ein Gerät zur Verfügung, das durch Anheben von Stiften unter einem Kunststoffband die Zeichen einer auf dem Bildschirm erscheinenden Zeile wiedergibt. Mittlerweile gibt es bereits Systeme, welche die Zeilen durch Sprachsynthese auslesen.

Seit einigen Jahren werden Anwendungsprogramme jedoch immer häufiger nicht mehr per Tastatur, sondern durch Anklicken von Symbolen irgendwo auf dem Bildschirm mittels einer Maus gestartet und die Ergebnisse zudem nicht mehr in Form von Textzeilen, sondern durch beliebig gestaltete graphische Merkmale eines oder mehrerer Bildschirm-Fenster präsentiert. Die Schreibmaschinen-Metapher ist damit aufgegeben. Weder kann der Blinde ein Symbol ansteuern, noch die graphischen Merkmale wahrnehmen.

Um ihm dennoch graphische Benutzungsschnittstellen zugänglich zu machen, muß eine entsprechende sprachliche Ebene zwischengeschaltet werden. An die Stelle des Anklickens tritt dann ein Ansprechen, das Programme etwa durch Namensnennung aktiviert; dabei wird ein automatischer Spracherkenner verwendet. Und das sequentielle Auslesen wird durch ein Programm ersetzt, das aus der Vielzahl der möglichen Fenster das aktivierte findet, also dasjenige, mit dem zum jeweiligen Zeitpunkt Information ausgetauscht werden kann, sowie darin den rein textuellen Inhalt von den graphischen Merkmalen trennt und diesen schließlich an ein für den Blinden geeignetes sequentielles Ausgabe-Medium – in unserem Falle die Sprachsynthese – übergibt.


Information von Blinden

Abgesehen vom persönlichen Vorlesen, das aufwendig ist und Abhängigkeiten schafft, stehen dem Blinden nur speziell aufbereitete Druckmedien zur Verfügung. Sie erreichen ihn allerdings erst verzögert und sind durch Sehende vorselektiert. Dennoch ist es sicherlich von unschätzbarem Wert, daß Bücher und Zeitschriften auch in Braille erscheinen und mit geschulten Sprechern Tonkassetten produziert werden (sie enthalten meist literarische Texte); zur weiteren Verfügbarkeit solcher Kassetten sind in Deutschland etwa 20 Hörbüchereien eingerichtet worden. Für derartige Quellen gilt, daß sie zwar in bester Verständlichkeit vorliegen, eine Tonkassette aber das gedruckte Medium lediglich in dessen urspünglicher fester Reihenfolge darstellt und das Suchen nach Stichwörtern und andere nicht-sequentielle Zugänge nicht unterstützt.

In dem von uns konzipierten System wird das gedruckte Dokument durch eine Datei ersetzt, in welcher der Text mit Codes für Querverweise und anderen nicht-sequentiellen Strukturmerkmalen angereichert ist. Zudem wird die natürliche Stimme durch eine Sprachsynthese unmittelbar aus dem Text ersetzt. Damit kann die Information aktueller zugänglich gemacht und intensiver erschlossen werden.


Architektur des Systems

Im Aufbau des Vorlese-Arbeitsplatzes (Bild) sind demnach mehrere Hauptbereiche zu unterscheiden. Durch Aussprechen anschaulicher Funktionsnamen wie "Lesen", "Inhaltsverzeichnis" oder "Suchen" lassen sich die gleichen Funktionen anwählen, die dem sehenden Benutzer der graphischen Bedienoberfläche durch Anklicken zur Verfügung stehen. So wird etwa das Lesen sequentiell in einem Textfenster ausgeführt, während Steuerbefehle wie Suchen implizit auch einen Fensterwechsel bewirken, also die Orientierung bei mehreren geöffneten Fenstern übernehmen.

Von deren Merkmalen sind für den Blinden weder Größe noch Farbe noch Position wichtig. Hingegen muß er wissen, welches Fenster aktiviert ist.

Der Sehende erkennt dies beispielsweise an einer farblichen Hervorhebung etwa des textuellen Inhalts oder des Rahmens; außerdem vermag er wahrzunehmen, ob ein Programm Eingaben von ihm erwartet. Solche Informationen und Veränderungen in Reaktion auf Sprachkommandos werden bei unserem System automatisch ermittelt und an die Sprachausgabe-Einheit weitergeleitet. Diese synthetisiert daraus ein akustisches Signal, das in seinem Aufbau der Struktur der graphischen Oberfläche und der Folge der vom Benutzer getroffenen Auswahlen folgt. Insbesondere nennt es nach jedem Wechsel des Fokus den Namen des gerade aktivierten Fensters, etwa "Inhaltsverzeichnis", dann den Inhalt dieses Fensters einschließlich verbaler Formulierungen für Hervorhebungen wie "unterstrichen" und schließlich das Wort, das unterstrichen ist.

Wegen des im Prinzip unbegrenzt großen Vokabulars kann dabei nicht Wort für Wort auf ein fertiges Aussprachemuster zurückgegriffen werden. Vielmehr muß aus der Buchstabenfolge on line, das heißt im Moment des Auslesens, die am besten geeignete Akustik generiert werden. Sie kann bei schwierigen Wörtern, insbesondere bei Namen und Fremdwörtern, mitunter fehlerhaft sein, etwa "Mannahger" für "Manager".

Die Bedienung des Systems ist relativ einfach und die Komplexität der Anwendung nicht übermäßig groß. Dennoch kann es vorkommen, daß der Benutzer nicht weiß, durch welches Kommando er eine gewünschte Aktion zu starten hat, oder durch ein falsch gewähltes Kommando beziehungsweise eine Fehlinterpretation des gesprochenen eine ungeplante Situation entsteht. Zur Bewältigung solcher Probleme sind zwei Sprachkommandos jederzeit verfügbar: "Was kann ich sagen?" bewirkt, daß erneut das aktivierte Fenster namentlich genannt wird sowie die in diesem Fenster oder zum Verlassen des Fensters möglichen Aktionen vom System ausgesprochen werden; "Stop" beendet die gerade angelaufene akustische Ausgabe.


Software-Realisierung

Der Prototyp basiert ausschließlich auf Standard-Software und einem handelsüblichen Personal Computer vom Typ IBM PS/2. Zudem verwenden wir als Dateiformat der Textdokumente SGML (Standard Generalized Markup Language), eine häufig genutzte Konvention, um nicht-sequentielle Strukturierungselemente der Dokumente wie Querverweise durch spezielle Zeichenfolgen einzubauen. Sofern Anbieter von Druckmedien davon abweichende Konventionen – etwa weitere nicht-textuelle Sonderzeichen für die Steuerung von Satzmaschinen – verwenden, ist eine Umsetzung erforderlich.

Die graphische Benutzungsoberfläche des Systems ist OS/2, nach Windows die am weitesten verbreitete. Sie ermöglicht Multitasking, also gleichzeitiges Starten und Betreiben mehrerer unabhängiger Anwendungsprogramme.

Eines davon ist VoiceType Dictation, ein automatisches IBM-Spracherkennungssystem für das Diktieren von Texten mit großem Vokabular. In dieser Grundfunktion muß es auf die sprachlichen und stimmlichen Merkmale des Sprechers in einer etwa einstündigen Trainingssitzung eingestellt werden. Für die relativ wenigen Kommandos zur Steuerung des Vorlese-Arbeitsplatzes läßt es sich aber oft auch sprecherunabhängig nutzen, indem es eine Sammlung deutscher Standard-Lautmerkmale zur Erkennung heranzieht.

Um die mit Textverarbeitungssystemen erstellten Dokumente sprachlich wiederzugeben, müssen ihre Formate zuvor in das SGML-ähnliche Bookmanager-Format übersetzt werden (es enthält noch weitere Markierungen, etwa für die Verwaltung mehrerer Dokumente); dazu dient der IBM-BookmanagerBuild/2. Zwar kann dies prinzipiell auf dem Computer des Blinden geschehen; wir favorisieren aber einen entsprechenden Service der Verlage oder Hörbüchereien, da vor der automatischen Konvertierung mit oft erheblichem Aufwand nicht vorgesehene Steuerzeichen, Abkürzungen und andere Nicht-Standard-Textelemente zu entfernen sind – dies erfordert spezielle Software und umfangreiche elektronische Wörterbücher, deren kompetente Verwendung die Kenntnisse der meisten Benutzer übersteigen würde.

Anhand der nun ergänzten Markierungen findet der IBM-BookmanagerRead/2 die entsprechenden Merkmale auf und nutzt sie entweder zur direkten Ausgabe oder zum Wechseln an eine andere Stelle des Textes. Wird etwa das Kommando "Nächster Abschnitt" gesagt, sucht das Programm die nächste Markierung, die einen Abschnittsbeginn codiert. All dies spielt sich in einem oder mehreren von OS/2 bereitgestellten Fenstern ab.

Der IBM-ScreenReader/2 ist eine permanent aktive OS/2-Anwendung, die kontrolliert, welches Fenster im Fokus ist, und die Text-Informationen darüber zur Ausgabe bereithält. Er wird also vom Benutzer nicht direkt bedient, sondern fährt den Zustandsänderungen, die der Anwender durch Sprachkommandos bewirkt, automatisch nach. Die zur Ausgabe bereitgestellte Textinformation geht, sofern nicht anderes eingestellt ist oder der Benutzer "Stopp" sagt, Zeile für Zeile an die Sprachsynthese, beginnend mit dem Namen des jeweils aktiven Fensters.

Die VoxBox ist ein extern an den Rechner angeschlossenes Gerät der schwedischen Firma InfoVox, das Buchstabenfolgen nach den Ausspracheregeln einer Sprache (hier Deutsch) in akustische Signale umsetzt und durch einen eingebauten Lautsprecher ausgibt. VoxBox ist also ein letztes Glied in der Kette von Funktionen, die den Zustand beziehungsweise Inhalt von Anwendungsprogrammen hörbar machen.


Erfahrungen und Ausblick

Weil an Hard- und Software ausschließlich Standardprodukte verwendet wurden, bestimmt der Massenmarkt die Kosten, nicht der enge Markt besonderer Varianten für Behinderte. Somit kommen ihnen auch Weiterentwicklungen der Software wie allen anderen Konsumenten zugute, und sie sind nicht auf Aktivitäten von in der Regel kleinen Spezialanbietern mit beschränkten Forschungskapazitäten angewiesen. Ein weiterer Vorteil ist die Unterstützung im Routine-Service großer Software-Anbieter durch Hilfe-Telephon, Informationen über Programmverbesserungen und dergleichen mehr.

Jedes verwendete Software-Paket kann im Prinzip durch ein anderes unter OS/2 lauffähiges ausgetauscht werden. So lassen sich andere Anwendungen wie Datenbanken, Textverarbeitung und e-mail (elektronische Post) in den prototypisch realisierten Spracheingabe-Sprachausgabe-Zyklus einbauen. Damit hat der Blinde oder schwer Sehbehinderte Zugang zu in der Arbeitswelt wichtigen, heute üblicherweise in graphischen Benutzungsoberflächen realisierten Programmen, die ihm vorher verschlossen waren. Allein daß er über Software, mit der sehende Kollegen umgehen, mitreden kann, ist unseres Erachtens von großer sozialer Bedeutung.

Es ist naheliegend, das deutsche System auch in anderen Sprachen anzubieten. Eine französische Version ist kurz vor der Fertigstellung. Mehrere weitere europäische Sprachen werden in den verwendeten Software-Produkten unterstützt und sind insofern technisch unmittelbar nachvollziehbar.

Die Vision, gedruckte Medien Blinden und Sehenden gleichzeitig zur Verfügung zu stellen, erfordert allerdings noch die Einbindung des dargestellten Systems in ein Netz zur Daten-Fernübertragung. So muß man beispielsweise eine Tageszeitung auch über die Telephonleitung auf den Computer des Blinden übertragen, nachdem sie beim Verlag oder einem Service-Anbieter in das SGML-ähnliche Format umgesetzt worden ist.

Beides – die weitgehend automatische Umsetzung des Formats und die Dokument-Übertragung zum PC – ist machbar; das haben wir, ausgehend von einem System mittlerer Datentechnik, wie es in den Hörbüchereien verbreitet ist, bereits nachgewiesen, wenn auch noch nicht fest in den Prototypen integriert. Vielmehr haben blinde Testpersonen gegenwärtig einzelne Tages- und Wochenzeitungen, Monatszeitschriften sowie ein Nachschlagewerk fest auf dem Computer installiert.

Integrierte Angebote zur Konvertierung und Bereitstellung von Dokumenten mittels Daten-Fernübertragung gibt es schon in Schweden, den Niederlanden und demnächst auch in Frankreich. Dort wird jedoch keine Standard-Benutzungsoberfläche verwendet; es handelt sich um eine reine Speziallösung für das Vorlesen von Texten.

Nicht alle technischen Probleme in dem beschriebenen Umfeld sind gelöst. Es gibt spürbare Grenzen von Book- managerRead/2, Dokumente mit einer sehr aufwendigen internen Struktur – etwa mehrbändige Lexika – angemessen darzustellen. Automatische Spracherkennung wird zudem nie von gelegentlichen Fehlerkennungen frei sein, insbesondere wenn man auf die zeitaufwendige Sprecher-Adaptation des Systems verzichtet. Sprachsynthese ohne Begrenzung des Vokabulars produziert ohnehin noch eine Art technischen Dialekt, der gewöhnungsbedürftig ist.

Sprachsynthese und sprecher-unabhängige Spracherkennung sind freilich aktive Forschungsgebiete. Wann immer Fortschritte in OS/2-Produkte eingehen, werden sie genutzt werden können.

Das gravierendste Problem ist derzeit aber nicht technischer, sondern finanzieller Art. Sowohl die Ausstattung mit Soft- und Hardware als auch die Übertragung von umfangreichen Texten aus Hörbüchereien auf den persönlichen Computer sind teuer und schränken die Benutzung auf einen begüterten Personenkreis ein. Während die Kosten für die Ausstattung dem bei Standardprodukten der Computerbranche üblichen Preisverfall folgen, ist es Aufgabe der Politik, den finanziellen Aufwand für die Datenübertragung zu vermindern. Jegliche Euphorie über die globale multimediale Vernetzung ist fehl am Platze, solange es für die meisten Blinden unbezahlbar ist, in den Beständen einer Hörbücherei nach interessanten Texten zu suchen und sie sich überspielen zu lassen. Daß es anders geht, haben die genannten Nachbarländer gezeigt.

Welch reges Interesse für solche Dienste vorhanden ist, zeigten uns Reaktionen potentieller Nutzer, die Gelegenheit hatten, sich mit dem System vertraut zu machen, und von Besuchern der Messe REHAB im vergangenen Jahr. Sie bestätigten, daß durch solide Verbindung bestehender Techniken ein wichtiger Schritt zur sozialen Eingliederung Blinder und schwer Sehbehinderter vorbereitet werden konnte.

Dieser Artikel ist mit VoiceType Dictation direkt von gesprochener Sprache in Text umgesetzt worden.


Aus: Spektrum der Wissenschaft 6 / 1995, Seite 94
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.