Direkt zum Inhalt

Intelligente Zimmer

Elektronische Butler könnten künftig unauffällig in die Wände von Wohn- und Arbeitsräumen integriert werden. Vorläufer solcher dienstbaren Geister sind Computersysteme, die bereits Menschen am Gesicht erkennen und ihre Handlungen interpretieren.

Mitunter wünschte man sich, das Haus wüßte zu jedem Zeitpunkt, wo die Kinder sind, und gäbe Bescheid, wenn sie etwas Gefährliches anstellen; oder das Büro merkte von selbst, wann eine wichtige Besprechung im Gange ist, und stellte daraufhin keine Anrufe durch. Und wie wäre es, wenn Ihr Auto erkennen würde, daß Sie nach längerer Fahrt müde werden, und Sie rechtzeitig aufforderte, eine Pause einzulegen?

Schon lange versucht man, Computersysteme mit derartigen Leistungen zu entwickeln. Bald könnten Maschinen manche Aufgaben von Babysittern oder Sekretärinnen übernehmen.

Warum sind sie nicht schon längst dazu fähig? Den wesentlichen Grund dafür sehe ich darin, daß Computer taub und blind sind: Sie bekommen Informationen über die Welt nur über Tastatur und Maus. Selbst Mikrophon und Kamera helfen nicht, solange die von ihnen gelieferten Daten nur transportiert oder gespeichert, nicht aber auf ihre Bedeutung hin interpretiert werden. Ich glaube, daß die Maschine in einem erheblich weitergehenden Sinne wahrnehmen muß, was ihr Benutzer tut, bevor sie ihm wirklich hilfreich sein kann. Mehr noch, sie muß auch seine Person erkennen und seine Absichten erschließen können – zumindest in dem eingeschränkten Maße, wie ein anderer Mensch oder auch ein Hund das vermag.

Um diesem Ziel näherzukommen, hat meine Forschungsgruppe in jüngster Zeit Systeme entwickelt, die Gesichter, Gesichtsausdrücke und Gesten erkennen. Wir können damit bereits Umgebungen bauen, die sich in gewissen Aspekten so verhalten wie das eingangs beschriebene Haus, Büro oder Auto.

Diese intelligenten Zimmer (smart rooms), wie wir sie nennen, sind mit Kameras und Mikrophonen ausgestattet, aus deren Daten ein Netz von Computern eine Einschätzung dessen erarbeitet, was der Mensch im erfaßten Bereich sagt und tut. Er kann so durch Körperbewegungen, Sprechen und Mimik dem System Anweisungen erteilen, multimediale Informationen abrufen oder sich in virtuelle Welten begeben – ohne Tastatur und Maus und ohne die schwerfälligen Datenhandschuhe und -helme.

Die wesentliche Idee ist: Weil die intelligenten Zimmer etwas über ihre Bewohner wissen – aus der direkten Wahrnehmung oder aus anderen Quellen –, können sie intelligent auf deren Handlungen reagieren.

In Zusammenarbeit mit Pattie Maes und mir hatten die Doktoranden Trevor Darrell und Bruce M. Blumber 1991 bei uns am Medien-Labor des Massachusetts Institute of Technology in Cambridge das erste intelligente Zimmer konstruiert. Daraus erwuchs bald ein Experiment, an dem sich mehrere Arbeitsgruppen beteiligen. Mittlerweile gibt es fünf solcher Räume, die alle durch Telephonleitungen miteinander verbunden sind: drei in Boston, einen in Japan und einen in Großbritannien. Weitere Installationen sind in Paris, New York und Dallas geplant.

Jedes dieser Zimmer ist mit mehreren Computern ausgestattet. Keines dieser Geräte ist leistungsfähiger als ein normaler PC; jedes ist für eine bestimmte Aufgabe ausgelegt und zuständig, zum Beispiel eines für die Analyse von Bildern, ein anderes für die von Tönen und ein drittes für die von Gesten. Werden mehr Fähigkeiten benötigt, fügen wir einfach weitere Maschinen hinzu.

Trotz der Unterschiede liegt allen Erkennungsleistungen dasselbe statistische Prinzip zugrunde: die Maximierung der Plausibilität (maximum likelihood analysis). Dabei vergleichen die Rechner die eintreffenden Daten mit gespeicherten Modellen, berechnen jeweils das Maß der Übereinstimmung und bestimmen schließlich das Modell, das am besten zu den Daten paßt.


Wo?

Bevor ein intelligentes Zimmer herausfinden kann, was sein Benutzer tut, muß es ihn lokalisieren. Dazu entwickelten wir ein System namens Pfinder (für Personenfinder), das den Aufenthaltsort eines Menschen registriert und weiterverfolgt, solange er sich innerhalb des Zimmers bewegt.

Für die Maximum-Likelihood-Analyse benötigt das System in diesem Falle ein Modell eines menschlichen Körpers: eine Beschreibung mit möglichst wenig Zahlenwerten, die gleichwohl genau genug ist, um mit den Daten der Videokamera vergleichbar zu sein. Unser Modell besteht aus wenigen einfachen, miteinander verbundenen geometrischen Gebilden, die wir Blobs (wörtlich: Kleckse oder Klümpchen) nennen. Sieben Blobs – für Hände und Füße sowie Kopf, Ober- und Unterkörper – reichen aus (Bild 1). Ein Blob ist charakterisiert durch seine Farbe sowie durch geometrische Größen für Position, Orientierung und Form. Hinzu kommen Angaben darüber, wie genau oder zuverlässig diese Information ist: An die Stelle einer einzelnen Zahl für eine Positionskoordinate oder Farbangabe tritt eine Verteilung um einen Mittelwert (genauer: eine Kovarianzmatrix).

Es ergibt sich gewissermaßen eine Modellvorstellung, die das System sich von dem Raum samt dem darin befindlichen Menschen macht: eine dickliche Gliederpuppe mit korrekter Position und Körperhaltung, eingefügt in ein Texturmodell des Raumhintergrundes. Mit diesem Bild vergleicht Pfinder jede neue Aufnahme der Videokamera; und zwar legt das Programm eine Liste an, die verzeichnet, welche Rasterpunkte (Pixel) nach der Modellvorstellung zu welchem Blob gehören müßten und welche nicht.

Dabei extrapoliert es aus der Vergangenheit: Hat sich etwa der Oberkörper des Benutzers eine zehntel Sekunde vorher mit einem Meter pro Sekunde nach rechts bewegt, vermutet Pfinder das Zentrum des Blobs, der den Oberkörper modelliert, für die nächste Zehntelsekunde noch einen zehntel Meter weiter rechts. Diese Vorausberechnungen werden noch modifiziert durch Abgleich mit typischen Bewegungsmustern, die das System aus der Beobachtung Tausender von Menschen extrahiert hat. So geht in die Extrapolation zum Beispiel die Erfahrung ein, daß der Oberkörper gegenüber dem Unterkörper gebeugt, aber nicht versetzt werden kann oder daß Hände und Füße sich im allgemeinen erheblich schneller bewegen als der Rumpf.

Im nächsten Schritt vergleicht das Programm das Vorstellungs- und das Kamerabild, indem es Farbe und Helligkeit beider Bilder Pixel für Pixel subtrahiert und das Ergebnis im Sinne einer Wahrscheinlichkeitsaussage bewertet. Wenn etwa die Helligkeitsdifferenz für ein Pixel 10 Prozent beträgt und gleichzeitig die Verteilungsfunktion des zugehörigen Blobs aussagt, daß eine solche Differenz nur in 1 Prozent der Fälle auftritt, dann ist die Chance, daß dieses Pixel zu diesem Blob gehört, lediglich 1 zu 100.

Weitere Adjustierungen sind vonnöten. Gerät etwa ein Körperteil des Benutzers in den Schatten, ergeben sich Helligkeitsdifferenzen, die nichts mit der genannten Wahrscheinlichkeit zu tun haben. Pfinder macht deshalb Schatten ausfindig – definiert als Flächen, die dunkler sind als erwartet – und korrigiert die Farbwerte ihrer Pixel auf eine Einheitshelligkeit.

Änderungen der Beleuchtung oder der Anordnung von Gegenständen im Raum könnten das System ebenfalls zu einer falschen Zuordnung veranlassen. Nimmt etwa der Benutzer ein Buch vom Tisch und stellt es ins Regal, ändert sich der Hintergrund an zwei Stellen: am alten und am neuen Platz des Buches. Deshalb erneuert Pfinder kontinuierlich die Daten des Hintergrundes – das heißt der Pixel, die nicht von Blobs belegt sind – durch Mittelung zwischen altem und neuem Farbwert.

Nach all diesen verschiedenen Berechnungen und Kompensationen bestimmt Pfinder schließlich für jedes Pixel des neuen Bildes denjenigen Blob, zu dem es am ehesten gehört. Damit gewinnt es wiederum neue Werte für die Daten des Blob-Modells und des Hintergrunds sowie für die aktuellen Geschwindigkeiten, die zur Extrapolation des nächsten Bildes dienen. So bleibt das System durch das unablässige Wechselspiel zwischem aktuellem und Vorstellungsbild stets auf dem laufenden.

Wer und Wie?

Die nächste Aufgabe besteht darin zu bestimmen, wer in dem Zimmer ist und was er sagt. Zur Spracherkennung gibt es bereits viele Algorithmen (Spektrum der Wissenschaft, März 1994, Seite 86). Praktisch alle diese Systeme arbeiten aber nur dann zufriedenstellend, wenn das Mikrophon in nächster Nähe des Sprechers ist. Ein Zimmer, das nur denjenigen versteht, der an einem bestimmten Punkt – nämlich vor dem Mikrophon - steht, würde man nicht für besonders intelligent halten; Sprache sollte auch dann erkennbar sein, wenn der Sprecher sich frei im Zimmer bewegt und noch Störgeräusche vorhanden sind.

Unsere Lösung dieses Problems beruht darauf, daß Pfinder jederzeit die Position des Benutzers kennt. Deswegen sind auch die Schall-Laufzeiten von seinem Mund zu mehreren fest installierten Mikrophonen berechenbar. Durch elektronische Verzögerungsschaltungen erreicht man, daß alle Schallsignale des Sprechers im System gleichzeitig zusammentreffen und sich dadurch aufaddieren, alle anderen dagegen sich ausmitteln. So gewinnt man ein Signal ausreichender Qualität; es wird mit denen bekannter Wörter verglichen, und das mit der maximalen Übereinstimmung gilt als gesprochen.

Ebenso wichtig wie eine Anweisung zu verstehen ist oftmals zu wissen, wer sie erteilt. Am schnellsten läßt sich ein Mensch sicherlich am Gesicht erkennen. Das System dafür benötigt zunächst Modelle aller Gesichter, die es identifizieren soll. Ein mathematisches Verfahren aus der linearen Algebra, die Eigenvektor-Analyse, lieferte so etwas wie künstliche Standardgesichter; wir nennen sie Eigen-Gesichter (eigenfaces). Ein beliebiges Gesicht entsteht, indem man jedes Eigengesicht mit einem gewissen Faktor multipliziert und sie dann alle additiv überlagert; das für die Analyse benötigte Modell eines Gesichtes ist das System dieser Gewichtsfaktoren.

Wenn nun die Kamera des intelligenten Zimmers eine Person entdeckt hat, isoliert das Identifizierungssystem ihr zuvor von Pfinder lokalisiertes Gesicht von der Umgebung und normalisiert seinen Kontrast. Das Programm berechnet dann, wie ähnlich es jedem Eigengesicht ist oder, was auf dasselbe hinausläuft, welche Gewichtsfaktoren man verwenden müßte, um es aus den Eigengesichtern zusammenzusetzen. Diese Ähnlichkeitswerte ergeben ein Modell, das mit den gespeicherten Modellen bereits bekannter Personen verglichen wird. Unsere intelligenten Zimmer fanden aus Testgruppen von mehreren hundert Leuten die richtige Person mit einer Trefferquote von 99 Prozent.

Damit nicht genug. Ein Lernprogramm beispielsweise sollte wissen, ob die Schüler noch interessiert oder gelangweilt sind. Unser intelligentes Zimmer analysiert deshalb, sobald es ein Gesicht gefunden und erkannt hat, dessen Ausdruck (Bild 2). Dafür vergleicht ein spezialisierter Rechner die Bewegungen des Gesichts mit Verzeichnissen von Bewegungen, die für gewisse Emotionen typisch sind (Bilder 3 und 4). So krümmt ein Mensch, der lächelt, seine Mundwinkel und hebt bestimmte Teile der Stirn an; wer ein Lächeln lediglich imitiert, bewegt nur den Mund. Unser System schaffte es, bei einer kleinen Gruppe von Testpersonen ausgewählte Gesichtsausdrücke zu 98 Prozent korrekt zu bestimmen.


Was?

Damit Häuser, Büros und Autos wirklich hilfreich sein können, müssen sie schließlich die elementaren Wahrnehmungen von Identität, Gesichtsausdruck und Sprache eines Menschen in einen Zusammenhang bringen. Schließlich ist ein und dieselbe Bewegung sehr unterschiedlich zu interpretieren, je nachdem, was ihr Urheber gerade vorhat. Ein Autofahrer, der den Fuß vom Gaspedal nimmt, will vielleicht anhalten – oder auch abbiegen. Es gibt jedoch einen erkennbaren Unterschied: Wer abbiegen will, greift zum Blinker und legt zur Vorbereitung der Drehbewegung die Hände anders ans Lenkrad. Das Computersystem muß also eine Kombination aus aktuellen und unmittelbar vorangegangenen Bewegungen berücksichtigen.

Dafür haben wir Prinzipen aus der Technik der automatischen Spracherkennung übernommen: Ein Wort wird innerhalb eines solchen Systems modelliert durch eine Folge von Zuständen – Phoneme (Einzellaute) oder Teile von Phonemen – mit gewissen Übergangswahrscheinlichkeiten von einem Zustand zum nächsten: eine sogenannte Markow-Kette (Spektrum der Wissenschaft, März 1994, Seite 90). Um ein gesprochenes Wort zu erkennen, versucht das System, das Schallsignal mit verschiedenen Markow-Ketten in Einklang zu bringen; es entscheidet sich schließlich für diejenige, bei der das am besten gelingt.

Diesen Ansatz haben wir verallgemeinert, um Automaten zu befähigen, aus den Bewegungen eines Menschen seine Absichten zu erschließen. An die Stelle der Phoneme treten gewisse Elementarbewegungen. Beispielsweise ist zu unterscheiden, ob ein Mensch mit ausgestrecktem Arm sich lediglich räkelt oder auf etwas deutet. Für das Zeigen verfügt das System über ein internes Modell aus drei Zuständen: Hand heben, stillhalten und schnell wieder zurückziehen. Für ein bloßes Strecken des Arms dagegen erwartet es nur eine einzige kontinuierliche Bewegung.

Von den bisher entwickelten Systemen zur Aktions-Interpretation ermöglichen die einfachsten dem Benutzer, durch Körperbewegungen eine virtuelle Umgebung zu beeinflussen. So setzt ALIVE (Artifical Life Interaction Environment, Umgebung für die Interaktion mit künstlichem Leben), ein Gemeinschaftswerk der Gruppe von Pattie Maes und meiner, die von Pfinder gelieferte Beschreibung eines Benutzers in ein Videomodell um, das in einer virtuellen, von allerlei computergenerierten Lebensformen bevölkerten Umwelt lebt. Die Phantasietierchen werten Information über Gestik, Sprache und Position des Benutzers aus und reagieren darauf (Bild 1). Bewegt er sich etwa so, als würde er einen Stock aufheben und weit wegwerfen, tut das Videobild in der ALIVE-Umgebung dasselbe – und Silas, ein virtueller Hund, rennt los und apportiert. Silas kann sich außerdem auf Kommando setzen oder überkugeln.


Wozu?

Die Ausgabedaten eines intelligenten Zimmers sind auch wesentlich direkter nutzbar. Beispielsweise läßt sich die Position des Benutzers in einen virtuellen Kontrollraum übertragen; ein Wort oder eine Handbewegung wirken dann unmittelbar als Anweisungen an ein Computerprogramm.

Das kann ein Videospiel in einer imaginären dreidimensionalen Umgebung sein, das ohne die üblichen Bedienelemente wie Joysticks auskommt. Nähert sich in der Szenerie ein Feind von links, braucht sich der Spieler – im realen Zimmer – nur nach links zu wenden, die Hand mit einer virtuellen Pistole zu heben und "Peng" zu rufen – schon verröchelt der Gegner.

Es gibt allerdings auch ernsthafte Anwendungen. Die ziemlich komplizierte amerikanische Taubstummensprache (American Sign Language, ASL) ist ein guter Prüfstein für die Fähigkeiten unseres Zimmers; deshalb haben wir ein System zu ihrer Interpretation konstruiert (Bild 6). Wir erstellten Modelle einzelner Zeichen, indem wir zahlreiche – durch Pfinder analysierte – Aufnahmen der betreffenden Handbewegungen zusammenfaßten. Bislang erkennt das System in Echtzeit 40 Wörter der ASL mit einer Genauigkeit von 99,2 Prozent. Mit gleichbleibender Erkennungsrate bei vergrößertem Wortschatz sollte es gelingen, ein Spracherkennungssystem für Taubstumme zu schaffen.

Das Automobil habe ich nicht von ungefähr mehrfach erwähnt: Die meisten Verkehrsunfälle sind durch Fehler der Fahrer verursacht. Wir entwickeln deshalb zusammen mit Andy Liu, einem Wissenschaftler am Grundlagenforschungsinstitut der Firma Nissan in Cambridge (Massachusetts), ein intelligentes Cockpit. Fernziel ist ein Fahrzeug, das die Aktionen des Fahrers mitverfolgt und nützliche Hinweise gibt: zum richtigen Weg und zur Handhabung des Wagens bis hin zur Warnung vor Gefahren.

Wieder begann die Entwicklung mit der Modellbildung. Aus den Hand- und Fußbewegungen zahlreicher Fahrer auf einem simulierten Parcours leiteten wir Verhaltensmodelle für typische Aktivitäten ab: einem Hindernis ausweichen, einem anderen Fahrzeug folgen, abbiegen, anhalten, anfahren und die Spur wechseln (Bild 5). Damit sollte das System die intendierten Aktionen eines Testfahrers so schnell wie möglich klassifizieren. Zu unserer Überraschung betrug die Trefferquote bereits nach einer halben Sekunde 86 und nach zwei Sekunden 97 Prozent.

Zumindest in einfachen Situationen ist es also möglich, die Bewegungen eines Menschen zu verfolgen, ihn zu identifizieren sowie manche Äußerungen und Gesichtsausdrücke zu interpretieren – und das alles in Echtzeit mit bescheidenem Rechenaufwand. Die Fähigkeiten unserer Systeme lassen sich vielfältig kombinieren. So entwickeln wir Brillen, die Menschen wiedererkennen und ihre Namen dem Träger ins Ohr flüstern. Wir arbeiten an Fernsehbildschirmen, die registrieren, wann jemand hinschaut. Und wir planen, eine Kreditkarte zu entwickeln, die ihren Eigentümer kennt – und damit auch weiß, ob sie gestohlen worden ist.

Andere Forschungsgruppen an unserem Medien-Labor arbeiten daran, intelligente Räume mit einem tieferen Verständnis für menschliche Handlungen und Motive auszustatten. Mit dem weiteren Fortschritt werden sich Rechnersysteme zunehmend wie autonome, aufmerksame Assistenten verhalten.

Literaturhinweise

- Visually Controlled Graphics. Von A. Azarbayejani, T. Starner, B. Howowitz und A. Pentland in: IEEE Transactions on Pattern Analysis and Machine Intelligence, Band 15, Heft 6, Seiten 602 bis 604, Juni 1993.

– The ALIVE System: Full-Body Interaction with Autonomous Agents. Von P. Maes, T. Darrell, B. Blumburg und A. Pentland in: Proceedings of Computer Animation '95, 1995.

– Facial Expression Recognition Using a Dynamic Model and Motion Energy. Von I. A. Essa und A. Pentland in: Proceedings of the Fifth International Conference on Computer Vision. IEEE Computer Society Press, 1995.

– Toward Augmented Control Systems. Von A. Pentland und A. Liu in: Proceedings of the Intelligent Vehicles '95 Symposium. IEEE Industrial Electronics Society, September 1995.

– Real-Time American Sign Language from Video Using Hidden Markov Models. Von T. Starner und A. Pentland in: International Symposium on Computer Vision, 1995. IEEE Computer Society Press, 1995.

– Pfinder: Real-Time Tracking of the Human Body. Von Christopher Wren, Ali Azarbayejani, Trevor Darrell und Alex P. Pentland in: Integration Issues in Large Commercial Media Delivery Systems. Herausgegeben von A. G. Tescher und V. M. Bove. SPIE, Band 2615, 1996.

– Das Medien-Labor des Massachusetts Institute of Technology stellt zahlreiche Artikel und Berichte im World Wide Web bereit unter http://www-white. media.mit.edu/vismod.


Aus: Spektrum der Wissenschaft 6 / 1996, Seite 44
© Spektrum der Wissenschaft Verlagsgesellschaft mbH
6 / 1996

Dieser Artikel ist enthalten in Spektrum der Wissenschaft 6 / 1996

Lesermeinung

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Leserzuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Leserzuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmer sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Lesermeinungen können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!