Direkt zum Inhalt

Bildverarbeitung: Stopp! Fußgänger!

Neuronale Netzwerke im Auto sollen querende Passanten in Sekundenbruchteilen erkennen.


Eben noch ist die Fahrbahn frei, plötzlich rennt ein Kind auf die Straße. Selbst manch geübter Fahrer erstarrt in solch heiklen Situationen für einen kurzen, aber vielleicht entscheidenden Moment. Nicht so elektronische Systeme, sie kennen keine Schrecksekunde. Deshalb wollen Automobilhersteller ihre Fahrzeuge mit bildverarbeitenden Systemen ausstatten, die Fußgänger erkennen und den Fahrer warnen können; gegebenenfalls aktivieren sie selbst die Bremsen (Spektrum der Wissenschaft 05/2002, S. 76).

Allerdings ist das Erkennen von Menschen in der hochkomplexen Szenerie des Stadtverkehrs eine enorm schwierige Aufgabe, die bislang nur teilweise maschinell gelingt. Welche Glanzleistungen unser zentrales Nervensystem vollbringt, wird uns normalerweise nicht bewusst: In dem Strom von Signalen unserer Netzhaut unterscheidet es verschiedene Objekte, identifiziert sie als Verkehrsschilder, Menschen, Autos oder Gegenstände auf der Fahrbahn. Zudem erkennt unser Gehirn, ob und wie sich die klassifizierten Objekte bewegen. Diese Fertigkeiten mussten wir freilich erst im Laufe der Kindheit erlernen. Auch ein Computer lässt sich anhand von Beispielen darauf trainieren, aus den beiden Ansichten einer räumlich sehenden Stereokamera Objekte nach ihren charakteristischen Merkmalen zu klassifizieren.

Unser Gehirn nutzt dazu das Zusammenspiel einer Vielzahl von Nervenzellen. Jedes dieser Neurone ist über Synapsen genannte Kontaktstellen mit anderen Neuronen verbunden. Die elektrischen Impulse, die es von seinen Partnern erhält, verrechnet die Zelle zu einem Gesamtpotenzial. Dabei wirken nicht alle Impulse in gleicher Weise, denn manche Synapsen erhöhen, andere senken das Potenzial. Liegt dieses schließlich über einem Schwellenwert, so erzeugt das Neuron ein Signal und gibt es weiter.

Einfache mathematische Modelle beschreiben diese Informationsverarbeitung durch eine zeitlich gemittelte Aktivität einer Zelle, die Feuerrate, die sich im einfachsten Fall als gewichtete Summe der mittleren Aktivitäten ihrer Nachbarneurone ergibt. Die biologische Wirklichkeit ist komplexer, doch als Basis technischer "neuronaler Netze" eignet sich dieses Modell sehr gut.

Das biologische Vorbild gibt auch die Architektur eines solchen Netzes vor: Auf der Netzhaut des Auges und den dahinter liegenden Bereichen des visuellen Cortex dominiert nämlich eine Schichtstruktur, in der die Informationsverarbeitung überwiegend in einer bestimmten Richtung abläuft. Einer solchen Konfiguration entsprechen "Feedforward"-Netzwerke wie das Mehrschicht-Perceptron: Eine Schicht aus Eingabeneuronen speist den Input in das Netz, in unserem Falle sind das Intensitäten von Kamera-Bildpunkten. Jede folgende Schicht gibt ihre Antwort einer jeweils höheren weiter, bis eine Ausgabeschicht schließlich das Ergebnis anzeigt. Dass dabei nicht einfach ein Abbild der Eingabe-Informationen herauskommt, sondern eine Verarbeitung geschieht, beruht wie beim biologischen Vorbild auf unterschiedlich starken Verbindungen zwischen den Neuronen, realisiert durch Gewichte. Während solch ein Netz lernt, Beispiele zu klassifizieren, korrigiert es diese Gewichte in einer Vielzahl von Wiederholungen. Mathematisch gesprochen minimiert es eine über den gesamten Beispielsatz gemittelte Fehlerfunktion nach der Gradientenmethode. Anschaulich entspricht das dem Abstieg von einem Berggipfel – vom maximalen Fehler – ins Tal – zum minimalen Fehler –, wobei jeder Schritt in Richtung des jeweils größten Gefälles führt. Am Ende steht aber nicht nur die korrekte Wiedergabe der schon bekannten Beispiele. Die Netze können – wie lebende Nervensysteme – auch Informationen analysieren, die den Beispieldaten nur ähnlich sind: Präsentiert man ihnen mehrere Personen in heller Kleidung, erkennen sie nicht nur diese Personen wieder, sondern unterscheiden auch andere in heller Kleidung von sonstigen Objekten einer Straßenszene. Das klingt einfacher, als es ist, und so ein Training erfordert einige tausend bis zehntausend Lernbeispiele.

Ein neuronales Netzwerk für die Fußgängererkennung muss aber nicht nur Objekte auf Einzelbildern erkennen, sondern auch Bildfolgen im Zusammenhang verarbeiten. Konventionelle Videosysteme liefern aber etwa alle vierzig Millisekunden eine Aufnahme.

Ein Baum ist ein Baum

Die einzelnen Bilder einer Folge müssen deshalb innerhalb des Netzes aufgestaut werden, damit die aus ihnen extrahierten Merkmale alle gleichzeitig an der Ausgabeschicht ankommen. Das erste Bild wird also maximal verzögert, das letzte überhaupt nicht. Ein System, das Information zeitlich staffelt und dann im Kontext verarbeitet, heißt im Fachjargon Zeitverzögerungsnetzwerk oder TDNN.

Die für das Sehen zuständigen Bereiche unseres Gehirns, der so genannte visuelle Cortex, weisen eine Besonderheit auf, von der wir ebenfalls lernen wollen: Eine Nervenzelle ist keinesfalls mit allen Neuronen der darunter liegenden Schicht verbunden, sondern nur mit einem kleinen Teilbereich, dem rezeptiven Feld (RF). Diese Gruppierung ermöglicht eine effektive Arbeitsteilung: Einige dieser Felder reagieren beispielsweise nur auf waagerechte Kanten im Bild, andere auf Bewegungen. Von Schicht zu Schicht werden die Merkmale komplizierter.

In eben dieser Weise haben wir das TDNN strukturiert. So erkennen manche der raum-zeitlich strukturierten rezeptiven Felder nach links gekippte elliptische Objekte, die sich von Bild zu Bild, also von Zeitschritt zu Zeitschritt, um zwei Pixel von links nach rechts bewegen, andere Felder der gleichen Neuronenschicht erkennen nach rechts gekippte Muster mit umgekehrter Bewegungsrichtung und so weiter. Je mehr wir uns in einem solchen Netz der Ausgabeschicht nähern, desto komplexer werden die Objektklassen und ihre Muster.

Ein solches Vorgehen ist auch durchaus notwendig, denn das Objekt "Fußgänger" variiert beispielsweise sehr stark in Form, Größe und Farbe. Neben individuellen Unterschieden sorgt zudem der jeweilige Blickwinkel der Kamera für Veränderungen. Ein mögliches Merkmal wäre "ein längliches Objekt, das zwischen 1,50 und 2,00 Meter groß ist". Das genügt, um in den Einzelbildern einer Stereokamera dementsprechende Bereiche als Regions of Interest (ROIs) auszuzeichnen. Doch dieses Merkmal allein wäre nicht robust genug, denn es trifft beispielsweise auch auf viele Bäume und Sträucher zu.

Wenn ein Fußgänger über die Fahrbahn läuft, steuert er ein weiteres Merkmal bei, das die Treffsicherheit der Erkennung deutlich erhöht: das Muster der Beinbewegung – zwei längliche Objekte, die jeweils gegenläufig hin- und herschwingen. Deshalb trainierten wir unser TDNN auch mit Bildfolgen, die nur die untere Hälfte der ROIs enthalten. Mit Erfolg: Die Treffsicherheit stieg um den Faktor drei.

Eine gute Klassifikationsstrategie ist schon mehr als die halbe Miete, doch das Training der Netze hat eine ebenso hohe Bedeutung. Im Idealfall sollten die Lernbeispiele alle Ausprägungen aller möglichen Objekte vor allen vorkommenden Hintergrundmustern enthalten. Das lässt sich kaum realisieren. Hinzu kommen systematische Probleme: Die Kameraaufnahmen werden mit der Zeit den Trainingsmustern unähnlicher, denn die Elektronik altert, Helligkeit und Kontrast des Bildes schwinden.

Um solche Probleme ohne großen Aufwand zu bewältigen, muss das Netz lernfähig bleiben und sein Wissen automatisch durch Alltagserfahrung erweitern. Formal organisieren wir das so: Ein in einem Bild gefundenes Objekt erhält eine Identifikationsnummer, die konstant bleibt, solange das Objekt sichtbar ist. Wird es über eine festgelegte Zeitdauer hinreichend häufig als Fußgänger klassifiziert, übernimmt das System alle Regions of Interest mit dieser Identifikationsnummer als weitere Lernbeispiele. Gibt es genug solcher neuen Daten, legt es automatisch eine Trainingsrunde ein. Auf diese Weise erweiterten wir beispielsweise die Kenntnisse eines neuronalen Netzwerks, das ursprünglich mit Vorder- und Rückansichten dunkel gekleideter Fußgänger trainiert worden war. Zunächst lernte es, auch dunkel gekleidete Personen in der Seitenansicht zu erkennen, dann auch hell gekleidete Fußgänger. Die ursprünglich trainierten Muster wurden unverändert gut klassifiziert, zudem aber auch zehnmal mehr Seitenansichten als zuvor.

Die beschriebenen Methoden testen wir derzeit mit dem Urban Traffic Assistant im Innenstadtverkehr, weitere Entwicklungen erfolgen gemeinsam mit Siemens, VW sowie einigen mittelständischen französischen und englischen Firmen im Rahmen des EU-Projekts "SaveU". An einer klassifikationsbasierten Fußgängererkennung arbeiten auch Kollegen am Artificial Intelligence Lab des Massachusetts Institute of Technology (MIT) in Cambrigde. Sie verzichten allerdings auf eine Stereo-Bildanalyse und unterteilen stattdessen die Pixel-Matrix in viele überlappende Teilbereiche, die ein Klassifikator anschließend dahin gehend prüft, ob sie eine Person enthalten oder nicht. Trotz deutlich höherer Rechenzeiten erlaubt auch dieses Vorgehen, wie bei unserem System die Kamera zu bewegen. Es gibt eine Reihe weiterer Klassifikationsverfahren, die aber bei den Zugangskontrollen eingesetzt werden: Sie vergleichen die Aufnahme einer stationären Kamera mit einem Referenzbild, eignen sich also nicht für den Einsatz im fahrenden Auto.

Einen völlig anderen Ansatz verfolgen modellbasierte Verfahren, die etwa explizit nach bestimmten Körperteilen suchen und aus diesen dann die Silhouette einer Person zusammensetzen. Teilweise verdeckte Personen oder solche, bei denen nur kurz einmal ein Arm oder Bein sichtbar ist, übersieht ein solcher Algorithmus. In komplexen Realwelt-Szenarien halten diese Techniken dem Vergleich mit den hier beschriebenen Verfahren deshalb nicht stand. Verlässlich arbeitet dagegen das von meinem Kollegen Dariu Gavrila entwickelte so genannte hierarchische Chamfer-Matching. Es extrahiert die Konturen von Fußgängern aus Aufnahmen und vergleicht sie mit Referenzkonturen. Dieses Verfahren ist prinzipiell sogar in der Lage, die ROIs auf Einzelbildern anstatt auf Stereo-Bildpaaren auszumachen, verlangt aber erhebliche Rechenleistung. Seine Stärken liegen in der Kombination mit der beschriebenen Stereo-Bildanalyse: Das Chamfer-Matching kann sehr schnell verdächtige Bildregionen ausfindig machen, die dann das neuronale Netz klassifiziert.

So gut unser System schon ist, bis zu seinem Serieneinsatz muss es Fußgänger weitaus sicherer erkennen. Dazu müssen wir noch größere und die reale Welt noch besser wiedergebende Stichproben erzeugen; auch die Trainingsverfahren dürften sich verbessern lassen. Dann könnten diese Netze als Assistenzsysteme durch Lichtsignale oder Geräusche vor Passanten warnen und den Fahrer so in unübersichtlichen Verkehrssituationen unterstützen. Eine aktive Notbremsung gelingt zwar schon unter definierten Bedingungen auf dem Parkplatz unseres Forschungszentrums, der Serieneinsatz liegt – auch auf Grund der damit verbundenen Haftungsfragen – noch in ferner Zukunft.

Aus: Spektrum der Wissenschaft 12 / 2002, Seite 83
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Kennen Sie schon …

Spektrum Kompakt – Verhaltensbiologie – Tierisch sozial

Vor allem in Haustieren sehen wir Persönlichkeitsmerkmale wie Mut und Neugier oder Verschlossenheit. Doch nicht nur Hund und Katze haben eine Persönlichkeit, auch im Aquarium und im Ozean verhält man sich gemäß Charakter. Denn eine Persönlichkeit zu besitzen ist keine menschliche Eigenheit.

Spektrum Kompakt – Science not fiction - Die Welt der Technik

Ist das noch Sciencefiction oder schon Realität? Bei manchen technischen Fortschritten erleben wir gerade den Übergang. Und auch wenn Warp-Antrieb oder Städte im All noch auf sich warten lassen: Die theoretischen Grundlagen werden längst in der Wissenschaft diskutiert.

Spektrum Kompakt – Elektromobilität - Mit Strom von A nach B

Für Fahrräder sind sie längst ein Erfolg, aber auch bei Autos behaupten sich Elektroantriebe immer mehr als umweltfreundliche Alternative. Was leisten Elektrofahrzeuge inzwischen, wie sieht die Ökobilanz aus, wo gibt es noch Schwierigkeiten? Und wären E-Laster auch eine Option für den Güterverkehr?

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.