Direkt zum Inhalt

News: Räumliche Tiefenmessung in Video-Echtzeit

Die Ermittlung der Koordinaten von dreidimensionalen Objekten spielt eine zentrale Rolle, sei es bei der Materialprüfung, in der biomedizinischen Technik oder anderen Bereichen. Wissenschaftler der Ruhr-Universität Bochum haben nun ein System entwickelt, mit dem es möglich ist, die räumliche Tiefenstruktur beliebiger visueller Szenen in Video-Echtzeit zu ermitteln. Dazu greifen sie auf einen 'Neuronalen Algorithmus' zurück.
Wir erfahren unsere Umwelt als dreidimensional obwohl bei der Betrachtung visueller Szenen durch unsere Augen nur eine zweidimensionale Projektion davon auf der Netzhaut abgebildet wird. Das Gehirn hat jedoch Wege gefunden, die dritte Dimension aus den Netzhautbildern beider Augen zu rekonstruieren. Dabei wird ausgenutzt, daß sich unsere Augen nebeneinander befinden. Dadurch entsteht eine Parallaxe bei der Abbildung der Objekte. Das Netzhautbild des Objektes im linken Auge ist nach links versetzt im Vergleich zum Netzhautbild des rechten Auges. Dieser Versatz wird "Disparität" genannt und dient, beim stereoskopischen Sehen, dem visuellen System als Grundlage zur Berechnung der räumlichen Tiefe des Objektes. Ziel muß es also sein, diese Verschiebung zu messen und daraus (unter Berücksichtigung des Augenabstandes) die räumliche Tiefe zu ermitteln.

Die Neuronen in der visuellen Großhirnrinde (dem visuellen Cortex) arbeiten wie ein räumliches Bandpaßfilter. Herkömmliche Bandpaßfilter sind aus der Elektrotechnik bekannt und filtern ein bestimmtes Frequenzband aus einem Frequenzgemisch heraus. Im Idealfall liefert der Bandpaßfilter nur noch eine reine Sinusschwingung mit einer eindeutigen Frequenz. In ähnlicher Weise filtern die sogenannten "Simple"-Zellen im visuellen Cortex gezielt bestimmte Raumfrequenzen aus einer visuellen Szene. Filterantworten werden im allgemeinen durch die Antwortstärke (Amplitude) und ihre Phasenlage beschrieben.

Die Phasenlage gibt an, wie sehr die Sinusschwingungen relativ zu einer Referenzschwingung verschoben sind. Hier setzt das visuelle System des Menschen an: Durch geschickte Verschaltung von Neuronen miteinander ist es in der Lage, die Phasenlagen der Filterantworten des linken Auges mit denen des rechten Auge zu vergleichen und sie voneinander zu subtrahieren. Da die einzelnen Phasenlagen ein Maß der relativen Verschiebung sind, ist ihre Differenz ein Maß des absoluten Versatzes des betrachteten Objektes in beiden Projektionen. Kennt man die Filterfrequenz, so kann aus der Phasendifferenz die Disparität ermittelt werden und daraus wiederum die räumliche Tiefe. Mittlerweile gehen viele Neurowissenschaftler davon aus, daß ein Mechanismus ähnlicher Art tatsächlich in visuellen System realisiert ist.

Damit dies funktionieren kann, werden jedoch eine Vielzahl von Bandpaßfiltern mit unterschiedlichen Filtereigenschaften (also Neuronen) an jedem Raumpunkt gebraucht, um alle nötigen Berechnungen durchzuführen. Das Gehirn kann dies sicher aufgrund seiner hohen Neuronendichte und seiner immensen Parallelität realisieren, technische Systeme stoßen jedoch schon bald an die Grenzen, die durch die dramatisch ansteigende Rechenzeit gegeben sind.

Normalerweise befinden sich beide Augen auf der gleichen Höhe. Dies führt dazu, daß es zur Ermittlung der räumlichen Tiefe ausreicht, wenn man die Disparität entlang einzelner Linien vermißt (zum Beispiel entlang aller horizontalen Linien mit gleicher Höhe des linken im Vergleich zum rechten Bild). Kameras haben nun die Eigenschaft, die Bilder Zeile für Zeile abzutasten, und diese Zeilen müssen dann verglichen werden. Damit ist der Bildaufbau eines Kamerabildes ein Zeitsignal. Die räumliche Disparität, die bei zwei Stereokameras auftritt, ist also ein zeitlicher Versatz zwischen zueinander gehörigen Helligkeitsveränderungen des linken und rechten Bildes. Eine Kante, die ja mit einer Veränderung der Helligkeit im Bild korreliert ist, tritt zum Beispiel rechts früher oder später auf als links.

Man kann nun das neuronale Verfahren der räumlichen Bandpaßfilterung auf das herkömmliche Prinzip einer zeitlichen Bandpaßfilterung übertragen. Dazu schickt man beide Kamerasignale durch herkömmliche Bandpaßfilter und vergleicht deren Phasenlagen am Ausgang. Dieses Vorgehen greift auf lange bekannte Technologien zurück und läßt sich mit sehr kompakter Elektronik realisieren. So ist es Wissenschaftlern des Instituts für Physiologie der Ruhr-Universität Bochum gelungen, einen integrierten Schaltkreis daraus zu entwickeln, dessen Prototyp auf der CEBIT 99 (Halle 16, Stand B36) vorgestellt wird. Das Blockdiagramm zeigt den Aufbau des Systems.

Das Verfahren ist in der Lage komplette CCD-Kamerabildpaare mit bis zu 100 Hz Bildfrequenz (doppelte CCD Frequenz) auf räumliche Tiefe hin zu analysieren. Damit ist dieses Echtzeit-3D-System herkömmlichen industriellen 3D-Verfahren an Geschwindigkeit stark überlegen. Aus diesem Grunde ergeben sich viele Einsatzgebiete, und es wird bereits jetzt (als Softwareversion) verwendet. Anwendungen finden sich in der biomedizinischen Technik (Stereo-Endoskopie), der Qualitätskontrolle von Oberflächen (Prüfung von Fehl- und Störstellen), bei der Fernsteuerung von Maschinen in Gefahrenbereichen (Radioaktivität, Giftstoffe, etc.), bei der Steuerung autonomer Roboter, bei der Kollisionsvermeidung in Fahrzeugbereich, bei der Positionsvermessung von Personen, sowie in der Sicherheitstechnik (Unfallverhütung durch 3D-Annäherungskontrollen).

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte