Sinne: Kategorischer Fortschritt

Kontrollblick ins Unterholz: Versteckt sich dort etwas, das gefährlich werden könnte? Blitzschnelles Erfassen und Einordnen der zahlreichen Bildinformationen ist hier von Vorteil – eine Eigenschaft, die Mensch bislang der Maschine weit voraus hatte. Doch die Binärkünstler holen auf.

Antje Findeklee

Etwa 300 Millisekunden dauert es, bis eine Versuchsperson eine Bildinformation – beispielsweise Objekt: Tier – in eine motorische Reaktion – Cursortaste loslassen – umsetzt. Das erste Sechstel der Zeit dauert es allein, bis der visuelle Reiz den Weg von der Sinneszelle in der Netzhaut bis in die primäre Sehrinde, die erste Verarbeitungsregion im Sehprozess, bewältigt hat.

Nach etwa der Hälfte der Zeit, so zeigten EEG-Messungen, hat das Gehirn offenbar erkannt, dass tatsächlich ein Tier auf dem Monitor zu sehen ist und kein Auto oder Gesicht. Die restlichen Millisekunden vergehen dann damit, diese Information in die motorische Anweisung für den Finger zu übersetzen.

Ganz schön fix? Allerdings. Dabei reicht es sogar, das Tierbild nur 20 Millisekunden zu sehen – und das ist bemerkenswert: Wir ordnen das Objekt also bereits einer Kategorie zu, bevor durch die Verarbeitung auf höheren Ebenen eine Rückkopplung erfolgen kann, die das Gesehene überprüft und bestätigt oder verwirft. Die Erfolgsquoten liegen weit über dem Zufall. Forscher leiten daraus ab, dass wir das komplexe Endbild über mehrere Stufen aus einfachen Grundeinheiten erst zusammensetzen – so zumindest eine weit verbreitete Theorie.

Sehen im Modell

Eine Leistung, von der Neurophysiker bislang noch träumen. Sind ihre Software-Schöpfungen auch durchaus in der Lage, in Anlehnung an das tierische und menschliche Sehen Umrisse, Kanten, Kontraste und ähnliches zu erkennen und sich wie ein kleines Kind über Stolpern, Knie aufstoßen und daraus lernen zunehmend sicherer durch den Raum zu bewegen – dieses schnelle und treffsichere Einordnen von Bildinformation in einzelne Objektkategorien war bislang noch Zukunftsmusik. Und wäre doch so praktisch und hilfreich für Roboter und Co.

Dabei empfinden viele Computerprogramme, die Maschinen zum Sehen verhelfen sollen, die Erkenntnisse an Lebewesen möglichst genau nach. So reagiert auch das Modell von Thomas Serre, Aude Oliva und Tomaso Poggio, alle am Massachusetts Institute of Technology, in der ersten Ebene zunächst einmal auf Linien und ihre Orientierung, wobei die Position des Reizes entscheidet, welche Einheiten schweigen oder feuern. Da sie zudem in Gruppen verschaltet sind, gelangt eine Kombination von Informationen an die nächst höhere Ebene – ganz wie bei den tatsächlich so genannten einfachen Zellen der Retina.

Auf der nächsten Stufe werden die Daten nun gezielt so verändert, dass die verarbeitende Einheit unabhängig wird von der genauen Lage und Stärke des Signals. Vorbild sind hier die komplexen Zellen, die ebenfalls auf die Orientierung streifenförmiger Reize antworten, wobei aber nun die genaue Position nicht mehr von Bedeutung ist.

Mensch gegen Maschine

Dieses Modell fütterten die Forscher noch mit einigen weiteren Resultaten zum natürlichen Sehprozess und setzten es dann vor ein großes digitales Bilderbuch: Lehrstunde. In der ersten Phase präsentierten die Wissenschaftler dem Programm noch die richtige Antwort – Tier, kein Tier – zum Gesehenen, dann ließen sie es noch selbst trainieren.

Objektkategorien | Mensch und Modell sollten erkennen, ob sie ein Tier zu sehen bekommen hatten oder nicht. Leicht machten ihnen die Forscher die Aufgabe nicht: Sie verwendeten verschiedene Distanzen zum Objekt (je weiter entfernt, desto schwieriger). Trotzdem erkannten alle Probanden in vier Fünftel der Fälle richtig, dass Tiger und Co auf dem Bild waren und nicht andere natürliche, aber keine Tiere enthaltende Motive oder künstliche Objekte.

Als das Modell dann am Tag der großen Prüfung gegen menschliche Versuchskaninchen antrat, schlug es sich wacker. Alle Teilnehmer bekamen ihre Objekte nur 20 Millisekunden zu sehen, gefolgt von 30 Millisekunden leeren Bildschirms und schließlich 80 Sekunden mit einem Hintergrundrauschen, dass Rückkopplungsprozesse durch höhere Verarbeitungsebenen des Sehprozesses verhindern sollte. Mensch wie Maschine entschieden in vier Fünftel der Fälle richtig – und waren sich dabei auch größtenteils einig. Selbst gedrehte Aufnahmen konnte das Programm vergleichbar gut wie die Probanden einstufen, und das sogar ohne vorangehende Trainingseinheit.

Ihr Programm untermauere damit die Theorie des stufenweise Integrierens zur Objekterkennung, so die Wissenschaftler: Auf der Grundlage einer erlernten "Bilderdatenbank" erfolgt eine erste Einordnung, bevor sich höhere Verarbeitungsregionen präzisierend einmischen. Diese werden aber dann besonders wichtig, wenn das Objekt von störenden Einflüssen begleitet wird – der Tiger also im Unterholz verschwindet. Denn hier schnitten die Menschen, wohl dank dieser Rückkopplungen, besser ab als das Modell.

Noch, wohlgemerkt: Mit einer einfachen Ergänzung, die solche Signale von oben zuließ, verbesserten die Forscher die Leistungsfähigkeit ihres Programms erheblich. Wir dürfen also auf den nächsten Test Mensch gegen Maschine gespannt sein.