Computer-Bilderkennung: Menschliches Niveau ist endlich erreicht

Der Durchbruch ist geschafft: Was auf einem x-beliebigen Foto zu sehen ist, erkennt der Computer inzwischen praktisch so gut wie der Mensch.

von Jan Dönges

Hund mit Hut — © Google Research (Ausschnitt)

Die modernsten Systeme zur automatisierten Bilderkennung sind inzwischen praktisch genauso gut wie der Mensch: Wenn sie auf einer beliebigen Fotografie einen Gegenstand lokalisieren und identifizieren sollen, machen sie im Schnitt genauso wenige Fehler wie ein geübter Betrachter. Zu diesem Schluss kommen Forscher um Olga Russakovsky von der kalifornischen Stanford University. Über ihre auf dem Preprint-Server arXiv veröffentlichten Ergebnisse berichtet "Technology Review".

Konkret hatten die Wissenschaftler die Ergebnisse der ImageNet Large-Scale Visual Recognition Challenge ausgewertet, bei der KI-Programme gegeneinander antreten. Es gilt, den Inhalt von über einer Million Bilder auszuwerten. Was auf den Abbildungen zu sehen ist, haben zuvor menschliche Begutachter per Hand verzeichnet. Der Wettbewerb gilt als der bedeutendste und prestigeträchtigste in der Forscherszene.

Als eine Art "historischen Moment in der Bildverarbeitung" beschreiben Russakovsky und Team den Wettbewerb im Jahr 2012. Damals ließ die Software SuperVision der University of Toronto die Konkurrenz weit hinter sich. SuperVision erreichte eine Fehlerrate von knapp über 16 Prozent, während die Konkurrenz in den Jahren zuvor bei deutlich über 20 Prozent lag. Seitdem purzeln die Werte: Der diesjährige Gewinner GoogLeNet landete bei 6,7 Prozent (Google berichtet darüber auf seinem "Research Blog").

Der Durchbruch gelang den Forschern durch Einsatz von Deep-Learning-Verfahren (siehe "Wie Maschinen lernen lernen"), die sich grob an der Arbeitsweise des Gehirns orientieren: Wie dieses bestehen sie aus einem Netzwerk interagierender "Neurone", die eine Anzahl von hierarchisch angeordneten Schichten bilden. In jeder Schicht werden ausgewählte Merkmale der Szene verarbeitet – je höher die Schicht, desto komplexer die Merkmale. Wie das Netzwerk die Bildinformationen bewältigt, erlernt es eigenständig durch Training an Millionen von Bildern.

Menschen nur geringfügig besser

Derartige Deep-Learning-Netze seien inzwischen auf menschlichem Niveau angelangt, schlussfolgern die Forscher: Die Erfahrung mit den menschlichen Begutachtern, die die Bildinhalte zuvor kategorisieren müssen, hätten gezeigt, dass die Fehlerrate des Durchschnittsbetrachters gerade einmal 1,7 Prozent niedriger liegt als die von GoogLeNet, dem diesjährigen Besten.

Mensch und Computer hätten allerdings unterschiedliche Stärken und Schwächen: Während der Computer bei sehr schmalen Objekten in Schwierigkeiten gerät – hier reicht womöglich das "Auflösungsvermögen" der Netzwerkarchitektur nicht aus –, muss der Mensch häufiger bei präzisen Kategorisierungen passen, etwa bei der Frage, welcher Art ein Baum angehört oder welcher Rasse ein Hund.

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Artikel zum Thema