Überwachungstechnik: Die Tücken der Gesichtserkennung

Die automatische Gesichtserkennung in Fotos und Videos macht große Fortschritte. Deutsche Behörden setzen seit Jahren auf die Technik. Doch es gibt Gründe, ihr zu misstrauen.

von Philipp Hummel

Eine Überwachungskamera — © iStock / alice-photo (Ausschnitt)

Als die junge Frau die Treppe am Bahnhof Berlin Südkreuz betritt, wird sie genau beobachtet. Nicht nur ein Dutzend Journalisten hinter der Glasfassade eines Kontrollraums verfolgen ihren Weg. Auch drei Kameras filmen, wie sie die Stufen hinabsteigt und durch die Halle zum Ausgang läuft. In dem Kontrollraum zeigen Laptops, was die Kameras sehen. Plötzlich erscheint auf den Displays das Gesicht der Frau. Die auf den Laptops installierte Software hat es binnen Sekunden wiedererkannt.

Der Auftritt der jungen Frau im Spätsommer war Teil einer Vorführung einer ebenso innovativen wie umstrittenen Technik. Seit dem 1. August finden am Südkreuz sechs Monate lang Tests von Software zur automatischen Gesichtserkennung statt. Mit mehr als 100 000 Reisenden täglich zählt er zu den größten Umsteigebahnhöfen der deutschen Hauptstadt. In Zukunft wollen Polizeibehörden mit der Technik Verdächtige identifizieren – in Echtzeit. Die Aufnahmen der Kameras würden dazu mit Fotos in polizeilichen Datenbanken abgeglichen. Erfasst eine Kamera ein gesuchtes Gesicht, schlägt die Software Alarm und die Polizisten können zugreifen. So jedenfalls stellen die Behörden sich das vor.

Achtung Gesichtserkennung! | Seit dem 1. August 2017 testen Bundesinnenministerium, Bundespolizei, BKA und Deutsche Bahn AG für sechs Monate den Einsatz von Gesichtserkennung am Bahnhof Berlin Südkreuz. An dem Test nehmen 300 Freiwillige teil, von denen Fotos gemacht und in einer Datenbank gespeichert wurden.

Bei nachträglichen Ermittlungen hilft die automatische Gesichtserkennung deutschen Ermittlern bereits seit Jahren, Personen auf Fotos oder Videos zu identifizieren. Und die Zahl der Zugriffe auf die Software, die das Bundeskriminalamt (BKA) dafür einsetzt, steigt. Gab es im gesamten Jahr 2016 etwa 23 000 derartige Recherchen, waren es im ersten Halbjahr 2017 bereits mehr als 16 000, wie die Antwort der Bundesregierung auf eine kleine Anfrage der Partei "Die Linke" zeigt. Wie das Onlineportal netzpolitik.org Ende September berichtete, sollen offenbar auch mehrere zehntausend Videos und Bilder von den G20-Krawallen in Hamburg mit Software zur Gesichtserkennung analysiert werden.

Mit den Fortschritten wächst die Kritik

Doch nicht nur Ermittlungsbehörden interessieren sich für die Technik. Auch im kommerziellen Bereich ist die automatische Gesichtserkennung gefragt. Facebook und Google haben mit DeepFace beziehungsweise FaceNet Programme entwickelt, die Gesichter auf Fotos bestimmten Personen mindestens so sicher zuordnen sollen, wie das bisher nur Menschen konnten. Verantwortlich für die großen Fortschritte in den letzten Jahren sind neben besseren Verfahren zur Mustererkennung auch Kameras mit hoher Auflösung in Smartphones und an öffentlichen Orten, schnellere Hardware und die immense Menge an Bilddaten, die durch die Digitalisierung verfügbar ist und mit denen die Programme "trainiert" werden.

"Es ist kein Zufall, dass Google und Facebook bei der Gesichtserkennung ganz vorne mit dabei sind"Florian Gallwitz, Technische Hochschule Nürnberg

Mit den Fortschritten wächst aber auch die Kritik an der Technik. Wie zuverlässig ist sie beispielsweise bei schlechten Lichtverhältnissen oder, wenn Personen ihr Äußeres – womöglich gezielt – durch Bärte oder Brillen verändern? Erkennt die Software Menschen mit dunklerer Haut genauso gut wie Menschen mit heller? Und wäre es ethisch und gesetzlich vertretbar, auch die Gesichter unbescholtener Bürger massenhaft durch die Software zu erfassen und zu vermessen?

Wer sich diesen Fragen nähern will, sollte wissen, wie die Technik funktioniert: Gesichtserkennungssoftware verwendet für ihre Bewertung zahlreiche Muster, darunter den Abstand der Augen, die Breite der Nase, die Tiefe der Augenhöhlen, die Form der Wangenknochen, die Länge und Form der Kinnpartie und andere markante Merkmale im Gesicht sowie ihre Abstände und Ausrichtung zueinander.

"Aber es ist nicht so, dass man die Software in den Bildern gezielt nach der Nasenspitze und den Ohrläppchen suchen lässt und dann den Abstand berechnet", erklärt Florian Gallwitz von der Technischen Hochschule Nürnberg. Er erforscht die automatische Mustererkennung bei Sprache, Bildern, Videos und Musik. Vielmehr lernen die Algorithmen eigenständig, die für ihre Suche nützlichsten Muster zu identifizieren und in die Millionen von Parameter einfließen zu lassen, die am Ende ausschlaggebend für die Entscheidungen der Software sind.

"Bei digitalen Bildern hat der Computer es zunächst mit einem Raster aus einer großen Zahl von Pixeln zu tun", erklärt der Wissenschaftler. Das Schwarzweißfoto eines Gesichts von 100 mal 100 Pixeln Größe beispielsweise enthält 10 000 Pixel mit jeweils einem Grauwert. Diesen Datensatz kann man mathematisch als Vektor mit 10 000 Dimensionen betrachten. "Bei der Gesichtserkennung will man die Ähnlichkeit von Gesichtern messen, indem man die Vektoren zweier Bilder vergleicht", so Gallwitz. "Mathematisch gesprochen misst man dazu deren Abstand."

Wenn man die beiden Vektoren zweier Aufnahmen einfach direkt vergleichen würde, würden auch bei demselben Gesicht kleinste Verschiebungen oder Änderungen bei Beleuchtung oder Gesichtsausdruck dazu führen, dass keine Identifizierung mehr möglich ist. "Die Kunst besteht darin, die 10 000 Grauwerte in einen neuen Vektor zu überführen, so dass die neuen Vektoren desselben Gesichts einen möglichst geringen Abstand haben und bei unterschiedlichen Gesichtern einen möglichst großen", erläutert der Forscher.

Erst Trainingslager, dann Einsatz

Die verschiedenen Gesichtserkennungsprogramme begegnen diesem Problem mit einem Vorgehen, das Experten mit dem Akronym DARC beschreiben: Detection, Alignment, Representation, Classification. Zunächst einmal muss die Software die Gesichter in den Bildern detektieren. Dabei spielen – genau wie beim späteren Vergleich – maschinelle Lernverfahren die zentrale Rolle. Die Grundlage dafür ist Handarbeit: Ein Mensch zieht mit einer Maus in vielen Fotos einen Rahmen um die Gesichter. Die markierten Bereiche analysiert eine Software. Sie lernt dabei aus den Mustern, die sie findet, wie Gesichter aussehen. Zeigt man dem Programm nun ein neues Bild, lässt es eine Art Schablone der gelernten Muster darüber wandern. Bereiche, auf die die Schablone mit einer ausreichenden Genauigkeit passt, werden als Gesicht detektiert und freigestellt, beispielsweise als Quadrat mit 100 mal 100 grauen Pixeln.

Gesichtserkennungssoftware | Mitarbeiter der Bundespolizei prüfen per Laptop, ob ein von einer Kamera erfasstes Gesicht der Software bekannt vorkommt. Der Test fand im August am Bahnhof Berlin Südkreuz statt.

Gesichter, die nicht frontal fotografiert sind, lassen sich schlechter vergleichen. Deshalb schafft sich die Software im nächsten Schritt aus dem quadratischen Bildausschnitt mit dem detektierten Gesicht eine Version mit einer einheitlichen Ausrichtung (Alignment). Facebooks DeepFace erstellt hierfür aus dem zweidimensionalen Pixelquadrat eine digitale dreidimensionale Maske. "Die neuesten Verfahren, etwa Googles FaceNet, brauchen diesen Schritt aber gar nicht mehr", sagt Gallwitz. "Die lernen das gleich mit."

Die Softwareentwickler zeigen dem Algorithmus anschließend Paare von Trainingsbildern – immer zwei Bilder desselben Gesichts und zwei Bilder unterschiedlicher Gesichter. Aus jedem der Bilder erzeugt die Software eine digitale Repräsentation der Gesichter – einen neuen Vektor, der wesentlich weniger Dimensionen enthält als die 10 000 Grauwerte des Ausgangsbildes. Dann misst die Software paarweise den mathematischen Abstand der neuen Vektoren.

Das Ziel: Die Vektoren derselben Gesichter sollen einen möglichst geringen Abstand haben, die Vektoren verschiedener Gesichter einen möglichst großen. Die Ergebnisse der Abstandsmessungen werden in die Software zurückgespielt. Mit diesen Informationen verändert die Software ihre Millionen Parameter so, dass beim nächsten Vergleich das Ergebnis ein Stückchen besser wird. Die Software lernt damit aus den Trainingsdaten Schritt für Schritt, wie sie ein optimales Ergebnis erzielt.

Auf die Trainingsdaten kommt es an

Nach Abschluss des Trainings ist die Software bereit für verschiedene Klassifizierungsaufgaben. Das kann beispielsweise die Identifizierung einer unbekannten Person durch Vergleich eines Fotos mit denen in einer Datenbank mit N Einträgen sein (1:N-Suche). Zunächst berechnet das Programm die Vektoren für jedes Gesicht in der Datenbank und speichert sie ab. Dann legt man der Software das Foto des Unbekannten vor.

Sie berechnet ebenfalls den Vektor für dieses Bild und misst anschließend den Abstand zu jedem der N Vektoren in der Datenbank. "Diese Abstandsmessung ist mathematisch sehr einfach und auch für Millionen von Gesichtern in Sekundenbruchteilen durchführbar", sagt Florian Gallwitz. Als Ergebnis liefert die Software eine oder mehrere Personen aus der Datenbank, bei denen der Abstand zu dem unbekannten Gesicht am geringsten ist. Liegen statt eines Fotos Videodaten eines Unbekannten zum Abgleich vor, funktioniert der Ablauf ähnlich. In günstigen Fällen kann die verwendete Software Daten des gesuchten Gesichts aus mehreren Einzelbildern des Videos zusammenfassen und so einen besseren Vektor erstellen.

Wie gut die Software am Ende arbeitet, hängt stark von Qualität und Umfang der Daten ab, mit denen sie trainiert wurde. Facebook verwendete für das Training von DeepFace mehr als vier Millionen Bilder von etwa 4000 verschiedenen Facebook-Nutzern – nach Angaben der Entwickler der bis dato größte Trainingsdatensatz für Gesichtsfotos. Mit seiner Hilfe erlernte die Software ihre mehr als 120 Millionen Parameter für den Gesichtsvergleich. "Es ist kein Zufall, dass Google und Facebook mit ihren riesigen Datenarchiven bei der Gesichtserkennung ganz vorne mit dabei sind", erklärt Gallwitz.

Das BKA mischt seit 2007 mit

Die Partei "Die Linke" fragt regelmäßig bei der Bundesregierung den Einsatz solcher Software durch deutsche Sicherheitsbehörden ab. So wurde unter anderem bekannt, dass das BKA seit 2007 die Software "FaceVacs-DBScan" der Firma Cognitec in Dresden einsetzt. Auch die Landeskriminalämter der Bundesländer und die Bundespolizei haben Zugang zu dem behördensprachlich als "zentrales Gesichtserkennungssystem" (GES) bezeichneten Programm. Es dient dazu, Fotos von Unbekannten – etwa Tatverdächtigen oder vermissten Personen – mit vorhandenen Bildern zu vergleichen, wie die BKA-Pressestelle auf Nachfrage von Spektrum.de erklärt.

Das BKA setze das GES "in allen Zuständigkeitsbereichen" ein, unter anderem bei der Bekämpfung des "internationalen Terrorismus", in Einzelfällen auch bei kinderpornografischem Material. Die Software greift dabei auf die in der polizeilichen Datenbank "INPOL-Zentral" gespeicherten Porträtaufnahmen zu, die im Rahmen erkennungsdienstlicher Maßnahmen erhoben werden. Insgesamt verfügte das BKA mit Stand vom 31. August 2017 über rund 5,3 Millionen Lichtbilder von mehr als 3,5 Millionen Personen.

Die Entwickler stehen vor einem Dilemma: Entweder die Software ist zuverlässig oder sie spuckt zu viele Fehlalarme aus

Seit dem 15. Juli 2017 ist mit dem "Gesetz zur Förderung des elektronischen Identitätsnachweises" eine Regelung in Kraft, die deutschen Behörden auch den Zugriff auf Passbilder erlaubt. Die Polizeien des Bundes und der Länder, die deutschen Nachrichtendienste und weitere Behörden dürfen demnach "das Lichtbild zur Erfüllung ihrer Aufgaben im automatisierten Verfahren abrufen". Theoretisch kann damit ein automatischer Gesichtsvergleich mit jedem ausweispflichtigen Bundesbürger durchgeführt werden, wie die "Tageszeitung" unlängst berichtete.

Wie die BKA-Software funktioniert

Wie die aktuell vom BKA eingesetzte Software genau funktioniert, will die Behörde "aus einsatz- und ermittlungstaktischen Gründen" nicht verraten. Am Telefon gibt Elke Oberg von der Herstellerfirma Cognitec immerhin einen Einblick in "FaceVacs-DBScan". Das Programm arbeitet demnach im Prinzip wie oben beschrieben. Anwender bekommen eine "trainierte" Version, die immer wieder auf den neuesten Stand gebracht werden kann. Der Nutzer stellt in der Praxis einen Schwellenwert dafür ein, wie gut die Übereinstimmung der gesuchten Person mit den Bildern in der Datenbank sein muss, und bekommt dann eine Kandidatenliste präsentiert. Das BKA erklärt, "eine abschließende Bewertung zu einer möglichen Personenidentität erfolgt durch einen Sachverständigen für Lichtbildvergleiche". Soll heißen: Es schaut stets noch ein Mensch auf die Auswahl der Software.

Ob das BKA auch in Videos mit Computerhilfe nach Gesichtern sucht, möchte die Behörde hingegen nicht preisgeben. In Einzelfällen wurde in Deutschland definitiv schon mit der Technik experimentiert: Die Pressestelle des Bundesinnenministeriums (BMI) teilt zur Gesichtserkennung in Videos mit, dass Informationen zu "Erprobungseinsätzen" in einzelnen deutschen Fußballstadien vorlägen und nennt das Fritz-Walter-Stadion in Kaiserslautern als Beispiel. Eine Anfrage beim Deutschen Fußball-Bund (DFB) ergibt, dass DFB-Mitarbeiter "unter anderem vor etwa zwei Jahren einem Test in Köln beiwohnen konnten". Nachfragen zu Details des Tests in Köln und weiteren in anderen Stadien will die Pressestelle des DFB nicht beantworten. Weitere Anwendungen oder Tests im Zusammenhang mit Echtzeit-Gesichtserkennungstechnik im öffentlichen Raum in Deutschland sind im BMI laut Pressestelle nicht bekannt.

Jede zehnte Gesichtserkennung ging daneben

Bei all dem kann man sich fragen, wie zuverlässig die automatisierte Gesichtserkennung eigentlich ist. Seit den 1990er Jahren untersucht das National Institute of Standards and Technology (NIST), die US-Bundesbehörde für Standardisierung, was die Programme taugen. 2014 wurde der bislang aktuellste Test zur 1:N-Suche bei Fotos veröffentlicht (Face Recognition Vendor Test – FRVT). 16 führende Unternehmen und Forschungsinstitute hatten an dem offenen Test teilgenommen, Facebook und Google waren allerdings nicht darunter.

Bei der Suche in einer Datenbank von mehr als einer Million Polizeifotos hoher Qualität setzte der verlässlichste Algorithmus in 4,1 Prozent der Fälle den Gesuchten nicht auf Platz 1 der Kandidatenliste. Stattdessen fand sich dort eine unbeteiligte, aber für die Algorithmen ähnlicher wirkende Person. Die Ergebnisse für die dahinter platzierten Programme waren deutlich schlechter. Beim besten der vom BKA-Zulieferer Cognitec eingereichten Algorithmen landete in 13,6 Prozent der Fälle der Falsche auf Platz 1, also mehr als dreimal so häufig. Bei mehr als jedem zehnten Einsatz der Software liefert diese also ein falsches Ergebnis.

Im März dieses Jahres veröffentlichte das NIST einen Test von Software zur Gesichtserkennung in Videos (Face in Video Evaluation – FIVE) . Erneut hatten 16 kommerzielle Anbieter bis Dezember 2015 ihre Algorithmen eingereicht. Die 109 Stunden Videomaterial, die mit den Programmen durchsucht worden waren, stammten beispielsweise aus Sportstadien oder von Gepäckbändern und wurden mit Kameras unterschiedlicher Qualität aufgenommen. Die gefilmten Personen kooperierten nicht, das heißt, sie blickten nicht gezielt in die Kameras; manche trugen Kopfbedeckungen oder hatten den Kopf gesenkt, während sie gefilmt wurden.

Die Ergebnisse waren eher ernüchternd: Selbst die besten Algorithmen erkannten bei Weitem nicht jedes der gesuchten Gesichter im Video – und das sogar bei Aufnahmen aus Szenarien mit speziell für die Gesichtserkennung aufgebauten Kamerasystemen und relativ kleinen Fotodatenbanken von wenigen hundert Personen. Hinzu kamen falsch positive Treffer mit unbeteiligten Personen. Gerade bei Echtzeit-Videoscans von öffentlichen Orten wie Bahnhöfen, bei denen jeden Tag zehntausende Menschen von den Kameras erfasst werden, wären jedoch selbst sehr geringe statistische Fehlerraten von deutlich unter einem Prozent noch zu hoch, da sie Dutzende Fehlalarme am Tag ausspucken würden. Die Entwickler stellt das vor ein Dilemma: Trimmt man die Algorithmen auf noch höhere Genauigkeiten, gehen ihnen auch mehr tatsächlich gesuchte Personen durch die Lappen.

Verzerrungen durch Geschlecht, Alter und Hautfarbe

Ein weiteres potenzielles Problem bei Verfahren zur Mustererkennung sind eingebaute Verzerrungen. Forscher des Center on Privacy & Technology an der Georgetown Law School in Washington haben sich in einer 2016 veröffentlichten Studie angesehen, wie sich demografische Unterschiede etwa bei der Hautfarbe, dem Geschlecht oder dem Alter auf die Leistungsfähigkeit der automatischen Gesichtserkennung auswirken. Sie zitieren eine Studie des NIST von 2011, die gezeigt hatte, dass Algorithmen aus Ostasien bessere Ergebnisse bei der Erkennung ostasiatischer Gesichter lieferten, und Algorithmen aus Westeuropa und den USA bei Weißen erfolgreicher abschnitten.

Eine weitere Studie aus dem Jahr 2012, an der mit Richard W. Vorder Bruegge ein führender FBI-Experte für automatische Gesichtserkennung beteiligt war, habe ergeben, dass Frauen, Schwarze und junge Menschen zwischen 18 und 30 von den getesteten Algorithmen seltener richtig zugeordnet wurden. Die Fehlerraten lagen bei Schwarzen und Frauen teils etwa doppelt so hoch wie bei anderen Bevölkerungsgruppen.

Unter den getesteten Algorithmen war auch die vom BKA verwendete "FaceVACS"-Software. Die Autoren der Studie nennen drei verschiedene Erklärungsansätze: Erstens könne eine nicht ausgewogene Zusammensetzung der Trainingsdaten sich negativ auswirken. Bei Frauen vermuteten die Forscher, dass sie auf Grund möglicherweise verwendeter Schminke im Mittel als Gruppe schlechter zu erkennen seien. Bei Dunkelhäutigen könnte die Hautfarbe dafür sorgen, dass Lichtbilder weniger Kontrast böten, ein wichtiger Faktor für die Mustererkennung.

BKA-Software will neutral sein

Die Einschränkungen seien im BKA bekannt, gibt die dortige Pressestelle an. Die Ergebnisse der Software würden immer durch ausgebildete Sachverständige überprüft. Elke Oberg vom FaceVACS-Hersteller Cognitec erklärt, dass die Software des Unternehmens auf Neutralität ausgerichtet sei. Cognitec kaufe Fotodatenbanken zu, um die gesamte Bevölkerungsbreite in den Trainingsdaten abbilden zu können. Es würde schließlich auch dem Ansehen des Unternehmens schaden, wenn der Algorithmus selektiv wäre.

Tatsächlich liegen die einschlägigen Tests zwei oder mehr Jahre zurück. Wie gut die aktuell von den Behörden eingesetzten Gesichtserkennungsprogramme arbeiten, lässt sich daher nicht genau klären. Inzwischen gelten Deep-Learning-Algorithmen auf Basis von künstlichen neuronalen Netzwerken, wie sie Google bei FaceNet einsetzt, als "state of the art". Diese haben in vielen Bereichen der Mustererkennung einen teils gewaltigen Leistungssprung erzeugt.

Fest steht, dass eine Echtzeit-Gesichtserkennung an Bahnhöfen wie dem Berliner Südkreuz im Alltag schwierigere Aufgaben meistern muss als bei der Vorführung im August. Die junge Frau, die damals die Stufen hinabstieg, war eine Mitarbeiterin der Pressestelle der Bundespolizei. Die langen Haare zurückgebunden, der Teint hell, das Kinn stets oben und nach vorn gerichtet, wandelte sie durch den an jenem Vormittag relativ leeren Bahnhof. Für die Algorithmen glich das einem Geschenk.