Hier ein Foto vom Opernhaus, da eines von der Limmat, dort eines der wuseligen Fußgängerzone mit ihren geduckten alten Häuschen: Wenn Touristen nach Zürich kommen, schießen sie allerhand Fotos; und viele von ihnen landen auf Internet-Plattformen, auf denen sie öffentlich verfügbar sind. Was die wenigsten Touristen wissen: In ihren Bildern steckt mehr Wissen über eine Stadt, als sie ahnen. Forscher der ETH Zürich haben in ihrem groß angelegten Projekt VarCity in den vergangenen fünf Jahren Millionen Fotos und Videos ihrer Heimatstadt gesammelt – darunter sowohl die der Touristen als auch jene von öffentlichen Webcams und anderen Kameras in der Stadt –, um daraus ein Modell der Stadt zu erstellen. Ein Modell, das mehr ist als eine dreidimensionale Abbildung. Aus den Daten geht auch hervor, aus welchem Material Fassaden sind, wie viele Fenster ein Haus hat und wie groß diese sind und welche Funktion ein Gebäude hat: Ist es eine Kirche, eine Sehenswürdigkeit oder ein Privathaus? Wie viele Personen betreten es an einem Tag durchschnittlich? Wo entsteht gerade ein Stau? Wo sammeln sich Menschen?

Das sind Informationen, die einerseits für Städte sehr wertvoll sein können, andererseits natürlich auch Bedenken rund um die Privatsphäre hervorrufen. Dem sind sich die Wissenschaftler bewusst, und sie betonen, dass ihr System von Anfang an nach dem Motto "privacy by design" entwickelt wurde. Das bedeutet in diesem Fall, dass keinerlei Fotos oder Videos an sich an die Öffentlichkeit gelangen, sondern dass die Daten – teils in Echtzeit – von Computerprogrammen in ein Modell umgerechnet werden. Erst dieses wird dann für die Stadtplanung und andere Zwecke verwendet.

Anders als bei Google Street View also, wo Menschen und auf Wunsch auch Häuser nachträglich verpixelt wurden, kommen jene Informationen, die einzelne Personen identifizieren könnten, gar nicht erst in das Endprodukt. "So kann es nicht geschehen, dass wir beispielsweise eine Person übersehen und vergessen zu pixeln", sagt Hayko Riemenschneider vom Computer Vision Lab der ETH Zürich. Im Modell der Stadt Zürich kann man folglich keine einzelnen Menschen erkennen, sondern beispielsweise nur, wo sich gerade welche Anzahl an Menschen aufhält. Ebenso mit den Fahrzeugen: Anstatt Fotos von Autos zu verwenden und lediglich das Kennzeichen unkenntlich zu machen, erscheinen sie als modellierte Fahrzeuge, eine Art Avatar ihrer selbst.

"Das Einzigartige an unserem Projekt ist, dass wir eine ganze Stadt allein anhand von Bilddaten modelliert haben", sagt Riemenschneider. Vergleichbare Projekte bleiben bei einzelnen Details stehen, etwa dabei, Häuser als solche zu erkennen. Und sie alle kämpfen mit den Tücken der künstlichen Intelligenz und der Bilderkennung, die trotz vieler erfolgreicher Vorzeigeprojekte noch in den Kinderschuhen steckt.

Ein Modell sagt mehr als 1000 Bilder

Bei den heutzutage üblichen Lernvorgängen beschränkt sich der Eingriff des Menschen darauf, sehr viele Bilder nach ihrem Inhalt zu katalogisieren. Dann wird der Computer sich selbst überlassen. Er lernt anhand dieser Trainingsdaten eigenständig, wie Fotos eines Baums, eines Autos oder einer Katze aussehen. Das funktioniert oft erstaunlich gut – und geht manchmal völlig schief. Und leider ist nicht leicht zu kontrollieren, ob der Algorithmus das Richtige lernt.

Stadt, Land, Fluss
© ETH Zürich
(Ausschnitt)
 Bild vergrößernStadt, Land, Fluss
Das Modell erlaubt es, bebaute Bereiche von Grünland oder Wasserflächen abzugrenzen. Die Daten dafür gilt es allein aus den Fotos zu gewinnen.

Riemenschneider und seine Kollegen vertrauen deshalb nicht allein auf jene Spielart des maschinellen Lernens, die ganz ohne Regeln auskommt. So haben sie einerseits einen Algorithmus trainiert, indem sie ihm eine Vielzahl an Fotos von Fenstern gaben und dieser daraus lernte, was ein Fenster ausmacht, und andererseits diesen Algorithmus mit einigen Regeln ergänzt: beispielsweise dass sich die Spieglung in einem Fenster verändert, abhängig davon, wie man sich bewegt.

So erkennt das System Fenster auf Flächen auch daran, dass sich diese je nach Winkel, aus dem ein Gebäude aufgenommen ist, verändern. Und weil die Anzahl der Bilder so groß ist, gibt es von den meisten Gebäuden Fotos aus verschiedenen Perspektiven. Straßen erkennt das System sowohl auf der Grundlage vieler Fotos von Straßen, die Menschen als solche gekennzeichnet haben, als auch auf Grundlage des programmierten Wissens, dass sie horizontal verlaufen und dass Autos darauf fahren und sich an ihren Seiten in der Regel Gehwege mit Menschen darauf befinden.

"Bildverarbeitung ist ein noch junges Feld, auf dem Fehler passieren. Wir haben verschiedene Methoden kombiniert, damit sie sich ausgleichen", sagt Riemenschneider. Zudem helfe der unterschiedliche Blickwinkel auf ein und dasselbe Gebäude, Fehler auszumerzen. Weil die Daten bei einigen Gebäuden in so großer Masse vorliegen, schafft es der Algorithmus zudem, diese zuzuordnen: Kommt ein neues Bild hinzu, erkennt er, um welches Gebäude es sich handelt.

Informationen in Echtzeit

Das VarCity-Modell lernt außerdem ständig dazu. Wie oft und aus welchen Perspektiven wurde ein bestimmtes Gebäude fotografiert? Auf welchen Plattformen taucht das Bild auf? Daraus können intelligente Algorithmen lernen, ob es sich vermutlich um eine Sehenswürdigkeit handelt oder um ein ganz normales Wohnhaus. Auch die Zahl der Menschen, die es täglich betreten, gibt Auskunft darüber, ob es beispielsweise ein öffentliches Gebäude ist. Hat es einen Turm? Dann ist es vermutlich eine Kirche – auch hier spielt wieder die menschliche Unterstützung mit hinein, die einige Regeln vorgibt.

Dank des Modells können beispielsweise Veränderungen aller Art geplant werden, etwa wie es sich auf die Umgebung auswirkt, wenn ein Haus um einige Stockwerke erhöht wird. Wo wirft es Schatten? Wie viel Licht kommt durch die Fenster des Nachbarhauses aktuell? Deren Zahl und Größe sowie der Einfallswinkel des Sonnenlichts kann aus den Bilddaten extrahiert werden. Oder soll eine Kreuzung umgestaltet werden? In welcher Form muss das geschehen, damit der Verkehr tatsächlich besser fließt und sich nicht an anderer Stelle staut?

Auf Grundlage der Echtzeitinformationen, die ebenfalls im Modell vorhanden sind, könnten beispielsweise in Zukunft Ampeln geschaltet werden, abhängig von der aktuellen Verkehrslage und der Echtzeit-Berechnung für einen global optimalen Verkehrsfluss in der gesamten Stadt. Es könnte erkannt werden, wo gerade ein ungewöhnliches Ereignis stattfindet, wo sich Menschen sammeln oder auch sich ungewöhnlich bewegen, oder die Logistik von Großveranstaltungen in Echtzeit geplant und verbessert werden.

Einige erste Studien mit dem Modell zeigen, wie gut die künstliche Intelligenz die Perspektive der Menschen bereits verstanden hat: So ließen die Forscher das System zum Beispiel eine Stadtführung entwickeln, die alle wichtigen Sehenswürdigkeiten abdeckt. Sie machten dabei keinerlei Vorgaben, welche Gebäude beinhaltet sein müssen. "Das Ergebnis kam echten, von Menschen geplanten Stadtführungen sehr nah." Auch Navigationsanwendungen könnten auf dieser Grundlage für Menschen deutlich intuitiver werden: Anstatt klassisch mit Angaben wie "In 100 Metern rechts abbiegen" zu arbeiten, orientiert sich das System der Forscher an so genannten Landmarken, so wie Menschen das tun: "Jetzt bis zum großen roten Haus, und dann rechts." Das allerdings brachte auch die Erkenntnis mit sich, dass Menschen nicht immer die gleichen Merkmale für auffällig halten wie Computer: "Wir mussten dafür erst einmal lernen, was Menschen als Besonderheiten erkennen – beispielsweise ob sie eine große Tür ebenso auffällig finden, wie unsere Software es tut."

Es sind also vielfältige Anwendungen denkbar – "unser Ziel war vor allem zu zeigen, dass es geht, ein Modell nur aus Bildern zu schaffen", so Riemenschneider. Erste Ausgründungen des Projekts arbeiten beispielsweise an einer Software, die freie Parkplätze erkennt, oder an einem Service für Versicherungen, der Gebäudeschäden detektiert. Prinzipiell seien die Algorithmen auch für andere Städte anwendbar. Zumindest für solche, in denen Kirchen Türme haben und insgesamt eine ähnliche Architektur vorherrscht.