Direkt zum Inhalt

Historische Aufnahmen: KI bringt die Vergangenheit auf Hochglanz

Im Netz findet man historische Filmaufnahmen, die mittels KI einen modernen Look bekamen. Das Ergebnis wirkt eigenartig fremd und vertraut zugleich. Aber wie authentisch ist es?
Frühjahrsparade in Berlin, das digital kolorierte Foto von Otto Haeckel aus dem Jahr 1910 zeigt Frauen, die auf einen Bauzaun geklettert sind, um eine bessere Sicht zu haben

Für viele Menschen sind Filme die eindrucksvollsten historischen Dokumente, die es gibt. Angefangen bei den ersten unschuldigen Aufnahmen der Brüder Lumière von 1895 über die schrecklichen Bilder aus den beiden Weltkriegen bis hin zur Mondlandung prägen sie wie kein anderes Medium unsere Vorstellung von vergangenen Zeiten. Dazu trägt neben dem Inhalt auch die Qualität des Materials bei. Das Fehlen von Farbe, die ruckelnden Bewegungen der Menschen auf Grund der niedrigen Bildfrequenz und selbst Bildstörungen oder grobkörniges Filmmaterial geben den Aufnahmen ihren speziellen Charme.

Dank künstlicher Intelligenz besteht nun die Chance, das alte Material mit ganz neuen Augen zu sehen – in bearbeiteten Fassungen, in denen der »Mangel« der sichtbaren Alterung behoben ist. Die Technik ist inzwischen so weit fortgeschritten, dass selbst Laien beachtliche Resultate erzielen. So begeistern Youtuber wie Denis Shiryaev oder Kanäle wie »Nineteenth century videos. Back to life.« mit ihren auf Hochglanz polierten, historischen Aufnahmen bereits ein Millionenpublikum. Sie lassen ihren künstlichen neuronalen Netzen freien Lauf, um zusätzliche Zwischenbilder zu generieren, geeignete Farben zu erraten und die Auflösung zu erhöhen. Heraus kommen Filme, die an die Sehgewohnheiten unserer von Hightech verwöhnten Augen angepasst sind. Das lässt die Szenen zwar realer wirken und vermittelt eine völlig neue Verbundenheit mit den Protagonisten. Als historische Dokumente haben sie damit jedoch weitgehend ausgedient.

»Einen Film, der mit 15 Bildern pro Sekunde aufgenommen wurde, per KI auf 60 Bilder pro Sekunde aufzublasen, bedeutet, überspitzt formuliert, dass ich zu 75 Prozent Computergrafik von 2021 sehe und nicht Filmmaterial von 1910«, sagt dazu Ulrich Rüdel, Professor für Konservierung und Restaurierung an der Hochschule für Technik und Wirtschaft Berlin. Ziel seiner Arbeit mit historischem Filmmaterial ist es, genau das zu retten beziehungsweise wiederherzustellen, was auch seinerzeit schon auf der Leinwand gesehen wurde.

© Denis Shiryaev
Die Schwebebahn im heutigen Wuppertal, 1902
Das von Denis Shiryaev mit Unterstützung von künstlicher Intelligenz nachbearbeitete Video zeigt, wie verblüffend modern ein über 100 Jahre alter Film sein kann.

In der Stummfilmzeit Anfang des 20. Jahrhunderts waren Aufnahme- und Abspielgeschwindigkeit per se variabel. In den 1910er Jahren waren zum Beispiel 14 bis 18 Bilder pro Sekunde üblich, der 24-Bild-Standard, wie wir ihn aus dem Kino kennen, kam erst mit Beginn der Tonfilmzeit. So musste und muss für jeden Stummfilm erst einmal die richtige Geschwindigkeit gefunden werden. Und die wiederum muss nicht unbedingt der Aufnahmegeschwindigkeit entsprechen, wie Slapstickszenen à la Charlie Chaplin zeigen, die zum Teil bewusst schneller abgespielt wurden, um den legendären »Zappeleffekt« zu erzeugen, den wir auch heute noch automatisch mit Komik assoziieren.

Maschinelles Lernen erfindet Zwischenbilder

»Bei Wochenschauen und anderen Dokumentaraufnahmen versucht man dagegen den natürlichen Bewegungsrhythmus zu finden«, sagt Rüdel weiter. »Das lässt sich mit ein bisschen Übung an der Bewegung der Menschen oder etwa an Rauch erkennen, der durch das Bild zieht.« In der professionellen Filmrestaurierung werden üblicherweise ausgewählte Einzelbilder einfach verdoppelt, um auf die richtige Geschwindigkeit zu kommen. Das mag zwar etwas ruckeln, hat aber den Vorteil, dass keine neuen Einzelbilder erfunden werden müssen.

Immerhin legt auch Youtuber Denis Shiryaev großen Wert auf den Hinweis, dass seine überarbeiteten Filme keine akkuraten historischen Dokumente mehr sind. Er sieht sie irgendwo zwischen Kunst und Unterhaltung angesiedelt. Die Technik, die Shiryaev und andere Videokünstler zur Erzeugung von Zwischenbildern einsetzen, basiert auf der rasanten Entwicklung im Bereich maschinelles Lernen. Dabei werden künstliche neuronale Netze, deren Fähigkeit, zu lernen, durchaus Parallelen zum menschlichen Gehirn aufweist, anhand riesiger Datensätze trainiert.

Ihre Aufgabe besteht vor allem darin, zusätzliche Bilder zwischen zwei aufeinander folgenden Frames eines Videos zu kreieren. Bewegt sich in der Sequenz ein Ball von rechts nach links, muss das Netz erstens ermitteln, wo sich der Ball nach der Hälfte der Zeit befindet, die zwischen den beiden Originalbildern vergeht. Und zweitens muss es dieses neue Bild dann erzeugen, ohne dass es zwischen den Originalen auffällt. Man kann solche Netze trainieren, indem man ihnen etwa ein mit 50 Frames pro Sekunde aufgenommenes Video zeigt, aus dem man nachträglich jedes zweite Bild entfernt hat. Dann bekommt das Netzwerk die Anweisung, die fehlenden Zwischenbilder zu »erfinden« und das Ergebnis jeweils mit dem zuvor entfernten Originalbild zu vergleichen. Diese Vergleiche erlauben es dem Netz, seine Parameter so lange anzupassen, bis die gelieferten Ergebnisse nahe genug am jeweiligen Original liegen. Einmal gelernt, kann das Netz seine Fähigkeiten auch auf Filme anwenden, die es zuvor noch nie gesehen hat und die tatsächlich mit einer zu niedrigen Bildrate aufgenommen wurden.

© Nineteenth Century Videos. Back to life.
Berliner Stadtszenen im Jahr 1896
»Nineteenth Century Videos. Back to life.« hat diesen frühen Film (Original hier) in eine höhere Auflösung umgerechnet, die Abspielgeschwindigkeit korrigiert und eingefärbt.

Der wohl auffälligste Unterschied zwischen historischem Material und modernen Aufnahmen ist das Fehlen der Farben. Zwar wurde gelegentlich bereits in der Stummfilmzeit per Hand oder Schablone nachkoloriert, die ersten elektronischen Verfahren, mit denen in Schwarz-Weiß gedrehte Kinofilme für den Fernsehmarkt mit Farbe versehen wurden, kamen aber erst in den 1980er Jahren auf – sehr zum Entsetzen vieler Filmemacher, die darin eine Entstellung der originalen Werke sahen.

Künstlich intelligent eingefärbt

Heute wird auch in diesem Bereich mit »tiefen« neuronalen Netzwerken gearbeitet, die automatisch möglichst realistische Farben finden sollen. Historisch korrekt kann natürlich das nicht sein, selbst bei perfektem Schwarz-Weiß-Material bleibt die Farbgebung ein Raten. Und das Filmmaterial vom Anfang des 20. Jahrhunderts ist alles andere als perfekt: Die Emulsionen, die zum Einsatz kamen, waren zum Beispiel hauptsächlich für blaues Licht empfänglich und damit gar nicht in der Lage, Farbabstufungen ihrer Helligkeit entsprechend als Grauwerte richtig wiederzugeben. »Solche Aufnahmen können eigentlich gar nicht vernünftig eingefärbt werden«, meint dazu Filmrestaurator Rüdel.

Dennoch sind die Ergebnisse KI-basierter Farbgebung, wenn auch nicht historisch korrekt, zumindest eindrucksvoll. Wie bei der Bildinterpolation werden hier Trainingsdaten für die Netzwerke erzeugt, indem Farbbilder zunächst in Schwarz-Weiß umgewandelt werden. Das reduziert die rund 17 Millionen Farben auf 256 Graustufen, und dabei lernt die künstliche Intelligenz anhand solcher Bildpaare, die Grautöne wieder in Farben zurückzuverwandeln. Da tausende verschiedene Farben den gleichen Helligkeitswert haben, ist dieser Prozess allerdings höchst uneindeutig, und das Netzwerk muss sich bei der finalen Anwendung auf seine Lernerfahrungen während des Trainings verlassen. Meistens liegt der Schwerpunkt eines solchen Trainings auf einer bestimmten Art von Bildern wie zum Beispiel Landschaftsaufnahmen, und es reichen bereits einige Millionen Trainingsbilder aus, um beeindruckende Ergebnisse zu erzielen. Um beliebige Motive mit passenden Farben zu versehen, muss die Diversität der Trainingsdaten allerdings entsprechend größer sein, und es werden wesentlich mehr Bilder für das Training benötigt.

»They shall not grow old« – Peter Jacksons Weltkriegsdoku
Eine wichtige Inspirationsquelle dürfte die 2018 erschienene Kino-Dokumentation des neuseeländischen Regisseurs Peter Jackson gewesen sein. Der für seine »Herr-der-Ringe«-Trilogie berühmte Filmemacher verlieh dazu historischem Filmmaterial aus dem Ersten Weltkrieg den modernen Look, den auch Youtuber wie Denis Shiryaev anstreben: Dank hochgerechneter Auflösung, Bildstabilisierung und Kolorierung wirken die Filme wie mit einer aktuellen Kamera gedreht. Jackson griff dazu auf die gesammelte Kompetenz und Arbeitsleistung seiner Special-Effects-Firma zurück, viele Nachbearbeitungen erfolgten wohl auch in Handarbeit.
Sobald die gefilmten Soldaten durch Korrektur der Abspielgeschwindigkeit nicht mehr wie Figuren aus einem Charlie-Chaplin-Film wirken, bekämen sie ihre Menschlichkeit zurück, erklärte der Regisseur in Interviews: »Ihre Gesichter werden mit einem Mal lebendig.« Der britische »Guardian« kommentierte seinerzeit: »Der Effekt ist elektrisierend. Die Soldaten werden vor unseren Augen zu einer unheimlichen, hyperrealen Art von Leben erweckt, wie Geister oder in einer Séance heraufbeschworene Figuren. Die Gesichter sind unvergesslich.« Jacksons Werk war das erste, das ein größeres Publikum mit diesem irritierenden Effekt bekannt machte.

»So ein Netzwerk kann im Grunde immer nur das Trainingsset auswendig lernen«, erklärt Justus Thies, der die Forschungsgruppe »Neural Capture & Synthesis« am Max-Planck-Institut für Intelligente Systeme leitet. »Wenn im Trainingsset also beispielsweise nur rosa Barbiepuppen vorkommen und das auf echte Menschen angewendet wird, dann werden auch die alle rosa.« Um also Aufnahmen einer Stadt um 1900 mit ihren Menschen, Gebäuden und Straßenbahnen plausibel einfärben zu können, müssen die Bilder für das Training möglichst gut auf solche Szenen abgestimmt sein. Außerdem sei es einfacher, einzelnen Bildern Farben zu geben als einem ganzen Film. Das funktioniert nur dann ohne Farbflackern, wenn das Netz einem Gegenstand oder einer Person von Bild zu Bild die gleiche Farbe zuweist. Es muss also die zusätzliche Anweisung befolgen, dass sich aufeinander folgende Bilder nicht zu stark voneinander unterscheiden dürfen.

Vergangenheit in Farbe und HD

Dennoch ist der Aufwand überschaubar, und viele leistungsfähige Codes sind nicht nur frei zugänglich auf Plattformen wie github.com zu finden, sondern dank ausführlicher Instruktionen auch für den Laien zu handhaben, sofern man zumindest über grundlegende Programmierkenntnisse verfügt. »Die meiste Zeit braucht sicher die Suche nach den Trainingsbildern«, sagt Thies. Die lassen sich zwar in großen Mengen im Internet finden, müssen aber nach dem Herunterladen in der Regel noch aussortiert, in passende Formate umgewandelt und eventuell noch etwas nachbehandelt werden, um etwa unerwünschte Schriftzüge oder Ähnliches zu entfernen. Das Training der KI dauert Thies zufolge auf einem Gaming-PC mit guter Grafikkarte in der Regel zwei bis drei Tage, das eigentliche Umwandeln von Schwarz-Weiß in Farbe dagegen läuft in Echtzeit.

© Rick88888888
Wien im Jahr 1906
Auch der Youtuber Rick88888888 veröffentlicht auf seinem Kanal zahlreiche aufgearbeitete frühe Filme – hier eine Fahrt durch Wien Anfang des 20. Jahrhunderts.

Um unseren Augen zusätzlich zu schmeicheln, erhöhen die Nachbearbeiter in der Regel die Auflösung der von ihnen behandelten Filme. Dabei wäre das in vielen Fällen wohl gar nicht nötig. »Die Bildqualität war auch bei den ersten Filmen der Brüder Lumière schon verflixt gut«, meint Filmexperte Rüdel. Wenn man das Original mit hoher digitaler Auflösung gut digitalisiere, sei das Ergebnis allemal besser als eine per KI hochskalierte Version einer schlechten Digitalisierung. Youtuber wie Shiryaev oder die Menschen hinter »Nineteenth century videos. Back to life.« haben in aller Regel keinen Zugang zu den Originalen, sondern finden ihre Filme im Netz oder in den Onlineangeboten von großen Bibliotheken. Entsprechend gering ist die Ausgangsqualität.

Doch weil das Upscaling auch bei Videospielen schon standardmäßig zum Einsatz kommt und dementsprechend weit verbreitet ist, kann es von den Youtubern mit relativ geringem Aufwand eingesetzt werden. Und Fernsehhersteller wie Samsung versehen ihre ultrahochauflösenden 8K-Geräte bereits mit KI-Chips, die die Auflösung von normalen Fernsehsignalen in Echtzeit an die Leistungsfähigkeit des Displays anpassen.

»Früher wurde versucht, das mit einfachen Interpolationen zwischen den Pixeln zu machen, indem man etwa zwischen einem schwarzen und einem weißen Pixel einfach ein graues eingefügt hat«, erklärt Robert Sablatnig, der Leiter des Computer Vision Lab der Technischen Universität Wien. Die Ergebnisse seien aber ziemlich unbefriedigend gewesen. Heute bringt man den Algorithmen anhand von Beispielen bei, wie Bilder in einer höheren Auflösung aussehen könnten. Auch hier wird zunächst die Qualität von Millionen von Bildern absichtlich verringert, um Trainingsdaten zu schaffen. In der Regel wird die Auflösung von 4K-Bildern (mit rund 4000 Pixeln in der Breite) auf 2K halbiert, und das Netzwerk lernt, geeignete zusätzliche Pixel einzufügen, um wieder den Originalzustand herzustellen. Ist das Training abgeschlossen, kann der Algorithmus dann die Auflösung von 4K-Bildern auf 8K verdoppeln, um die Displays moderner Fernseher zu bedienen.

Für zuverlässige Ergebnisse ist aber die Vielfalt der Schlüssel zum Erfolg. »Das Netzwerk muss auf alles vorbereitet sein, was im Fernsehen beziehungsweise im Film auftauchen könnte«, sagt Sablatnig. »Denn wenn es mit irgendetwas konfrontiert wird, das es noch nie gesehen hat, wird auch das Ergebnis nicht schön sein.«

Neben der Erhöhung der Bildrate, dem Einfärben und dem Hochskalieren der Auflösung gibt es noch eine ganze Reihe weiterer Tricks, mit denen die Youtuber ihre Ergebnisse verbessern. So stabilisieren sie mit Algorithmen das Bild, unterdrücken das Rauschen oder überarbeiten Gesichter. Und spätestens wenn sie ihre Filme mit frei erfundenen Tonspuren unterlegen, wird klar, dass nichts von all dem historisch korrekt sein kann. Doch vielleicht müssen sie das auch gar nicht sein: Wer sich darauf einlässt, dem eröffnen sie einen neuen Blick auf die Vergangenheit – gerade weil sie die Geschichte in die vertraute Optik der Gegenwart kleiden.

Lesermeinung

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte