Transfer Learning: KI mit Zauberei

»Transfer Learning« wirkt wie pure Magie. Es macht KI-Systeme günstiger und schneller leistungsfähig. Doch kein Zauber ohne Tücken: Die Technik verschärft ein altes Problem.

von Eva Wolfangel

KI ist manchmal undurchschaubar — © jozefklopacka / stock.adobe.com (Ausschnitt)

Die Verzweiflung war groß, als Björn Schuller zur Magie griff. Der Augsburger Professor für Informatik hatte ein Start-up gegründet, um Software zu entwickeln, die allein am Klang der Stimme erkennt, wie sich jemand fühlt. Das funktionierte schon recht gut, doch für manche Spezialanwendungsfälle hatte er viel zu wenige Trainingsdaten. Solche Daten aber braucht künstliche Intelligenz, um daraus lernen zu können. Sein Projekt verlangte beispielsweise nach einer möglichst großen Datenbank von gesprochenen Sätzen, bei der für jeden einzelnen verzeichnet sein müsste, welche Gefühle im Stimmklang transportiert werden – und zwar per Hand, von bezahlten Hilfskräften. »Wahnsinnig aufwändig und teuer«, sagt Schuller.

Der Zaubertrick, zu dem er griff, heißt »Transfer Learning«. Er nutzte ein künstliches neuronales Netz, das auf Emotionserkennung in Musik trainiert war, und ließ es die Stimmung von verschiedenen Geräuschen erkennen. Das Netz sollte also vorhersagen können, ob ein Mensch ein Geräusch als angenehm empfinden würde, etwa Vogelgezwitscher, oder als unangenehm wie beispielsweise Autolärm.

Er nahm Netze, die auf die Erkennung der Stimmung in Geräuschen aller Art, vom Straßenverkehr bis zum Vogelgezwitscher, trainiert waren, und fütterte sie mit dem, was ihm an entsprechend gekennzeichneten Sprachdaten zur Verfügung stand. Tatsächlich waren diese Netze recht gut darin, auch aus der Stimme Emotionen auszulesen. »Wir imitieren mit der Stimme offenbar Dinge, die wir in der Natur wahrnehmen.« Die Trefferquote seines auf Geräusche trainierten Netzes lag darum in der Kombination mit Sprachdaten relativ schnell relativ hoch: Sie erreichte um die 70 Prozent. »Die Community war ziemlich erstaunt«, erzählt Schuller grinsend.

Unternehmen und Wissenschaftler verbinden derzeit sehr große Hoffnungen mit dem Begriff Transfer Learning: Vortrainierte Modelle aus anderen Zusammenhängen zu nutzen, könnte eines der größten Probleme einer KI lösen, die alltagstauglich und wirtschaftlich nutzbar sein soll: der Mangel an Trainingsdaten. Schuller, seit 17 Jahren in diesem Bereich tätig, weiß: »Der Flaschenhals sind immer die Daten.«

Nützliche Fachidioten

Das »Transferlernen« funktioniert auf der Basis von Deep Learning. Bei dieser modernen Variante des maschinellen Lernens werden die Knoten eines neuronalen Netzes in viele Schichten organisiert, die nacheinander die Eingabeinformation – zum Beispiel die Pixel eines Fotos – verarbeiten. Durch den Lernvorgang ergibt es sich, dass jede Schicht komplexere Informationen verarbeitet als die darunterliegende. In der Bilderkennung zum Beispiel erkennen die Netze in ihren untersten Schichten Linien, in höheren Schichten Ecken und in noch höheren Farben oder komplexe Formen – und erst in den obersten Schichten fällt die Entscheidung, was auf einem Bild zu sehen ist.

»Man weiß nie, ob es am Ende funktioniert«
Zbigniew Jerzak

Das Verfahren hat sich als extrem leistungsfähig erwiesen. Manche Systeme übertreffen sogar den Menschen deutlich – das allerdings zumeist nur in jenem Aufgabengebiet, auf dem sie trainiert wurden. Da sie obendrein sehr viele Trainingsdaten brauchen, die von Menschen mit Bedeutung versehen sein müssen, sind sie zwar sehr nützliche, aber auch recht teure Fachidioten. Transfer Learning könnte Abhilfe schaffen.

»In der Bilderkennung funktioniert das schon recht gut«, sagt Zbigniew Jerzak, Leiter des Bereichs Machine Learning Research bei SAP. Er nennt ein Beispiel: Angenommen, ein Onlinehändler möchte eintreffende Retouren automatisch dem richtigen Produkt zuordnen. Dafür wären eigentlich von jedem einzelnen Produkt viele Fotos notwendig, der Hersteller hat jedoch meist nur genau eins im Katalog.

Jetzt kommt der Trick ins Spiel: Zunächst trainiert man ein Netz anhand üblicher Bilddatenbanken mit Fotos von Hunden, Katzen, Bäumen, Häusern oder Ähnlichem. Die Produkte, um die es dem Händler geht, sind zwar nicht dabei, »doch das Modell entwickelt ein Verständnis, wie die Welt aussieht«, erklärt Jerzak. »Dann radiert man die allerletzte Ebene des Netzes aus, lässt die grundlegenden Konzepte drin und trainiert das System auf neuen Daten.« Jetzt braucht es viel weniger Trainingsdaten, denn die Grundlagen gebe es ja bereits. »Sie können sich ja auch auf einem Schiff zurechtfinden, selbst wenn Sie sich bislang nur in Häusern bewegt haben«, so Jerzak.

Wie Schuller sieht Jerzak ein riesiges Potenzial in der Technik, gerade für praktische Anwendungsfälle in Unternehmen. Ein mittels Wikipedia-Einträgen vortrainiertes Sprachverarbeitungsnetz habe bereits Konzepte wie Verb oder Person erlernt. »Das kann ich in den Businesskontext einbetten und auf dieser Grundlage lernen, was ein Nutzer ist und was ein Produkt«, sagt der SAP-Fachmann. Ein solches System lerne schneller und genauer. Aber der Erfolg ist nicht garantiert. »Wir haben Jahre in die Entwicklung gesteckt – und man weiß nie, ob es am Ende funktioniert.«

Ausprobieren – und auf das Beste hoffen

Magie sei allerdings keine exakte Wissenschaft; es gehe viel ums Ausprobieren, bestätigt auch Schuller. Und eines habe er inzwischen gelernt: Der ursprüngliche Zweck des Netzes müsse der neuen Aufgabe nicht unbedingt sehr ähnlich sein – zumindest nicht aus menschlicher Perspektive. Die Intuition hilft bei der Wahl kaum weiter. So hat Schuller, angestachelt von seinen Erfolgen im Transfer Learning, schließlich sogar ein Netz aus der Bilderkennung genutzt, um Sprachdaten auszuwerten. »Es hat mich selbst ein wenig überrascht, dass das funktioniert hat.« Schuller und seine Kollegen haben dafür das Audiosignal als Frequenzspektrum abgebildet und die Energie in den Frequenzen in den Farben Grün und Blau codiert. »Die beiden Farben funktionierten am besten, wahrscheinlich weil Grün und Blau auch auf vielen Bildern vorkommen«, sagt Schuller, »als Himmel und Landschaft.«

Wenn die KI bei der neuen Aufgabe anfangs viele Fehler macht, ist das nicht weiter schlimm, meint Schuller, sofern die Genauigkeit mindestens über dem Zufall liege. Dann sei zumindest die Richtung klar, in die der anschließende Lernvorgang geht. Er nutzt »kooperatives aktives Lernen«, um die Trefferquote des Netzes weiter zu verbessern. Die Systeme schätzen dabei selbst ein, wie sicher sie sich sind, und fragen nur dann beim Menschen nach der korrekten Lösung, wenn das den Lernerfolg zu erhöhen verspricht. »Wir konnten so die Zahl der nötigen Nachfragen auf ein Zwanzigstel reduzieren«, sagt der KI-Fachmann. Und überall, wo keine menschliche Arbeitskraft mehr einfließen muss, werden die Systeme günstiger.

Aus eins mach viele | Durch Transferlernen lassen sich bereits trainierte Netze vervielfältigen – doch nicht alle davon tun, was sie sollen.

Ob eine Firma von Transfer Learning profitiert, ist manchmal Glückssache. Vorgefertigte Systeme gibt es mitunter sogar kostenlos zum Download. Passen sie zu den eigenen Daten, hat man im Nu ein funktionierendes System. Wenn sich das nötige Ausprobieren allerdings in die Länge zieht, steigen die Kosten. »Ein großes Investment« vor allem für kleinere Firmen sei das dann, sagt SAP-Mann Jerzak. Sein Unternehmen greife auf die Masse an eigenen Datenbeständen zurück, um robuste, halb trainierte Netze zu entwickeln. Zielgruppe seien Firmen, für die es zu aufwändig ist, komplett selbst zu trainieren.

Andererseits haben kleine Unternehmen auch eine gewisse Narrenfreiheit. »Wir können es uns leisten, dass mal etwas schiefgeht«, sagt Björn Schuller. Für die Großen kann es schnell sehr peinlich werden. Bei Google zum Beispiel scheint noch ein Vorfall aus dem Jahr 2015 nachzuwirken. Damals glaubte eine Bilderkennungssoftware im Foto einer dunkelhäutigen Frau einen Gorilla zu erkennen. Google merkte das erst, als der Tweet der Betroffenen viral ging.

Heutige KI macht eben nicht einfach nur Fehler, es ist oftmals auch niemandem klar, warum sie danebenliegt oder wie sie überhaupt zu ihren Resultaten kommt. Und beides sind Schwächen, die nach Meinung von Marcel Blattner, Chief Data Scientist bei der Schweizer Mediengruppe Tamedia, durch das Transferlernen auf ungünstige Weise verstärkt werden. »Die Risiken von Transfer Learning werden oft unterschätzt«, warnt er.

Vorurteile werden versteckt und weitergegeben

Eine große Gefahr lauert in sexistisch, rassistisch oder anderweitig verzerrten Trainingsdaten. Wenn es in einer Bilddatenbank hauptsächlich Menschen mit heller Hautfarbe gibt und dann noch ein paar Menschenaffen, muss das Netz zwangsläufig annehmen, dass nichtweiße Gesichter zu Gorillas gehören. Eine KI, die auf Basis jahrzehntealter Mitarbeiterdaten automatisierte Personalentscheidungen treffen soll, lernt, dass offenbar nur Männer Führungspositionen besetzen können. Und führt dieser »Bias« schon bei der ursprünglichen Verwendung eines KI-Systems zu fragwürdigen Ergebnissen, wird er bei der Zweitverwendung durch Transfer Learning nur noch unsichtbarer und im Zweifel sogar noch weiter verbreitet.

Für die Onlinemedien von Tamedia haben Blattner und sein Team ein System entwickelt, das automatisch Vorschläge macht, welche Kommentare unter Artikeln nicht veröffentlicht werden sollen. »Dieses Netz ist extrem gebiast, weil diese Kommentare Meinungen einer bestimmten Population reflektieren.« So habe das System viele sexistische und rassistische Vokabeln gelernt. Zudem sei es besonders sensibel bei Kommentaren über Politikerinnen – weil diese viel häufiger beleidigt werden als ihre männlichen Kollegen. »Würde man dieses System nun nehmen, um die Qualität von Artikeln zu überprüfen, würde man den Bias des Kommentar-Universums mit in die neue Aufgabe übernehmen.« Womöglich würden dann Artikel über Frauen und Männer mit zweierlei Maß gemessen.

Das zeigt nach Meinung von Blattner die Gefahr von Transfer Learning. Was sind die Ursprungsdaten? Für welchen Zweck wurden sie verwendet? Und welche Probleme kann mir das verursachen? Das müsse man immer fragen, doch längst nicht alle täten das. Im Gegenteil. »Ich lade irgendwo ein Modell herunter und gebe meine Daten ein.« Mehr lasse der Zeitdruck in Firmen oft nicht zu. Problematisch sei auch: »In der ganzen Pipeline, in der diese Systeme entstehen – von der Datengewinnung bis sie in die Welt hinausgelassen werden –, herrscht oft Aufgabenteilung.« Und über schlechte Dokumentation sei ja schon hinreichend viel geschrieben worden. Am Ende verstehe dann derjenige, der das Modell nutzt, nicht, wie es funktioniert.

Auch Schuller sieht die Herausforderungen wachsen. Schließlich sei es ohnehin oft schwierig herauszubekommen, wie eine KI zu ihren Schlüssen kommt. »Wenn man die Trainingsdaten nicht einmal kennt, ist das natürlich kaum mehr möglich.« Einen Bias aus einem System zu entfernen, sei zudem aufwändig, ergänzt Blattner. »Die Systeme werden meist schlechter dadurch. Daran haben die Unternehmen oft kein Interesse.« Stattdessen würden sie sie mit halbgaren Ergebnissen und Ungenauigkeiten durch verzerrte Trainingsdaten auf den Markt bringen. Das sei bedenklich, weil es die Benachteiligung bestimmter Bevölkerungsgruppen immer weiter verschärfe – ohne dass diese unfairen Entscheidungen wirklich nachvollzogen werden könnten.

Bei genauer Betrachtung sei Transfer Learning eben doch alles andere als einfach – und das werde zu selten berücksichtigt. Blattner ärgert das: »Ich glaube an diese Technologie, und ich glaube, dass sie uns weiterbringen kann, aber nur mit einem ganz ehrlichen Diskurs.«