Direkt zum Inhalt

Künstliche Intelligenz: Wie Gauß helfen könnte, das Geheimnis des Deep Learning zu lüften

Rolle rückwärts: Um den beeindruckenden Erfolg von tiefen neuronalen Netzen zu erklären, schauen Forschende zurück und analysieren ältere, aber besser verstandene Modelle des maschinellen Lernens.
Ein mehrschichtiges künstliches neuronales Netzwerk

Künstliche neuronale Netze werden immer größer und zeigen überragende Erfolge, aber konzeptionell ist vieles rätselhaft. Eines der erfolgreichsten Netze 2012 – AlexNet, das damals einen jährlichen Bilderkennungswettbewerb gewann, hatte etwa 60 Millionen Parameter. Diese Parameter wurden während des Trainings fein abgestimmt und ermöglichten es AlexNet, Bilder zu erkennen, die es nie zuvor gesehen hatte. Zwei Jahre später gewann ein Netzwerk namens VGG den gleichen Wettbewerb und hatte bereits mehr als 130 Millionen solcher Parameter. Heute haben einige künstliche neuronale Netze (Artificial Neural Networks, ANNs) Milliarden von Parametern.

Diese riesigen Netze, die bei Aufgaben wie der Klassifizierung von Bildern, der Erkennung von Sprache und der Übersetzung von einem Text von einer Sprache in eine andere erstaunlich erfolgreich sind, dominieren heute das maschinelle Lernen und die künstliche Intelligenz. Aber sie bleiben rätselhaft: Forschende können nicht wirklich erklären, wieso sie derart leistungsfähig sind.

Aber jetzt gibt es erste Hinweise, dass idealisierte Versionen dieser leistungsstarken Netzwerke mathematisch äquivalent sind zu älteren, einfacheren Modellen des maschinellen Lernens, den so genannten Kernel-Maschinen. Wenn diese Äquivalenz über idealisierte neuronale Netze hinausgeht, könnte dies erklären, wie und wieso ANNs derart erstaunlichen Ergebnisse erzielen.

Deep Learning unterläuft eine klassische Theorie

Ein Teil des Rätsels künstlicher neuronaler Netze besteht darin, dass sie die traditionelle Theorie des maschinellen Lernens zu unterlaufen scheinen. Diese stützt sich stark auf Ideen aus der Statistik und der Wahrscheinlichkeitstheorie. Laut dieser klassischen Denkweise funktionieren Modelle des maschinellen Lernens am besten, wenn sie genau die richtige Anzahl von Parametern haben. Inklusive jener neuronalen Netze, die darauf trainiert sind, Muster in Beispieldaten zu erkennen und auf dieser Basis Vorhersagen über neue Daten treffen.

Sind es zu wenige Parameter, kann das gelernte Modell zu einfach sein und nicht alle Nuancen der Daten erfassen, auf die es trainiert wurde. Sind es zu viele, wird das Modell zu komplex und lernt die Muster in den Trainingsdaten so feinkörnig, dass es nicht mehr verallgemeinert werden kann, wenn es neue Daten klassifizieren soll – ein Phänomen, das als Overfitting bezeichnet wird. »Es geht um die Balance zwischen einer zu guten und einer zu schlechten Anpassung der Daten. Man sollte sich in der Mitte befinden«, sagt Mikhail Belkin, Forscher für maschinelles Lernen an der University of California, San Diego.

Mikhail Belkin | Der Mathematiker ist Professor an der University of California, San Diego, und erforscht die mathematischen Grundlagen und Methoden des maschinellen Lernens.

Gemäß der bisherigen Theorie sollten tiefe neuronale Netze wie das erwähnte, preisgekrönte Netz VGG, viel zu viele Parameter haben und sich übermäßig an die Trainingsdaten anpassen. (Sie lernen gewissermaßen auswendig; Anm. d. Red) Aber das tun sie nicht. Stattdessen verallgemeinern solche Netze erstaunlich gut auf neue Daten – aber bis vor Kurzem wusste niemand warum. Dabei rätseln Forscher schon lange: Naftali Tishby, ein im August 2021 verstorbener Informatiker und Neurowissenschaftler an der Hebräischen Universität Jerusalem, argumentierte beispielsweise, dass sich tiefe neuronale Netze zunächst an die Trainingsdaten anpassen und dann irrelevante Informationen verwerfen, was ihnen bei der Generalisierung hilft. Andere haben widersprochen: Das sei nicht bei allen Arten von tiefen neuronalen Netzen der Fall.

Hinter die Kulissen schauen

Jetzt liefert die mathematische Äquivalenz von Kernel-Maschinen und idealisierten neuronalen Netzen Hinweise darauf, warum und wie diese überparametrisierten Netze zu ihren Lösungen kommen. Kernel-Maschinen sind Algorithmen, die Muster in Daten finden, indem sie die Daten auf extrem hohe Dimensionen projizieren. »Ein neuronales Netz ist ein bisschen wie eine Rube-Goldberg-Maschine. Man weiß nicht, welcher Teil davon wirklich wichtig ist«, so Belkin. Kernel-Methoden hingegen seien weit weniger komplex. Wenn man neuronale Netze auf diese Kernel-Maschinen mathematisch reduziere, könne man womöglich hinter die Kulissen sehen und verstehen, was vor sich geht.

Kernel-Methoden oder Kernel-Maschinen stützen sich auf ein Gebiet der Mathematik, das eine lange Geschichte hat. Sie gehen auf den deutschen Mathematiker Carl Friedrich Gauß aus dem 19. Jahrhundert zurück, der den gleichnamigen gaußschen Kernel entwickelte, der eine Variable x auf eine Funktion mit der bekannten Form einer Glockenkurve abbildet. Die moderne Verwendung von Kerneln begann im frühen 20. Jahrhundert, als der englische Mathematiker James Mercer sie zur Lösung von Integralgleichungen einsetzte. In den 1960er Jahren wurden Kernel beim maschinellen Lernen eingesetzt, um Daten zu verarbeiten, die sich nicht mit einfachen Klassifizierungsverfahren erfassen ließen.

Um Kernel-Methoden zu verstehen, muss man mit Algorithmen des maschinellen Lernens beginnen, die als lineare Klassifikatoren bezeichnet werden. Nehmen wir an, dass Katzen und Hunde anhand von Daten in nur zwei Dimensionen klassifiziert werden können, das heißt, man benötigt zwei Merkmale (zum Beispiel die Größe der Schnauze, die wir auf der x-Achse auftragen können, und die Größe der Ohren, die auf der y-Achse liegt), um die beiden Tierarten zu unterscheiden. Trägt man diese beschrifteten Daten auf der xy-Ebene auf, sollten sich Katzen in einem Cluster und Hunde in einem anderen befinden.

Kernel-Methode mit Katzen einfach erklärt

Man kann dann einen linearen Klassifikator mit den markierten Daten trainieren, um eine gerade Linie zu finden, die die beiden Cluster trennt. Dazu müssen die Koeffizienten der Gleichung gefunden werden, die die Linie darstellt. Bei neuen, nicht beschrifteten Daten (also Katzen- oder Hundebildern ohne Beschriftung beispielsweise), wäre es dann einfach, sie als Hund oder Katze zu klassifizieren: Man muss nur schauen, auf welche Seite der Linie sie fallen.

Hunde- und Katzenliebhaber wären jedoch entsetzt über eine solche Vereinfachung. Tatsächliche Daten über die Schnauzen und Ohren der vielen Katzen- und Hundearten lassen sich fast sicher nicht durch eine lineare Trennlinie teilen. In solchen Situationen können die Daten, wenn sie linear untrennbar sind, in einen höherdimensionalen Raum transformiert oder projiziert werden. Eine einfache Möglichkeit wäre, den Wert von zwei Merkmalen zu multiplizieren, um ein drittes zu erstellen; vielleicht gibt es eine Korrelation zwischen der Größe der Schnauze und der Ohren, die Hunde von Katzen trennt.

Allgemeiner ausgedrückt: Wenn man die Daten in einem höherdimensionalen Raum betrachtet, ist es einfacher, eine lineare Trennlinie zu finden. Diese wird als Hyperebene bezeichnet, wenn der Raum mehr als drei Dimensionen hat. Wenn diese Hyperebene auf die niedrigeren Dimensionen zurückprojiziert wird, nimmt sie die Form einer nichtlinearen Funktion mit Kurven an, die die ursprünglichen niedrigdimensionalen Daten in zwei Cluster trennt.

Der Kern der Wahrheit

Bei der Arbeit mit realen Daten ist es jedoch oft rechnerisch ineffizient – und manchmal sogar unmöglich –, die Koeffizienten der Hyperebene in hohen Dimensionen zu finden. Hier helfen Kernel-Maschinen: Die Stärke von Kernel-Maschinen liegt in ihrer Fähigkeit, zwei Dinge zu tun. Erstens bilden sie jeden Punkt in einem niedrigdimensionalen Datensatz auf einen Punkt in höheren Dimensionen ab. Die Dimensionalität dieses Hyperraums kann abhängig von diesem Prozess des Mapping unendlich sein, was ein Problem darstellen kann: Um die Koeffizienten der trennenden Hyperebene zu finden, muss für jedes Paar von hochdimensionalen Merkmalen ein so genanntes inneres Produkt berechnet werden, ein Maß für die Ähnlichkeit beziehungsweise den Abstand der Datenpunkte. Das wird allerdings schwierig, wenn die Daten in unendliche Dimensionen projiziert werden.

Lineare Klassifikation | Wenn sich zwei Gruppen von Daten mit einer Linie voneinander trennen lassen, sind neue Daten leicht zu klassifizieren: Der Algorithmus muss lediglich prüfen, auf welcher Seite der Linie sie liegen. Gibt es eine solche Linie nicht, ist es möglich, über ein weiteres Merkmal eine neue Dimension hinzuzufügen. Das erleichtert es dem Algorithmus, eine solche Trennung – in der höheren Dimension »Hyperebene« genannt – zu finden.

Die zweite Sache, die Kernel-Maschinen tun, ist folgende: Bei zwei niedrigdimensionalen Datenpunkten verwenden sie eine Kernel-Funktion, um eine Zahl auszuspucken, die gleich dem inneren Produkt der entsprechenden höherdimensionalen Merkmale ist. Entscheidend ist, dass der Algorithmus diesen Trick nutzen kann, um die Koeffizienten der Hyperebene zu finden, ohne jemals den hochdimensionalen Raum nutzen zu müssen.

»Das Tolle am Kernel-Trick ist, dass alle Berechnungen im niedrigdimensionalen Raum stattfinden und nicht im möglicherweise unendlich-dimensionalen Raum«, sagt Bernhard Boser, emeritierter Professor an der University of California, Berkeley. Boser hat zusammen mit seinen Kollegen Isabelle Guyon und Vladimir Vapnik in den späten 1980er und frühen 1990er Jahren eine Klasse von Kernel-Maschinen erfunden, die so genannten Support Vector Machines (SVMs). Damals arbeitete er bei den Bell Labs in New Jersey. Während Kernel-Maschinen verschiedener Typen bereits seit den 1960er Jahren im Bereich des maschinellen Lernens eine Rolle spielten, erlangten sie erst mit der Erfindung der SVMs größere Bekanntheit. SVMs erwiesen sich als außerordentlich leistungsfähig. Anfang der 2000er Jahre wurden sie in so unterschiedlichen Bereichen wie der Bioinformatik (zum Beispiel zur Ermittlung von Ähnlichkeiten zwischen verschiedenen Proteinsequenzen und zur Vorhersage der Funktionen von Proteinen), der Bilderkennung oder der Handschrifterkennung eingesetzt.

»Das Tolle am Kernel-Trick ist, dass alle Berechnungen im niedrigdimensionalen Raum stattfinden und nicht im möglicherweise unendlich-dimensionalen Raum«
(Bernhard Boser, emeritierter Professor an der University of California, Berkeley)

SVMs dominierten das maschinelle Lernen, bis 2012 mit der Einführung von AlexNet tiefe neuronale Netze in Mode kamen. Als sich die Forschungscommunity des maschinellen Lernens auf künstliche neuronale Netze (ANNs) konzentrierte, blieben SVMs auf der Strecke, aber sie (und Kernel-Maschinen im Allgemeinen) sind nach wie vor leistungsstarke Modelle, von denen wir noch viel lernen können. Sie können zum Beispiel mehr als nur den Kernel-Trick anwenden, um eine trennende Hyperebene zu finden.

»Wenn man einen leistungsfähigen Kernel hat, dann bildet man die Daten auf einen Kernel-Raum ab, der quasi unendlich-dimensional und sehr leistungsfähig ist«, sagt Chiyuan Zhang, Forscher im Brain-Team von Google Research. »Man kann in diesem mächtigen verborgenen Raum immer einen linearen Separator finden, der die Daten trennt, und es gibt unendlich viele mögliche Lösungen.« Mit der Kernel-Theorie kann man jedoch nicht nur einen beliebigen linearen Separator auswählen, sondern den bestmöglichen (bei einer bestimmten Definition von »am besten«), indem man den Raum der zu suchenden Lösungen einschränkt. Dies ist vergleichbar mit der Verringerung der Anzahl der Parameter in einem Modell, um eine Überanpassung zu verhindern. Dieser Prozess wird Regularisierung genannt. Zhang stellte sich eines Tages die Frage, ob tiefe neuronale Netze etwas Ähnliches tun könnten.

Tiefe neuronale Netze bestehen aus Schichten von künstlichen Neuronen. Sie bestehen aus einer Eingabeschicht, einer Ausgabeschicht und mindestens einer dazwischen liegenden verborgenen Schicht. Je mehr versteckte Schichten es gibt, desto tiefer ist das Netz. Die Parameter des Netzes geben die Stärke der Verbindungen zwischen diesen Neuronen an. Das Training eines Netzes, zum Beispiel für die Bilderkennung, besteht darin, ihm wiederholt zuvor kategorisierte Bilder zu zeigen und Werte für seine Parameter zu bestimmen, die ihm helfen, diese Bilder richtig zu charakterisieren. Einmal trainiert, stellt das ANN ein Modell dar, das eine Eingabe (z. B. ein Bild) in eine Ausgabe (eine Bezeichnung oder Kategorie) umwandelt.

Schwierige Spurensuche

Im Jahr 2017 führten Zhang und Kollegen eine Reihe empirischer Tests mit Netzwerken wie AlexNet und VGG durch, um herauszufinden, ob die Algorithmen, mit denen diese ANNs trainiert werden, die Anzahl der einstellbaren Parameter effektiv reduzieren. Das würde dann zur einer Art impliziter Regularisierung führen. Mit anderen Worten: Hat das Trainingssystem diese Netze daran gehindert, sich übermäßig anzupassen?

Das Team fand heraus, dass dies nicht der Fall war. Mit Hilfe geschickt manipulierter Datensätze zeigten die Forschenden, dass AlexNet und andere ANNs dieser Art in der Tat in der Lage sind, sich übermäßig anzupassen und nicht zu verallgemeinern. Wurden hingegen die gleichen Netzwerke mit dem gleichen Algorithmus trainiert, erhielten aber unveränderte Daten, passten sich nicht zu stark an, sondern verallgemeinerten gut. Diese Art der impliziten Regularisierung kann also nicht die Lösung sein. Das Ergebnis erfordere »eine bessere Erklärung für die Generalisierung in tiefen neuronalen Netzen«, so Zhang.

Mittlerweile haben Studien gezeigt, dass breitere neuronale Netze (also jene mit vielen Neuronen pro Schicht) in der Regel genauso gut oder besser generalisieren wie ihre engeren Gegenstücke. Das inspirierte manche Forscher: Vielleicht kann man ANNs verstehen, indem man eine Strategie aus der Physik übernimmt? »Durch das Studium von Grenzfällen kann man ein Problem manchmal vereinfachen«, sagt Yasaman Bahri, ein Forscher im Brain Team von Google Research. Um solche Situationen zu analysieren, vereinfachen Physiker das Problem oft, indem sie Extremfälle betrachten. Was passiert zum Beispiel, wenn die Anzahl der Teilchen in einem System gegen unendlich geht? »Statistische Effekte lassen sich in diesen Grenzbereichen leichter bewältigen«, so Bahri. Was passiert mit einem neuronalen Netz, wenn die Breite seiner Schichten – die Anzahl der Neurone in einer einzelnen Schicht – mathematisch gesehen unendlich wäre?

Wie Gauß hilft, heutige KI zu verstehen

1994 stellte sich Radford Neal genau diese Frage für ein Netz mit einer einzigen verborgenen Schicht. Der heute emeritierte Professor an der Universität Toronto zeigte, dass ein solches Netzwerk bei der Initialisierung (also vor dem Training) mathematisch äquivalent zu einer bekannten Kernel-Funktion ist, die als Gauß-Prozess bezeichnet wird, wenn die Gewichte dieses Netzwerks mit bestimmten statistischen Eigenschaften eingerichtet werden. Mehr als zwei Jahrzehnte später, im Jahr 2017, zeigten zwei Gruppen, darunter die von Bahri, dass dies auch für idealisierte tiefe neuronale Netze mit unendlicher Breite und vielen versteckten Schichten gilt.

Dies hatte eine verblüffende Auswirkung. Selbst wenn ein tiefes Netz trainiert ist, kann man mittels mathematischer Analysen normalerweise keine Vorhersagen über noch unbekannte Daten treffen. Man muss das tiefe Netz einfach laufen lassen und sehen, was herauskommt – es ist so etwas wie eine Blackbox. In einem idealisierten Szenario entspricht das Netz bei der Initialisierung jedoch einem Gauß-Prozess. Man kann das neuronale Netz ignorieren und einfach die Kernel-Maschine trainieren, für die man die mathematischen Gleichungen hat.

»Sobald man es auf einen gaußschen Prozess abbildet, kann man analytisch berechnen, wie die Vorhersage aussehen sollte«, so Bahri. Schon das war ein bahnbrechendes Ergebnis, aber es beschrieb nicht mathematisch, was beim Training geschieht: Wieso konnte die Lösung so gut verallgemeinert werden?

KI-Training ist ein Optimierungsproblem

Ein Teil des Rätsels drehte sich um die Frage, wie tiefe neuronale Netze trainiert werden. Dazu braucht es unter anderem einen Algorithmus namens Gradientenabstieg. Das Wort Abstieg bezieht sich auf die Tatsache, dass das Netz während des Trainings eine komplexe, hochdimensionale Landschaft voller Hügel und Täler durchläuft. Jede Stelle in der Landschaft stellt den Fehler dar, den das Netz bei einem bestimmten Satz von Parameterwerten macht. Wenn die Parameter angepasst sind, erreicht das ANN schließlich eine Region, die als globales Minimum bezeichnet wird. Das heißt, es kommt der genauen Klassifizierung der Trainingsdaten so nahe wie möglich. Das Training eines Netzes ist also im Wesentlichen ein Optimierungsproblem. Das ist ein komplexer Prozess, der schwer zu analysieren ist.

»Keine existierende Theorie kann garantieren, dass ein weit verbreiteter Algorithmus wie der Gradientenabstieg dazu führt, dass das Netz zum globalen Minimum konvergiert«, sagt Simon Du, ein Experte für maschinelles Lernen an der University of Washington in Seattle. Ende 2018 näherte sich die Forschung der Erklärung: Wie so oft bei großen wissenschaftlichen Fortschritten kamen mehrere Gruppen gleichzeitig zu einer möglichen Antwort, die auf mathematischen Analysen von Netzwerken mit unendlicher Breite und ihrer Beziehung zu den besser verstandenen Kernel-Maschinen beruhte. Ungefähr zu der Zeit, als Dus Gruppe und andere ihre Arbeiten veröffentlichten, präsentierte ein junger Schweizer Doktorand namens Arthur Jacot die Arbeit seiner Gruppe auf der NeurIPS 2018, der wichtigsten Konferenz des Fachgebiets.

Die Teams unterschieden sich zwar in den Details und in der Ausgestaltung ihrer Arbeit, aber die Essenz war folgende: Tiefe neuronale Netze mit unendlicher Breite, deren Gewichte unter Berücksichtigung bestimmter statistischer Eigenschaften initialisiert werden, sind nicht nur bei der Initialisierung, sondern während des gesamten Trainingsprozesses genau gleichwertig mit Kerneln. Eine wichtige Annahme in Bezug auf die Gewichte ist, dass sie sich während des Trainings nur geringfügig ändern. Unter diesen Annahmen haben Jacot und seine Kollegen von der Eidgenössischen Technischen Hochschule Lausanne gezeigt, dass ein tiefes neuronales Netz mit unendlicher Breite immer einem Kernel entspricht, der sich während des Trainings nicht verändert. Er hängt nicht einmal von den Trainingsdaten ab. Die Kernel-Funktion hängt nur von der Architektur des neuronalen Netzes ab, also beispielsweise von seiner Tiefe und der Art der Konnektivität. Das Team nannte seinen Kernel den neuronalen Tangentenkern, basierend auf einigen seiner geometrischen Eigenschaften.

»Wir wissen, dass sich neuronale Netze zumindest in einigen Fällen wie Kernel-Methoden verhalten können. Das ist der erste Schritt, um diese Methoden wirklich zu verstehen«
(Arhur Jacot, Machine Learning Experte an der EPFL)

»Wir wissen, dass sich neuronale Netze zumindest in einigen Fällen wie Kernel-Methoden verhalten können«, so Jacot. »Das ist der erste Schritt, um diese Methoden wirklich zu vergleichen und zu versuchen, die Ähnlichkeiten und Unterschiede zu verstehen.« Zentral an dieser Erkenntnis ist die Erklärung, warum tiefe neuronale Netze – zumindest in diesem idealen Szenario – zu einer Lösung konvergieren. Diese Konvergenz ist mathematisch schwer zu beweisen, wenn man ein ANN im Parameterraum betrachtet, also in Bezug auf seine Parameter und die komplexe Landschaft. Da das idealisierte tiefe Netz jedoch einer Kernel-Maschine entspricht, können Forscher die Trainingsdaten verwenden, um entweder das tiefe Netz oder die Kernel-Maschine zu trainieren. Beide werden schließlich eine nahezu optimale Funktion finden, die Eingabedaten in Ausgabedaten umwandelt (die also Zusammenhänge in Daten voraussagen kann).

Während des Trainings stimmt die Entwicklung der Funktion, die durch das neuronale Netz mit unendlicher Breite dargestellt wird, mit der Entwicklung der Funktion überein, die durch die Kernel-Maschine dargestellt wird. Im Funktionsraum betrachtet, rollen sowohl das neuronale Netz als auch die entsprechende Kernel-Maschine eine einfache, schalenförmige Landschaft in einem hyperdimensionalen Raum hinunter. Es ist leicht zu beweisen, dass der Gradientenabstieg zum Tal führt – zum globalen Minimum. Zumindest für dieses idealisierte Szenario kann man die globale Konvergenz beweisen, sagt Du: »Deshalb sind die Leute in der Lerntheorie-Community sehr begeistert.«

»Ich hoffe irgendwie, dass das nicht die Antwort ist, weil es tiefe neuronale Netze gewissermaßen weniger interessant macht«
(Chiyuan Zhang, Forscher im Brain-Team von Google Research)

Nicht jeder ist davon überzeugt, dass diese Äquivalenz zwischen Kerneln und neuronalen Netzen auch für praktische neuronale Netze gilt, die eine endliche Breite haben und deren Parameter sich während des Trainings stark ändern können. »Ich denke, es gibt noch einige unklare Zusammenhänge«, so Zhang. Auch ein psychologischer Aspekt spielt eine Rolle: Neuronale Netze haben etwas Mystisches an sich, und sie auf Kernel-Maschinen zu reduzieren, ist für Zhang enttäuschend. »Ich hoffe irgendwie, dass das nicht die Antwort ist, weil es tiefe neuronale Netze gewissermaßen weniger interessant macht«, so Zhang. Schließlich können sie nun mit einer alten Theorie erklärt werden.

Aber andere sind begeistert. Belkin zum Beispiel ist der Meinung, dass Kernel-Methoden zwar eine alte Theorie sind, aber immer noch nicht vollständig verstanden werden. Sein Team hat empirisch gezeigt, dass Kernel-Methoden keine Überanpassung aufweisen und sich gut auf Testdaten verallgemeinern lassen, ohne dass eine Regularisierung erforderlich ist – ähnlich wie bei neuronalen Netzen und im Gegensatz zu dem, was man von der traditionellen Lerntheorie erwarten würde. »Wenn wir verstehen, was bei Kernel-Methoden vor sich geht, dann glaube ich, dass wir damit wirklich einen Schlüssel haben, um diese magische Kiste neuronaler Netze zu öffnen«, so Belkin.

Die Forscher haben nicht nur ein besseres mathematisches Verständnis von Kerneln, was es einfacher macht, sie als Analogie zum Verständnis neuronaler Netze zu verwenden, Kernel sind auch empirisch einfacher zu handhaben als neuronale Netze. Kernel sind weit weniger komplex, sie erfordern keine zufällige Initialisierung von Parametern und ihre Leistung ist besser reproduzierbar. Die Forscher untersuchen jetzt die Verbindungen zwischen realistischen Netzen und Kerneln und sind gespannt, wie weit sie mit diesem neuen Verständnis kommen werden. »Wenn wir eine absolute, vollständige Äquivalenz feststellen können, würde das das ganze Spiel verändern«, so Belkin.

Lesermeinung

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte