Hunde- und Katzenliebhaber wären jedoch entsetzt über eine solche Vereinfachung. Tatsächliche Daten über die Schnauzen und Ohren der vielen Katzen- und Hundearten lassen sich fast sicher nicht durch eine lineare Trennlinie teilen. In solchen Situationen können die Daten, wenn sie linear untrennbar sind, in einen höherdimensionalen Raum transformiert oder projiziert werden. Eine einfache Möglichkeit wäre, den Wert von zwei Merkmalen zu multiplizieren, um ein drittes zu erstellen; vielleicht gibt es eine Korrelation zwischen der Größe der Schnauze und der Ohren, die Hunde von Katzen trennt.

Allgemeiner ausgedrückt: Wenn man die Daten in einem höherdimensionalen Raum betrachtet, ist es einfacher, eine lineare Trennlinie zu finden. Diese wird als Hyperebene bezeichnet, wenn der Raum mehr als drei Dimensionen hat. Wenn diese Hyperebene auf die niedrigeren Dimensionen zurückprojiziert wird, nimmt sie die Form einer nichtlinearen Funktion mit Kurven an, die die ursprünglichen niedrigdimensionalen Daten in zwei Cluster trennt.

Der Kern der Wahrheit

Bei der Arbeit mit realen Daten ist es jedoch oft rechnerisch ineffizient – und manchmal sogar unmöglich –, die Koeffizienten der Hyperebene in hohen Dimensionen zu finden. Hier helfen Kernel-Maschinen: Die Stärke von Kernel-Maschinen liegt in ihrer Fähigkeit, zwei Dinge zu tun. Erstens bilden sie jeden Punkt in einem niedrigdimensionalen Datensatz auf einen Punkt in höheren Dimensionen ab. Die Dimensionalität dieses Hyperraums kann abhängig von diesem Prozess des Mapping unendlich sein, was ein Problem darstellen kann: Um die Koeffizienten der trennenden Hyperebene zu finden, muss für jedes Paar von hochdimensionalen Merkmalen ein so genanntes inneres Produkt berechnet werden, ein Maß für die Ähnlichkeit beziehungsweise den Abstand der Datenpunkte. Das wird allerdings schwierig, wenn die Daten in unendliche Dimensionen projiziert werden.

© Samuel Velasco / Quanta Magazine; Bearbeitung: Spektrum der Wissenschaft (Ausschnitt) Lineare Klassifikation | Wenn sich zwei Gruppen von Daten mit einer Linie voneinander trennen lassen, sind neue Daten leicht zu klassifizieren: Der Algorithmus muss lediglich prüfen, auf welcher Seite der Linie sie liegen. Gibt es eine solche Linie nicht, ist es möglich, über ein weiteres Merkmal eine neue Dimension hinzuzufügen. Das erleichtert es dem Algorithmus, eine solche Trennung – in der höheren Dimension »Hyperebene« genannt – zu finden.

Die zweite Sache, die Kernel-Maschinen tun, ist folgende: Bei zwei niedrigdimensionalen Datenpunkten verwenden sie eine Kernel-Funktion, um eine Zahl auszuspucken, die gleich dem inneren Produkt der entsprechenden höherdimensionalen Merkmale ist. Entscheidend ist, dass der Algorithmus diesen Trick nutzen kann, um die Koeffizienten der Hyperebene zu finden, ohne jemals den hochdimensionalen Raum nutzen zu müssen.

»Das Tolle am Kernel-Trick ist, dass alle Berechnungen im niedrigdimensionalen Raum stattfinden und nicht im möglicherweise unendlich-dimensionalen Raum«, sagt Bernhard Boser, emeritierter Professor an der University of California, Berkeley. Boser hat zusammen mit seinen Kollegen Isabelle Guyon und Vladimir Vapnik in den späten 1980er und frühen 1990er Jahren eine Klasse von Kernel-Maschinen erfunden, die so genannten Support Vector Machines (SVMs). Damals arbeitete er bei den Bell Labs in New Jersey. Während Kernel-Maschinen verschiedener Typen bereits seit den 1960er Jahren im Bereich des maschinellen Lernens eine Rolle spielten, erlangten sie erst mit der Erfindung der SVMs größere Bekanntheit. SVMs erwiesen sich als außerordentlich leistungsfähig. Anfang der 2000er Jahre wurden sie in so unterschiedlichen Bereichen wie der Bioinformatik (zum Beispiel zur Ermittlung von Ähnlichkeiten zwischen verschiedenen Proteinsequenzen und zur Vorhersage der Funktionen von Proteinen), der Bilderkennung oder der Handschrifterkennung eingesetzt.

SVMs dominierten das maschinelle Lernen, bis 2012 mit der Einführung von AlexNet tiefe neuronale Netze in Mode kamen. Als sich die Forschungscommunity des maschinellen Lernens auf künstliche neuronale Netze (ANNs) konzentrierte, blieben SVMs auf der Strecke, aber sie (und Kernel-Maschinen im Allgemeinen) sind nach wie vor leistungsstarke Modelle, von denen wir noch viel lernen können. Sie können zum Beispiel mehr als nur den Kernel-Trick anwenden, um eine trennende Hyperebene zu finden.