Oja-Lernregel

Lexikon der Mathematik: Oja-Lernregel

eine spezielle Lernregel im Bereich Neuronale Netze, die von Erkki Oja zu Beginn der achtziger Jahre publik gemacht wurde.

Die Oja-Lernregel läßt sich grob als ein Spezialfall der Kohonen-Lernregel deuten, wobei lediglich ein Klassifizierungsvektor, nämlich der sogenannte erste Hauptkomponentenvektor, zu bestimmen ist, und zusätzlich eine auf dem Gradientenverfahren beruhende Strategie zum Einsatz kommt.

Im folgenden wird das Prinzip der Oja-Lernregel an einem einfachen Beispiel (diskrete Variante) erläutert: Für eine endliche Menge von t Vektoren x⁽^s⁾ ∈ ℝⁿ\{0}, 1 ≤ s ≤ t, soll ein Vektor w ∈ ℝⁿ\{0} gefunden werden, der von allen gegebenen Vektoren im Mittel den geringsten Abstand hat, wobei hier der Abstand über die nichtorientierten Winkel zwischen den durch w und den Vektoren x⁽^s⁾ gegebenen Geraden durch den Ursprung bestimmt werden soll.

Diese Forderung bedeutet, daß der Vektor w ∈ ℝⁿ \ {0} so gewählt werden sollte, daß für alle s ∈ {1, …, t} die Quotienten \begin{eqnarray}\frac{{(w\cdot {x}^{(s)})}^{2}}{(w\cdot w)({x}^{(s)}\cdot {x}^{(s)})}=\frac{{\left(\displaystyle \sum _{i=1}^{n}{w}_{i}{x}_{i}^{(s)}\right)}^{2}}{\left(\displaystyle \sum _{i=1}^{n}{({w}_{i})}^{2}\right)\left(\displaystyle \sum _{i=1}^{n}{({x}_{i}^{(s)})}^{2}\right)}\end{eqnarray} möglichst groß werden. Setzt man nun t partiell differenzierbare Quotientenfunktionen \begin{eqnarray}{Q}^{(s)}:{{\mathbb{R}}}^{n}\backslash \{0\}\to {\mathbb{R}},\,\,\,\,1\le s\le t,\end{eqnarray} an als \begin{eqnarray}{Q}^{(s)}(w):=\frac{{(w\cdot {x}^{(s)})}^{2}}{(w\cdot w)({x}^{(s)}\cdot {x}^{(s)})},\end{eqnarray} dann erhält man für die Suche nach dem Maximum einer Funktion Q⁽^s⁾ mit dem Gradientenverfahren folgende Vorschrift für einen Gradienten-Schritt, wobei λ > 0 ein noch frei zu wählender sogenannter Lernparameter ist: \begin{eqnarray}{w}^{(neu)}:=w+\lambda \,\,\text{grad}\,{Q}^{(s)}(w),\end{eqnarray} wobei grad Q⁽^s⁾(w) zu berechnen ist als \begin{eqnarray}\frac{2(w\cdot {x}^{(s)})}{(w\cdot w)({x}^{(s)}\cdot {x}^{(s)})}({x}^{(s)}-(w\cdot {x}^{(s)}){(w\cdot w)}^{-1}w).\end{eqnarray}

Die sukzessive Anwendung des obigen Verfahrens auf alle vorhandenen Quotientenfunktionen Q⁽^s⁾, 1 ≤ s ≤ t, und anschließende Iteration bezeichnet man nun als Oja-Lernregel. Normiert man ferner den Vektor w nach jedem Iterationsschritt auf Länge 1 (Konsequenz: (w·w) = 1), und denkt sich den Faktor \begin{eqnarray}2{({x}^{(s)}\cdot {x}^{(s)})}^{-1}\end{eqnarray} in den variablen Lernparameter λ gezogen, so erhält man eine Form der Oja-Lernregel, wie man sie ebenfalls in vielen Buchern findet.

Würde man schlißslich bei der Herleitung der Oja-Lernregel anstelle der sukzessiven Betrachtung der t Quotientenfunktionen Q⁽^s⁾, 1 ≤ s ≤ t, direkt die Summe über alle t zu maximierenden Quotienten heranziehen, \begin{eqnarray}Q:=\displaystyle \sum _{s=1}^{t}{Q}^{(s)},\end{eqnarray} und auf diese Funktion das Gradienten-Verfahren anwenden, so käme man zu einer anderen Oja-Lernregel. Diese wird in der einschlägigen Literatur häufig als Off-Line-Oja-Lernregel oder Batch-Mode-Oja-Lernregel bezeichnet, während die zuvor eingeführte Variante in vielen Büchern unter dem Namen On-Line-Oja-Lernregel zu finden ist oder schlicht Oja-Lernregel genannt wird.

Die On-Line-Variante hat den Vorteil, daß keine w-Vektor-Korrekturen zwischengespeichert werden müssen sowie eine zufällige, nichtdeterministische Reihenfolge der zu klassifizierenden Trainingswerte erlaubt ist (stochastisches Lernen). Sie hat jedoch den Nachteil, daß nach einem Lernzyklus, d. h. nach Präsentation aller t zu klassifizierenden Trainingswerte, die Funktion Q auch für beliebig kleines λ > 0 nicht unbedingt zugenommen haben muß bei jedem Teilschritt wird zwar Q⁽^s⁾ im allgemeinen größer, die übrigen Quotientenfunktionen Q⁽^r⁾, r ≠ s, können jedoch abnehmen.

Trotz dieser Problematik hat sich die On-Line-Variante in der Praxis bewährt und wird i. allg. der rechen- und speicherintensiveren Off-Line-Variante vorgezogen.

Lexikon der Mathematik: Oja-Lernregel

Schreiben Sie uns!

Artikel zum Thema

Die fabelhafte Welt der Mathematik: Was Topologie, Analysis und supraleitende Fußbälle gemeinsam haben

»Verkannt, verfemt, vergessen«: Große Unbekannte der Mathematik

Die fabelhafte Welt der Mathematik: Warum gehen Wahlen meist knapp aus?

Zahlentheorie: Es gibt eine neue größte Primzahl

Themenkanäle

Das Digital-Manifest

Zahlentheorie

Statistik

SponsoredPartnerinhalte