Backpropagation-Lernregel

Lexikon der Mathematik: Backpropagation-Lernregel

eine spezielle Lernregel für Neuronale Netze, die auf dem Gradienten-Verfahren beruht.

Im folgenden wird die prinzipielle Idee der Backpropagation-Lernregel kurz im Kontext diskreter dreischichtiger neuronaler Feed-Forward- Netze mit Ridge-Typ-Aktivierung in den verborgenen Neuronen erläutert:

Wenn man diesem dreischichtigen Feed-Forward-Netz eine Menge von t Trainingswerten \begin{eqnarray}({x}^{(s)},{y}^{(s)})\in {{\rm{{\mathbb{R}}}}}^{n}\times {{\rm{{\mathbb{R}}}}}^{m}, & 1\le s\le t,\end{eqnarray} präsentiert, dann sollten die Gewichte \begin{eqnarray}{g}_{pj}\in {\rm{{\mathbb{R}}}}, & 1\le p\le q, & 1\le j\le m\end{eqnarray} und \begin{eqnarray}{w}_{ip}\in {\rm{{\mathbb{R}}}}, & 1\le i\le n, & 1\le p\le q,\end{eqnarray}sowie die Schwellwerte Θ_p ∈ ℝ, 1 ≤ p ≤ q, so gewählt werden, daß für alle j ∈ {1, …, m} und für alle s ∈ {1, …, t} die quadrierten Fehler \begin{eqnarray}{({y}_{j}^{(s)}-\displaystyle \sum _{p=1}^{q}{g}_{pj}T(\displaystyle \sum _{i=1}^{n}{w}_{ip}{x}_{i}^{(s)}-{\Theta }_{p}))}^{2}\end{eqnarray} möglichst klein werden.

Nimmt man nun an, daß die Transferfunktion T stetig differenzierbar ist, und setzt t partiell differenzierbare Fehlerfunktionen \begin{eqnarray}{F}^{(s)}:{{\rm{{\mathbb{R}}}}}^{qm}\times {{\rm{{\mathbb{R}}}}}^{nq}\times {{\rm{{\mathbb{R}}}}}^{q}\to {\rm{{\mathbb{R}}}}, & 1\le s\le t,\end{eqnarray}an als \begin{eqnarray}{F}^{(s)}(..,\,{g}_{pj},..,\,{w}_{ip},..,\,{{\rm{\Theta }}}_{p},..):=\sum _{j=1}^{m}({y}_{j}^{(s)}-\sum _{p=1}^{q}{g}_{pj}T(\sum _{i=1}^{n}{w}_{ip}{x}_{i}^{(s)}-{{\rm{\Theta }}}_{p}){)}^{2},\end{eqnarray} dann erhält man für die Suche nach dem Minimum einer Funktion F⁽^s⁾ mit dem Gradienten-Verfahren folgende Vorschriften für einen Gradienten-Schritt, wobei λ > 0 ein noch frei zu wählender sogenannter Lernparameter ist:

Gewichte g_pj, 1 ≤ p ≤ q, 1 ≤ j ≤ m: \begin{eqnarray}{g}_{pj}^{(neu)}:={g}_{pj}-\lambda {F}_{{g}_{pj}}^{(s)}(..,\,{g}_{pj},..,\,{w}_{ip},..,\,{{\rm{\Theta }}}_{p},\,\mathrm{.}.).\end{eqnarray}
Gewichte w_ip, 1 ≤ i ≤ n, 1 ≤ p ≤ q: \begin{eqnarray}{w}_{ip}^{(neu)}:={w}_{ip}-\lambda {F}_{{w}_{ip}}^{(s)}(..,\,{g}_{pj},..,\,{w}_{ip},..,\,{{\rm{\Theta }}}_{p},\,\mathrm{.}.).\end{eqnarray}
Schwellwerte Θ_p, 1 ≤ p ≤ q: \begin{eqnarray}{{\rm{\Theta }}}_{p}^{(neu)}:={{\rm{\Theta }}}_{p}-\lambda {F}_{{{\rm{\Theta }}}_{p}}^{(s)}(..,\,{g}_{pj},..,\,{w}_{ip},..,\,{{\rm{\Theta }}}_{p},\,\mathrm{.}.).\,\end{eqnarray}

In den obigen Aktualisierungsvorschriften bezeichnen natürlich \({F}_{{g}_{pj}}^{(s)}\), \({F}_{{w}_{ip}}^{(s)}\) und \({F}_{{{\rm{\Theta }}}_{p}}^{(s)}\) jeweils die partiellen Ableitungen von F⁽^s⁾ nach g_pj, w_ip und Θ_p. Die sukzessive Anwendung des obigen Verfahrens auf alle vorhandenen Fehlerfunktionen F⁽^s⁾, 1 ≤ s ≤ t, und anschließende Iteration bezeichnet man nun als Backpropagation-Lernregel oder-Algorithmus (die Fehler F⁽^s⁾, 1 ≤ s ≤ t, werden geschickt in das Netz zurückpropagiert und zur Korrektur der Netzparameter benutzt).

Erstmals wurde dieser Algorithmus 1974 von Paul Werbos auf Neuronale Netze angewandt und bildet heute mit seinen zahlreichen Variationen eine der effizientesten Strategien zur Konfigurierung Neuronaler Netze.

Würde man bei der Herleitung der Backpropagation-Lernregel anstelle der sukzessiven Betrachtung der t Fehlerfunktionen F⁽^s⁾, 1 ≤ s ≤ t, direkt die gesamte Fehlerfunktion über alle t zu lernenden Trainingswerte heranziehen, \begin{eqnarray}F:=\sum _{s=1}^{t}{F}^{(s)},\end{eqnarray} und auf diese Fehlerfunktion das Gradienten-Verfahren anwenden, so käme man zu einer anderen Backpropagation-Lernregel. Diese wird in der einschlägigen Literatur häufig als Off-Line-Back- propagation-Lernregel oder Batch-Mode-Backpro- pagation-Lernregel bezeichnet, während die zuvor eingeführte Variante in vielen Büchern unter dem Namen On-Line-Backpropagation-Lernregel zu finden ist oder schlicht Backpropagation-Lernregel genannt wird.

Die On-Line-Variante hat den Vorteil, daß keine Gewichts- und Schwellwertkorrekturen zwischengespeichert werden müssen und eine zufällige, nicht-deterministische Reihenfolge der zu lernenden Trainingswerte erlaubt ist (stochastisches Lernen).

Sie hat jedoch den Nachteil, daß nach einem Lernzyklus, d. h. nach Präsentation aller t zu lernenden Trainingswerte, der Gesamtfehler F des Netzes auch für beliebig kleines λ > 0 nicht unbedingt abgenommen haben muß; bei jedem Teilschritt wird zwar F⁽^s⁾ im allgemeinen kleiner, die übrigen Fehler F⁽^r⁾, r ≠ s, können jedoch wachsen.

Trotz dieser Problematik hat sich die On-Line- Variante in der Praxis bewährt und wird im allgemeinen der rechen- und speicherintensiveren Off-Line-Variante vorgezogen.

Lexikon der Mathematik: Backpropagation-Lernregel

Schreiben Sie uns!

Artikel zum Thema

Die fabelhafte Welt der Mathematik: Welche Form hat das Universum?

Christian Spannagel: Definieren lernen: Quadrat

Quantenkryptografie: Durchbrüche bei Quantencomputern erschüttern Cybersicherheit

»Zählen«: Die Magie des Zählens

Themenkanäle

Quantengravitation

Quantenphysik

Die neue Generation von Computern

SponsoredPartnerinhalte