Direkt zum Inhalt

Lexikon der Mathematik: Backpropagation-Lernregel

eine spezielle Lernregel für Neuronale Netze, die auf dem Gradienten-Verfahren beruht.

Im folgenden wird die prinzipielle Idee der Backpropagation-Lernregel kurz im Kontext diskreter dreischichtiger neuronaler Feed-Forward- Netze mit Ridge-Typ-Aktivierung in den verborgenen Neuronen erläutert:

Wenn man diesem dreischichtigen Feed-Forward-Netz eine Menge von t Trainingswerten \begin{eqnarray}({x}^{(s)},{y}^{(s)})\in {{\rm{{\mathbb{R}}}}}^{n}\times {{\rm{{\mathbb{R}}}}}^{m}, & 1\le s\le t,\end{eqnarray} präsentiert, dann sollten die Gewichte \begin{eqnarray}{g}_{pj}\in {\rm{{\mathbb{R}}}}, & 1\le p\le q, & 1\le j\le m\end{eqnarray} und \begin{eqnarray}{w}_{ip}\in {\rm{{\mathbb{R}}}}, & 1\le i\le n, & 1\le p\le q,\end{eqnarray}sowie die Schwellwerte Θp ∈ ℝ, 1 ≤ p ≤ q, so gewählt werden, daß für alle j ∈ {1, …, m} und für alle s ∈ {1, …, t} die quadrierten Fehler \begin{eqnarray}{({y}_{j}^{(s)}-\displaystyle \sum _{p=1}^{q}{g}_{pj}T(\displaystyle \sum _{i=1}^{n}{w}_{ip}{x}_{i}^{(s)}-{\Theta }_{p}))}^{2}\end{eqnarray} möglichst klein werden.

Nimmt man nun an, daß die Transferfunktion T stetig differenzierbar ist, und setzt t partiell differenzierbare Fehlerfunktionen \begin{eqnarray}{F}^{(s)}:{{\rm{{\mathbb{R}}}}}^{qm}\times {{\rm{{\mathbb{R}}}}}^{nq}\times {{\rm{{\mathbb{R}}}}}^{q}\to {\rm{{\mathbb{R}}}}, & 1\le s\le t,\end{eqnarray}an als \begin{eqnarray}{F}^{(s)}(..,\,{g}_{pj},..,\,{w}_{ip},..,\,{{\rm{\Theta }}}_{p},..):=\sum _{j=1}^{m}({y}_{j}^{(s)}-\sum _{p=1}^{q}{g}_{pj}T(\sum _{i=1}^{n}{w}_{ip}{x}_{i}^{(s)}-{{\rm{\Theta }}}_{p}){)}^{2},\end{eqnarray} dann erhält man für die Suche nach dem Minimum einer Funktion F(s) mit dem Gradienten-Verfahren folgende Vorschriften für einen Gradienten-Schritt, wobei λ > 0 ein noch frei zu wählender sogenannter Lernparameter ist:

  1. Gewichte gpj, 1 ≤ p ≤ q, 1 ≤ j ≤ m: \begin{eqnarray}{g}_{pj}^{(neu)}:={g}_{pj}-\lambda {F}_{{g}_{pj}}^{(s)}(..,\,{g}_{pj},..,\,{w}_{ip},..,\,{{\rm{\Theta }}}_{p},\,\mathrm{.}.).\end{eqnarray}
  2. Gewichte wip, 1 ≤ i ≤ n, 1 ≤ p ≤ q: \begin{eqnarray}{w}_{ip}^{(neu)}:={w}_{ip}-\lambda {F}_{{w}_{ip}}^{(s)}(..,\,{g}_{pj},..,\,{w}_{ip},..,\,{{\rm{\Theta }}}_{p},\,\mathrm{.}.).\end{eqnarray}
  3. Schwellwerte Θp, 1 ≤ pq: \begin{eqnarray}{{\rm{\Theta }}}_{p}^{(neu)}:={{\rm{\Theta }}}_{p}-\lambda {F}_{{{\rm{\Theta }}}_{p}}^{(s)}(..,\,{g}_{pj},..,\,{w}_{ip},..,\,{{\rm{\Theta }}}_{p},\,\mathrm{.}.).\,\end{eqnarray}

In den obigen Aktualisierungsvorschriften bezeichnen natürlich \({F}_{{g}_{pj}}^{(s)}\), \({F}_{{w}_{ip}}^{(s)}\) und \({F}_{{{\rm{\Theta }}}_{p}}^{(s)}\) jeweils die partiellen Ableitungen von F(s) nach gpj, wip und Θp. Die sukzessive Anwendung des obigen Verfahrens auf alle vorhandenen Fehlerfunktionen F(s), 1 ≤ st, und anschließende Iteration bezeichnet man nun als Backpropagation-Lernregel oder-Algorithmus (die Fehler F(s), 1 ≤ st, werden geschickt in das Netz zurückpropagiert und zur Korrektur der Netzparameter benutzt).

Erstmals wurde dieser Algorithmus 1974 von Paul Werbos auf Neuronale Netze angewandt und bildet heute mit seinen zahlreichen Variationen eine der effizientesten Strategien zur Konfigurierung Neuronaler Netze.

Würde man bei der Herleitung der Backpropagation-Lernregel anstelle der sukzessiven Betrachtung der t Fehlerfunktionen F(s), 1 ≤ st, direkt die gesamte Fehlerfunktion über alle t zu lernenden Trainingswerte heranziehen, \begin{eqnarray}F:=\sum _{s=1}^{t}{F}^{(s)},\end{eqnarray} und auf diese Fehlerfunktion das Gradienten-Verfahren anwenden, so käme man zu einer anderen Backpropagation-Lernregel. Diese wird in der einschlägigen Literatur häufig als Off-Line-Back- propagation-Lernregel oder Batch-Mode-Backpro- pagation-Lernregel bezeichnet, während die zuvor eingeführte Variante in vielen Büchern unter dem Namen On-Line-Backpropagation-Lernregel zu finden ist oder schlicht Backpropagation-Lernregel genannt wird.

Die On-Line-Variante hat den Vorteil, daß keine Gewichts- und Schwellwertkorrekturen zwischengespeichert werden müssen und eine zufällige, nicht-deterministische Reihenfolge der zu lernenden Trainingswerte erlaubt ist (stochastisches Lernen).

Sie hat jedoch den Nachteil, daß nach einem Lernzyklus, d. h. nach Präsentation aller t zu lernenden Trainingswerte, der Gesamtfehler F des Netzes auch für beliebig kleines λ > 0 nicht unbedingt abgenommen haben muß; bei jedem Teilschritt wird zwar F(s) im allgemeinen kleiner, die übrigen Fehler F(r), rs, können jedoch wachsen.

Trotz dieser Problematik hat sich die On-Line- Variante in der Praxis bewährt und wird im allgemeinen der rechen- und speicherintensiveren Off-Line-Variante vorgezogen.

Lesermeinung

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

  • Die Autoren
- Prof. Dr. Guido Walz

Partnervideos