Direkt zum Inhalt

Lexikon der Mathematik: Delta-Lernregel

Widrow-Hoff-Lernregel, eine spezielle Lernregel für Neuronale Netze, die bereits gegen Ende der fünfziger Jahre von Bernard Widrow und seinem Schüler Marcian Hoff vorgeschlagen wurde und sich als Spezialfall der Back-propagation-Lernregel für zweischichtige Feed-Forward-Netze mit identischer Transferfunktion interpretieren läßt.

Im folgenden wird die prinzipielle Idee der Delta-Lernregel kurz im Kontext diskreter zweischichtiger neuronaler Feed-Forward-Netze mit Ridge-Typ-Aktivierung und identischer Transferfunktion in den Ausgabeneuronen erläutert: Wenn man diesem zweischichtigen Feed-Forward-Netz eine Menge von t Trainingswerten \begin{eqnarray}({x}^{(s)},{y}^{(s)})\in {{\mathbb{R}}}^{n}\times {{\mathbb{R}}}^{m}, & \ \ \ 1\le s\le t,\end{eqnarray} präsentiert, dann sollten die Gewichte \begin{eqnarray}{\omega }_{ij}\in {\mathbb{R}}, & \ \ \ 1\le i\le n, & \ \ \ 1\le j\le m,\end{eqnarray} sowie die Schwellwerte Θj ∈ ℝ, 1 ≤ jm, so gewählt werden, daß für alle j ∈ {1, …, m} und für alle s ∈ {1, …, t} die quadrierten Fehler \begin{eqnarray}{\left({y}_{j}^{(s)}-(\displaystyle \sum _{i=1}^{n}{\omega }_{ij}{x}_{i}^{(s)}-{{\rm{\Theta }}}_{j})\right)}^{2}\end{eqnarray} möglichst klein werden.

Setzt man nun t partiell differenzierbare Fehlerfunktionen \begin{eqnarray}{F}^{(s)}:{{\mathbb{R}}}^{nm}\times {{\mathbb{R}}}^{m}\to {\mathbb{R}}, & \ \ \ 1\le s\le t,\end{eqnarray} an als \begin{eqnarray}{F}^{(s)}(\mathrm{..},{w}_{ij},\mathrm{..},{{\rm{\Theta }}}_{j},\mathrm{..}):={\displaystyle \sum _{i=1}^{n}({y}_{j}^{(s)}-(\displaystyle \sum _{i=1}^{n}{w}_{ij}{x}_{i}^{(s)}-{{\rm{\Theta }}}_{j}))}^{2},\end{eqnarray} dann erhält man für die Suche nach dem Minimum einer Funktion F(s) mit dem Gradienten-Verfahren folgende Vorschriften für einen GradientenSchritt, wobei λ > 0 ein noch frei zu wählender sogenannter Lernparameter ist:

  1. Gewichte wij, 1 ≤ in, 1 ≤ jm: \begin{eqnarray}{w}_{ij}^{(neu)}:={w}_{ij}-\lambda {F}_{wij}^{(s)}(\mathrm{..},{w}_{ij},\mathrm{..},{{\rm{\Theta }}}_{j},\mathrm{..}),\end{eqnarray} also \begin{eqnarray}{w}_{ij}^{(neu)}:={w}_{ij}-2\lambda ({y}_{j}^{(s)}-(\displaystyle \sum _{k=1}^{n}{w}_{kj}{x}_{k}^{(s)}-{{\rm{\Theta }}}_{j})){x}_{i}^{(s)}.\end{eqnarray}
  2. Schwellwerte Θj, 1 ≤ jm: \begin{eqnarray}{{\rm{\Theta }}}_{j}^{(neu)}:={{\rm{\Theta }}}_{j}-\lambda {F}_{{{\rm{\Theta }}}_{j}}^{(s)}(\mathrm{..},{w}_{ij},\mathrm{..},{{\rm{\Theta }}}_{j},\mathrm{..}),\end{eqnarray} also \begin{eqnarray}{{\rm{\Theta }}}_{j}^{(neu)}:={{\rm{\Theta }}}_{j}-2\lambda ({y}_{j}^{(s)}-(\displaystyle \sum _{k=1}^{n}{w}_{kj}{x}_{k}^{(s)}-{{\rm{\Theta }}}_{j})).\end{eqnarray}

In den obigen Aktualisierungsvorschriften bezeichnen \({F}_{{w}_{ij}}^{(s)}\) und \({F}_{{{\rm{\Theta }}}_{ij}}^{(s)}\) jeweils die partiellen Ableitungen von F(s) nach wij und Θj.

Die sukzessive Anwendung des obigen Verfahrens auf alle vorhandenen Fehlerfunktionen F(s), 1 ≤ st, und anschließende Iteration bezeichnet man nun als Delta-Lernregel oder Widrow-Hoff-Lernregel.

Würde man bei der Herleitung der Delta-Lernregel anstelle der sukzessiven Betrachtung der t Fehlerfunktionen F(s), 1 ≤ st, direkt die gesamte Fehlerfunktion über alle t zu lernenden Trainingswerte heranziehen, \begin{eqnarray}F:=\displaystyle \sum _{s=1}^{t}{F}^{(s)},\end{eqnarray} und auf diese Fehlerfunktion das Gradienten-Verfahren anwenden, so käme man zu einer anderen Delta-Lernregel. Diese wird in der einschlägigen Literatur häufig als Off-Line-Delta-Lernregel oder Batch-Mode-Delta-Lernregel bezeichnet, während die zuvor eingeführte Variante in vielen Büchern unter dem Namen On-Line-Delta-Lernregel zu finden ist oder schlicht Delta-Lernregel genannt wird.

Die On-Line-Variante hat den Vorteil, daß keine Gewichts- und Schwellwertkorrekturen zwischengespeichert werden müssen sowie eine zufällige, nicht-deterministische Reihenfolge der zu lernenden Trainingswerte erlaubt ist (stochastisches Lernen).

Sie hat jedoch den Nachteil, daß nach einem Lernzyklus, d. h. nach Präsentation aller t zu lernenden Trainingswerte, der Gesamtfehler F des Netzes auch für beliebig kleines λ > 0 nicht unbedingt abgenommen haben muß; bei jedem Teilschritt wird zwar F(s) im allgemeinen kleiner, die übrigen Fehler F(r), rs, können jedoch wachsen.

Trotz dieser Problematik hat sich die On-Line-Variante in der Praxis bewährt und wird i. allg. der rechen- und speicherintensiveren Off-Line-Variante vorgezogen.

Lesermeinung

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

  • Die Autoren
- Prof. Dr. Guido Walz

Partnervideos