Quickprop-Lernregel

Lexikon der Mathematik: Quickprop-Lernregel

eine spezielle Lernregel für Neuronale Netze, die auf der numerischen Bestimmung von Minima hinreichend glatter Funktionen unter Ausnutzung von lokalen Approximationen zweiter Ordnung beruht und als Verallgemeinerung der Backpropagation-Lernregel angesehen werden kann.

Im folgenden wird die prinzipielle Idee der Quickprop-Lernregel kurz im Kontext diskreter dreischichtiger neuronaler Feed-Forward-Netze mit Ridge-Typ-Aktivierung in den verborgenen Neuronen erläutert: Wenn man diesem dreischichtigen Feed-Forward-Netz eine Menge von t Trainingswerten (x^(s), y^(s)) ∈ ℝⁿ × ℝ^m, 1 ≤ s ≤ t, prä-sentiert, dann sollten die Gewichte g_pj ∈ ℝ, 1 ≤ p ≤ q, 1 ≤ j ≤ m, und w_ip ∈ ℝ, 1 ≤ i ≤ n, 1 ≤ p ≤ q, sowie die Schwellwerte Θ_p ∈ ℝ, 1 ≤ p ≤ q, so gewählt werden, daß für alle j ∈ {1, …, m} und für alle s ∈ {1, …, t} die quadrierten Fehler

\begin{eqnarray}{F}^{(s)}(h):={\left({y}_{j}^{(s)}\displaystyle \sum _{p=1}^{q}{g}_{pj}T\left(\displaystyle \sum _{i=1}^{n}{w}_{ip}{x}_{i}^{(s)}-{\Theta }_{p}\right)\right)}^{2}\end{eqnarray}

möglichst klein werden, wobei hier zur Abkürzung

\begin{eqnarray}h:=(\mathrm{..},{g}_{pj},\mathrm{..},{w}_{ip},\mathrm{..},{\Theta }_{p},\mathrm{..})\in {{\mathbb{R}}}^{qm+nq+q}\end{eqnarray}

gesetzt wurde. Nimmt man nun an, daß die Transferfunktion T mindestens zweimal stetig differenzierbar ist und setzt N := qm + nq + q, so läßt sich zunächst die Backpropagation-Lernregel deuten als der Versuch, das Minimum der Funktion F^(s) zu finden, indem die lineare Näherung von F^(s) in der Nähe von h verkleinert wird. Wegen

\begin{eqnarray}{F}^{(s)}({h}^{(neu)})\approx {F}^{(s)}(h)+(\text{grad}\,{F}^{(s)}(h))({h}^{(neu)}-h)\end{eqnarray}

erhält man für h^(neu) := h − λ grad F^(s)(h) im Fall λ > 0 und grad F(s)(h) ≠ 0 wegen

\begin{eqnarray}\lambda \displaystyle \sum _{i=1}^{N}{\left(\displaystyle \frac{\partial {F}^{(s)}(h)}{\partial {h}_{i}}\right)}^{2}\gt 0\end{eqnarray}

die Heuristik F^(s)(h^(neu)) < F^(s)(h).

Ersetzt man nun die lineare Näherung von F^(s) in der Nähe von h durch eine lokal quadratische Näherung, indem man den Korrekturterm

\begin{eqnarray}\displaystyle \frac{1}{2}\displaystyle \sum _{i=1}^{N}\displaystyle \sum _{j=1}^{N}\displaystyle \frac{{\partial }^{2}{F}^{(s)}(h)}{\partial {h}_{i}\partial {h}_{j}}({h}_{i}^{(neu)}-{h}_{i})({j}_{j}^{(neu)}-{h}_{j})\end{eqnarray}

auf die lineare Näherung addiert, und versucht diese Näherung zu minimieren, so kommt man zu den sogenannten Quickprop-Lernregeln im allgemeinsten Sinne. Diese Lernregeln konvergieren i. allg. schneller als die Backpropagation-Varianten, wodurch das Attribut quick motiviert ist, erfordern jedoch andererseits auch einen höheren Rechenaufwand pro Lernschritt, so daß der Vorteil einer schnelleren Konvergenz z.T. wieder relativiert wird.

Eine sehr populäre Variante der Quickprop-Lernregel wurde gegen Ende der achtziger Jahre von Scott Fahlman vorgeschlagen. Berücksichtigt man zur quadratischen Näherung von F^(s)(h^(neu)) nur die Diagonalelemente der Hesse-Matrix \({({\partial }^{2}{F}^{(s)}(h)/\partial h_{i}\partial {h}_{j})}_{i=1\ldots N}^{j=1\ldots N}\) und setzt alle gemischten partiellen Ableitungen zweiter Ordnung gleich Null, so lautet die Lernregel

\begin{eqnarray}{h}_{i}^{(neu)}:= h_{i} -{\left(\displaystyle \frac{{\partial }^{2}{F}^{(s)}(h)}{\partial {h}_{i}^{2}}\right)}^{-1}\displaystyle \frac{\partial {F}^{(s)}(h)}{\partial {h}_{i}}\end{eqnarray}

für 1 ≤ i ≤ N. Bei diesem Prototyp der Quickprop-Lernregel, in der ggfs. auch noch gewisse partielle Ableitungen durch entsprechende Differenzenquotienten ersetzt werden können, handelt es sich also in gewisser Hinsicht um eine Backpropagation-Lernregel mit einem für jede Koordinatenrichtung individuellen Lernparameter

\begin{eqnarray}{\left(\displaystyle \frac{{\partial }^{2}{F}^{(s)}{(h)}}{\partial {h}_{i}^{2}}\right)}^{-1},\text{}1\le i\le N.\end{eqnarray}

Dies hat zur Folge, daß in Koordinatenrichtungen mit betragsmäßig kleinen Lernparametern wenig, in Koordinatenrichtungen mit betragsmäßig großen Lernparametern entsprechend deutlicher korrigiert wird. Geht man schließlich davon aus, daß man sich mit dem Verfahren bereits in der Nähe eines Minimums befindet, ist es in vielen Fällen legitim anzunehmen, daß dort die Hesse-Matrix \({({\partial }^{2}{F}^{(s)}(h)/\partial h_{i}\partial {h}_{j})}_{i=1\ldots N}^{j=1\ldots N}\) lokal positiv definit ist, also insbesondere ihre Diagonalelemente positiv sind. Gilt ferner grad F^(s)(h) ≠ 0, so folgt auch hier wieder wegen

\begin{eqnarray}\displaystyle \frac{1}{2}{\displaystyle \sum _{i=1}^{N}\left(\displaystyle \frac{{\partial }^{2}{F}^{(s)}(h)}{\partial {h}_{i}^{2}}\right)}^{-1}{\left(\displaystyle \frac{\partial {F}^{(s)}(h)}{\partial {h}_{i}}\right)}^{2}\gt 0\end{eqnarray}

die Heuristik F^(s)(h^(neu)) < F^(s)(h).

Lexikon der Mathematik: Quickprop-Lernregel

Schreiben Sie uns!

Artikel zum Thema

Universum im Computer: Laut Mathematik könnten wir in einer Computersimulation leben

Freistetters Formelwelt: So nehmen wir aus mathematischer Sicht Musik wahr

Mathemagischer Advent: Die kultige 1729

Mathemagischer Advent: Die erstaunliche Fünf

Themenkanäle

Das Digital-Manifest

Quantenphysik

Zahlentheorie

SponsoredPartnerinhalte