Direkt zum Inhalt

Lexikon der Mathematik: Quickprop-Lernregel

eine spezielle Lernregel für Neuronale Netze, die auf der numerischen Bestimmung von Minima hinreichend glatter Funktionen unter Ausnutzung von lokalen Approximationen zweiter Ordnung beruht und als Verallgemeinerung der Backpropagation-Lernregel angesehen werden kann.

Im folgenden wird die prinzipielle Idee der Quickprop-Lernregel kurz im Kontext diskreter dreischichtiger neuronaler Feed-Forward-Netze mit Ridge-Typ-Aktivierung in den verborgenen Neuronen erläutert: Wenn man diesem dreischichtigen Feed-Forward-Netz eine Menge von t Trainingswerten (x(s), y(s)) ∈ ℝn × ℝm, 1 ≤ st, prä-sentiert, dann sollten die Gewichte gpj ∈ ℝ, 1 ≤ pq, 1 ≤ jm, und wip ∈ ℝ, 1 ≤ in, 1 ≤ pq, sowie die Schwellwerte Θp ∈ ℝ, 1 ≤ pq, so gewählt werden, daß für alle j ∈ {1, …, m} und für alle s ∈ {1, …, t} die quadrierten Fehler

\begin{eqnarray}{F}^{(s)}(h):={\left({y}_{j}^{(s)}\displaystyle \sum _{p=1}^{q}{g}_{pj}T\left(\displaystyle \sum _{i=1}^{n}{w}_{ip}{x}_{i}^{(s)}-{\Theta }_{p}\right)\right)}^{2}\end{eqnarray}

möglichst klein werden, wobei hier zur Abkürzung

\begin{eqnarray}h:=(\mathrm{..},{g}_{pj},\mathrm{..},{w}_{ip},\mathrm{..},{\Theta }_{p},\mathrm{..})\in {{\mathbb{R}}}^{qm+nq+q}\end{eqnarray}

gesetzt wurde. Nimmt man nun an, daß die Transferfunktion T mindestens zweimal stetig differenzierbar ist und setzt N := qm + nq + q, so läßt sich zunächst die Backpropagation-Lernregel deuten als der Versuch, das Minimum der Funktion F(s) zu finden, indem die lineare Näherung von F(s) in der Nähe von h verkleinert wird. Wegen

\begin{eqnarray}{F}^{(s)}({h}^{(neu)})\approx {F}^{(s)}(h)+(\text{grad}\,{F}^{(s)}(h))({h}^{(neu)}-h)\end{eqnarray}

erhält man für h(neu) := h − λ grad F(s)(h) im Fall λ > 0 und grad F(s)(h) ≠ 0 wegen

\begin{eqnarray}\lambda \displaystyle \sum _{i=1}^{N}{\left(\displaystyle \frac{\partial {F}^{(s)}(h)}{\partial {h}_{i}}\right)}^{2}\gt 0\end{eqnarray}

die Heuristik F(s)(h(neu)) < F(s)(h).

Ersetzt man nun die lineare Näherung von F(s) in der Nähe von h durch eine lokal quadratische Näherung, indem man den Korrekturterm

\begin{eqnarray}\displaystyle \frac{1}{2}\displaystyle \sum _{i=1}^{N}\displaystyle \sum _{j=1}^{N}\displaystyle \frac{{\partial }^{2}{F}^{(s)}(h)}{\partial {h}_{i}\partial {h}_{j}}({h}_{i}^{(neu)}-{h}_{i})({j}_{j}^{(neu)}-{h}_{j})\end{eqnarray}

auf die lineare Näherung addiert, und versucht diese Näherung zu minimieren, so kommt man zu den sogenannten Quickprop-Lernregeln im allgemeinsten Sinne. Diese Lernregeln konvergieren i. allg. schneller als die Backpropagation-Varianten, wodurch das Attribut quick motiviert ist, erfordern jedoch andererseits auch einen höheren Rechenaufwand pro Lernschritt, so daß der Vorteil einer schnelleren Konvergenz z.T. wieder relativiert wird.

Eine sehr populäre Variante der Quickprop-Lernregel wurde gegen Ende der achtziger Jahre von Scott Fahlman vorgeschlagen. Berücksichtigt man zur quadratischen Näherung von F(s)(h(neu)) nur die Diagonalelemente der Hesse-Matrix \({({\partial }^{2}{F}^{(s)}(h)/\partial h_{i}\partial {h}_{j})}_{i=1\ldots N}^{j=1\ldots N}\) und setzt alle gemischten partiellen Ableitungen zweiter Ordnung gleich Null, so lautet die Lernregel

\begin{eqnarray}{h}_{i}^{(neu)}:= h_{i} -{\left(\displaystyle \frac{{\partial }^{2}{F}^{(s)}(h)}{\partial {h}_{i}^{2}}\right)}^{-1}\displaystyle \frac{\partial {F}^{(s)}(h)}{\partial {h}_{i}}\end{eqnarray}

für 1 ≤ iN. Bei diesem Prototyp der Quickprop-Lernregel, in der ggfs. auch noch gewisse partielle Ableitungen durch entsprechende Differenzenquotienten ersetzt werden können, handelt es sich also in gewisser Hinsicht um eine Backpropagation-Lernregel mit einem für jede Koordinatenrichtung individuellen Lernparameter

\begin{eqnarray}{\left(\displaystyle \frac{{\partial }^{2}{F}^{(s)}{(h)}}{\partial {h}_{i}^{2}}\right)}^{-1},\text{}1\le i\le N.\end{eqnarray}

Dies hat zur Folge, daß in Koordinatenrichtungen mit betragsmäßig kleinen Lernparametern wenig, in Koordinatenrichtungen mit betragsmäßig großen Lernparametern entsprechend deutlicher korrigiert wird. Geht man schließlich davon aus, daß man sich mit dem Verfahren bereits in der Nähe eines Minimums befindet, ist es in vielen Fällen legitim anzunehmen, daß dort die Hesse-Matrix \({({\partial }^{2}{F}^{(s)}(h)/\partial h_{i}\partial {h}_{j})}_{i=1\ldots N}^{j=1\ldots N}\) lokal positiv definit ist, also insbesondere ihre Diagonalelemente positiv sind. Gilt ferner grad F(s)(h) ≠ 0, so folgt auch hier wieder wegen

\begin{eqnarray}\displaystyle \frac{1}{2}{\displaystyle \sum _{i=1}^{N}\left(\displaystyle \frac{{\partial }^{2}{F}^{(s)}(h)}{\partial {h}_{i}^{2}}\right)}^{-1}{\left(\displaystyle \frac{\partial {F}^{(s)}(h)}{\partial {h}_{i}}\right)}^{2}\gt 0\end{eqnarray}

die Heuristik F(s)(h(neu)) < F(s)(h).

Lesermeinung

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

  • Die Autoren
- Prof. Dr. Guido Walz

Partnervideos