Direkt zum Inhalt

Lexikon der Mathematik: Regressionsanalyse

ein Teilgebiet der mathematischen Statistik, welches statistische Methoden der Modellwahl, der Parameterschätzung und -prüfung umfaßt, die zur Untersuchung einseitiger stochastischer Abhängigkeiten einer Ergebnisvariablen Y von einer oder mehreren Einflußgrößen X1, …, Xn, d.h., von Ursache-Wirkungsbeziehungen und deren funktionaler Beschreibung, dienen.

Man spricht bei einer solch einseitigen Beziehung auch vom Modell I der Regressionsanalyse. Betrachtet man die Beziehungen zwischen Y, X1, …, Xm wechselseitig in alle Richtungen, so spricht man auch von dem Modell II der Regressionsanalyse bzw. der Korrelationsanalyse.

Bei der Regressionsanalyse wird von folgendem Modell ausgegangen: \begin{eqnarray}Y(\vec{x})={f}_{o}(\vec{x})+{\varepsilon }_{\vec{x}}.\end{eqnarray} Dabei sind \(\vec{x}=({x}_{1},\ldots,{x}_{m})\) der Vektor der Beobachtungen bzw. Einstellungen der Einflußgrößen \(\vec{X}=({X}_{1},\ldots,{X}_{m})\) die auch als Regressoren bezeichnet werden, und \(Y(\vec{x})\) die Zielgröße (Regressand) bei Einstellung von \(\vec{x}\). fo ist die unbekannte Regressionsfunktion mit fo ∈ \(\mathcal{F}\), wobei \(\mathcal{F}\) die a priori-Informationen, die man über fo besitzt, widerspiegelt, und schließlich ist \({\varepsilon }_{\vec{x}}\) ein die Regressionsfunktion überlagernder zufälliger Fehler (Störgröße) bei Einstellung von \(\vec{x}\) mit \begin{eqnarray}E{\varepsilon }_{\vec{x}}=0\,\,\text{und}\,\, V({\varepsilon }_{\vec{x}})={\varepsilon }_{\vec{x}}^{2}.\end{eqnarray} Ziel der Regressionsanalyse ist es, die unbekannte wahre Regressionsfunktion fo zu schätzen.

Da es hier um die Bestimmung einer Funktion fo geht, spricht man bei der Regressionsanalyse auch von Kurvenschätzung bzw. Kurvenfitting.

In der Regel versucht man, die Regressionsfunktion fo durch parametrische Funktionen der Gestalt \begin{eqnarray}{g}_{\vec{a}}(\vec{x})\end{eqnarray} zu approximieren, die bis auf einen unbekannten zu schätzenden Parametervektor \(\vec{a}=({a}_{0}\ldots,{a}_{k})\in {{\mathbb{R}}}^{k+1}\) bekannt sind. Die Schätzung der Parameter \(\vec{a}\) erfolgt dabei nach der Methode der kleinsten Quadrate.

Seien \begin{eqnarray}({y}_{i},{\vec{x}}_{i}),{\vec{x}}_{i}=({x}_{1}^{i},\ldots {x}_{m}^{i}),i=1,\ldots,n,\end{eqnarray}n Beobachtungspaare von Ziel- und Einflußgrößen, und \begin{eqnarray}\begin{array}{l}\vec{y}=(y_1,\ldots,y_n)^T,\\ {\vec{g}}_{\vec{a}}=({g}_{\vec{a}}({\vec{x}}_1),\ldots,{g}_{\vec{a}}({\vec{x}}_n))^T,\end{array}\end{eqnarray} sowie \begin{eqnarray}\vec{f}_o={({f}_{o}({\vec{x}}_{1}),\ldots,{f}_{o}({\vec{x}}_{n}))}^{T}.\end{eqnarray} Weiterhin sei W eine vorgegebene reelle Gewichtsmatrix mit n Zeilen und n Spalten, und durch \begin{eqnarray}\Vert\vec{x}\Vert_{w}^{2}:={\vec{x}}^{T}W\vec{x}\end{eqnarray} für jeden Vektor \(\vec{x}\in {{\mathbb{R}}}^{n}\) eine Norm im \({{\mathbb{R}}}^{n}\) definiert.

Bei der Methode der kleinsten Quadrate werden die Parameter \(\vec{a}\) durch \(\hat{\vec{a}}\) so geschätzt, daß die sogenannte Residual-Sum of Squares (RSS) \begin{eqnarray}\begin{array}{rcl}RSS(\vec{a}) & = &{(\vec{y}-{\vec{g}}_{\vec{a}})}^{T}(\vec{y}-{\vec{g}}_{\vec{a}})\\ & = &\Vert\vec{y}-{\vec{g}}_{\vec{a}}\Vert_{W}^{2}\end{array}\end{eqnarray} minimal wird, d. h., daß gilt: \begin{eqnarray}RSS(\hat{\vec{a}})=\min\limits_{\vec{a}\in {{\mathbb{R}}}^{k+1}}RSS(\vec{a}).\end{eqnarray}

Man spricht von einfacher Regressionanalyse, falls es nur eine Einflußgröße im Modell (1) gibt, d. h., falls m = 1 ist; ist dagegen m > 1, so spricht man von multipler Regressionsanalyse. Weiterhin spricht man von der linearen bzw. quasilinearen Regressionsanalyse, falls \({g}_{\vec{a}}(\vec{x})\) eine lineare Funktion in den Parametern \(\vec{a}\) ist, d. h., falls gilt: \begin{eqnarray}{g}_{\vec{a}}(\vec{x})=\mathop{\sum ^{k}}\limits_{j=0}{a}_{j}{g}_{j}(\vec{x}),\end{eqnarray} wobei \({g}_{j}(\vec{x})\) für j = 0, …, k bekannte vorgegebene Funktionen sind.

Wird für \({g}_{\vec{a}}(\vec{x})\) ein nichüinearer Ansatz in \(\vec{a}\) gewählt, so spricht man von nichtlinearer Regression. Typische nichtlineare Ansätze für die Regressionsfunktion in der einfachen Regressionsanalyse sind zum Beispiel \begin{eqnarray}g({a}_{0},{a}_{1})(x)={a}_{0}{x}^{{a}_{1}}\ \,\,\,\text{und}\,\,\, {g}_{\vec{a}}(x)={a}_{0}+{a}_{1}{e}^{{a}_{2}x}\end{eqnarray} für die Beschreibung von Wachstumsvorgängen.

Die sogenannte orthogonale Regression beschäftigt sich mit der Aufgabe, eine Gerade zu bestimmen, die gleichermaßen die Regression von Y bzgl. einer Einflußgröße X und von X bzgl. Y darstellt. Es bezeichne für eine Gerade g(x) = y =a0 + a1x in der (x, y)-Ebene \({d}_{({x}_{i},{y}_{i})}({a}_{0},{a}_{1})\) den Abstand des Punktes (xi, yi) von der Geraden g. Eine Gerade \(g(x)={\hat{a}}_{o}+{\hat{a}}_{1}x\) heißt dann orthogonale Regressionsgerade, falls anstelle von (4) die Beziehung \begin{eqnarray}\mathop{\sum ^{n}}\limits_{i=1}{d}_{({x}_{i},{y}_{i})}({\hat{a}}_{0},{\hat{a}}_{1})=\mathop{\min }\limits_{({a}_{0},{a}_{1})\in {{\mathbb{R}}}^{2}}\mathop{\sum ^{n}}\limits_{i=1}{d}_{({x}_{i},{y}_{i})}({a}_{0},{a}_{1})\end{eqnarray} erfüllt ist.

Der Gesamtfehler RSS(\(\hat{\vec{a}}\)) in (4) wird wesentlich durch zwei Teilfehler beeinflußt: Den sogenannten Modellfehler \begin{eqnarray}\Vert{\vec{f}}_{0}-{\vec{g}}_{\vec{a}* }\Vert_{W}^{2}=\mathop{\min }\limits_{\vec{a}\in {{\mathbb{R}}}^{k+1}}\Vert{\vec{f}}_{0}-{\vec{g}}_{\vec{a}}\Vert_{W}^{2},\end{eqnarray} der den kleinstmöglichen Fehler bei Approximation von fo durch einen parametrischen Ansatz der Form (2) beschreibt, und den Schätzfehler, der den Fehler beschreibt, der bei Schätzung der Parameter \(\vec{a}* \) durch \(\hat{\vec{a}}\) entsteht: \begin{eqnarray}\Vert{\vec{g}}_{\vec{a}* }-{\vec{g}}_{\hat{\vec{a}}}\Vert_{W}^{2}\end{eqnarray}

Die Modellwahlverfahren der Regressionsanalyse beschäftigen sich damit, einen Ansatz für fo so zu wählen, daß der Modellfehler (6) bzw. der Gesamtfehler (4) möglichst klein wird. So gibt es zum Beispiel bei der einfachen linearen Regression Verfahren, die die ‚beste‘ Ordnung k in einem polynomialen Ansatz \begin{eqnarray}{g}_{\vec{a}}(\vec{x})=\mathop{\sum ^{k}}\limits_{j=0}{a}_{j}{x}^{j}\end{eqnarray} wählen.

Bei der quasi-linearen Regressionsanalyse (5) werden häufig sogenannte schrittweise Modellwahlverfahren angewendet: Ausgehend von einem ‚vollem‘ Modell mit k + 1 Parametern wird in jedem Schritt j die Null-Hypothese \begin{eqnarray}{H}_{j}:{a}_{j}={a}_{j+1}=\cdots ={a}_{k}=0\end{eqnarray} getestet. Die Teststatistiken dieser Tests beruhen auf dem Vergleich der RSS, die unter Voraussetzung der Gültigkeit der Hypothesen Hj und Hj+1 berechnet wurden. Unterscheiden sich die RSS nicht wesentlich voneinander, so wird die Hypothese Hj angenommen und j um 1 verringert. Andernfalls wird die Hypothese Hj abgelehnt und das Verfahren bricht mit der Anzahl k = j signifikanter Parameter im Modell (5) ab. Da die Differenzen der RSS einer F-Verteilung genügen, spricht man bei diesem Verfahren auch von schrittweisen F-Test- Abwärtsverfahren.

Die Methoden zur Parameterschätzung in Regressionsmodellen umfassen exakte und (i. allg. im Falle der nichtlinearen Regression anzuwendende) numerische Methoden zur Lösung des Minimum-Problems (4), und beschäftigen sich mit der Untersuchung der Eigenschaften der entsprechenden Schätzungen.

Ein Spezialgebiet der Regressionsanalyse ist die Wahl wesenüicher auf die Zielgröße Y wirkender Einflußgrößen. Die Verfahren sind analog denen der Modellwahl; ausgehend von dem ‚vollen‘ Satz von m Einflußgrößen vergleicht man die RSS, die bei Weglassen einzelner Einflußgrößen entstehen, mit der RSS des vollen Modells. Ist die Differenz hinreichend klein, so spielt die entsprechende weggelassene Größe keine Rolle für die Zielgröße Y und kann aus dem Modell entfernt werden.

Lesermeinung

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

  • Die Autoren
- Prof. Dr. Guido Walz

Partnervideos