Direkt zum Inhalt

Lexikon der Mathematik: Probit-Analyse

auch Probit-Regressionsanalyse, ein Teilgebiet der Regressionsanalyse, welches angewendet wird, wenn die abhängige Variable y (Regressand) eine nominalskalierte (kategoriale, qualitative) Variable ist.

Die Regressoren x sind metrisch skalierte Variablen. Ein wichtiger Spezialfall ist derjenige, daß für Y nur zwei Binärentscheidungen Y = 1, Y = 0, möglich sind. Ziel ist es dann, die Wahrscheinlichkeit px = P(Y = 1/x) vorherzusagen, d. h., vorherzusagen, mit welcher Häufigkeit Y den Wert 1 an einer Stelle X = x annehmen wird. Dazu kann man, wie in der Regressionsanalyse üblich, ein parametrisches Regressionsmodell von px auf x ansetzen, \begin{eqnarray}{p}_{x}=f(\overrightarrow{\alpha },x)+{\varepsilon }_{x},\end{eqnarray}

und die Parameter \(\overrightarrow{\alpha }\in {{\mathbb{R}}}^{s}\) mittels der Methode der kleinsten Quadrate schätzen. Die Analyse beginnt, indem an k verschiedenen Beobachtungsstellen xi, i = 1, …, k, von X jeweils ni Beobachtungen von Y durchgeführt und die jeweiligen relativen Häufigkeiten \({\hat{p}}_{i}=\hat{P}(Y=1/{x}_{i})\) von Y = 1 ermittelt werden. Setzt man ein lineares Regressionsmodell für den Zusammenhang zwischen x und px an, \begin{eqnarray}\begin{array}{cc}{\hat{p}}_{i}=a{x}_{i}+b+{\varepsilon }_{i},E{\varepsilon }_{i}=0,V({\varepsilon }_{i})={\sigma }_{i}^{2}, & (1)\end{array}\end{eqnarray}

i = 1, …, k, so ergibt sich als Regressionsfunktion \begin{eqnarray}{\hat{p}}_{x}=\hat{a}x+\hat{b}\end{eqnarray}

wobei \(\hat{a}\) und \(\hat{b}\) die kleinste-Quadrate-Schätzungen von a und b auf der Basis der Beobachtungen \(({\hat{p}}_{i},{x}_{i})\), d. h. die Lösung des Minimum-Problems \begin{eqnarray}\mathop{\min }\limits_{a,b}\displaystyle \sum _{i=1}^{k}{({\hat{p}}_{i}-a{x}_{i}+b)}^{2}\end{eqnarray}

sind. Man spricht bei diesem Modellansatz (1) auch vom linearen Wahrscheinlichkeitsmodell.

Ein Problem bei diesem Vorgehen besteht darin, daß die Schätzwerte für pi an einer beliebigen Stelle xi gemäß diesem Modell auch negativ oder größer als 1 werden können. Deshalb wird vor Durchführung der Regresssion in der Regel eine Transformation durchgeführt, die stets zulässige Werte liefert.

Im sogenannten Probit- oder Normit-Modell wird eine Regression von Φ−1 (px) auf x durchgeführt, d. h., in (1) wird px durch qx = Φ−1 (px) ersetzt. Die Transformation hat die wesentliche Eigenschaft, daß sie die Verteilungsfunktion in eine Gerade transformiert, sodaß man erwarten kann, daß der Zusammenhang zwischen den Probitwerten Φ−1 (px) und x tatsächlich linear ist. Bei der Probit-Analyse berechnet man zunächst also für die geschätzten Wahrscheinlichkeiten \({\hat{p}}_{i}\) die sogenannten Probits oder Normits: \({\hat{q}}_{i}={\Phi }^{-1}({\hat{p}}_{i})\). Die Regressionsgleichung lautet: \begin{eqnarray}\begin{array}{cc}{\hat{q}}_{i}={\Phi }^{-1}(\hat{p})=\hat{a}{x}_{i}+\hat{b},\text{}i=1,\ldots, k, & (2)\end{array}\end{eqnarray}

wobei \(\hat{a}\) und \(\hat{b}\) Lösunge von \begin{eqnarray}\begin{array}{cc}\mathop{\min }\limits_{a,b}\displaystyle \sum _{i=1}^{k}{({\hat{q}}_{i}-a{x}_{i}-b)}^{2} & (3)\end{array}\end{eqnarray}

sind.

Häufig wird bei der Probit-Analyse beachtet, daß die Fehler ϵi nicht identische Varianzen \({\sigma }_{i}^{2}\) besitzen, sodaß anstelle der kleinsten-Quadrate-Schätzungen (3) die bewichteten kleinsten-Quadrate-Schätzungen verwendet werden, die sich als Lösungen des folgenden Minimum-Problems ergeben: \begin{eqnarray}\mathop{\min }\limits_{a,b}\displaystyle \sum _{i=1}^{k}{w}_{i}{({\hat{q}}_{i}-a{x}_{i}-b)}^{2}\end{eqnarray}

mit \begin{eqnarray}\begin{array}{lll}{w}_{i} & = & \frac{{z}_{i}^{2}}{{p}_{i}(1-{p}_{i})},\\ {p}_{i} & = & \Phi ({q}_{i}),{z}_{i}=\frac{1}{\sqrt{2\pi }}{e}^{-{\scriptstyle \frac{1}{2}}{q}_{i}^{2}}.\end{array}\end{eqnarray}

Die klassische Anwendung des Probit-Modells liegt im Bereich der Dosis-Wirkungs-Analyse (Bioassay) vor. Hier wird z. B. für Gifte oder Medikamente diejenige Dosis x bestimmt, bei der ein vorgegebener Prozentsatz der Objekte (z. B. Schädlinge), die das Gift erhalten, nicht überlebt. \begin{eqnarray}{p}_{x}=P(Y=1/x)\end{eqnarray}

ist dann die Wahrscheinlichkeit dafür, daß ein Objekt bei Dosis x nicht überlebt (Y = 1). In Dosis-Wirkungs-Modellen wird statt der Dosis x häufig die logarithmierte Dosis x = log(x) verwendet. Auch wird, um negative \({\hat{q}}_{i}\)-Werte zu vermeiden, die Berechnung der Probits in der Regel nicht auf die Standardnormalverteilung Φ(x), sondern auf eine N(5, 1)-Verteilung bezogen.

Die Verallgemeinerung des Probit-Modells auf mehrere Einflußgrößen x1, …, xl ist z. B. in [1] beschrieben.

Parallel zu den Probit-Modellen werden auch sogenannte Logit-Modelle verwendet. Hier wird anstelle der Verteilungsfunktion Φ der Standardnormalverteilung die logistische Verteilungsfunktion verwandt, d. h., die Wahrscheinlichkeit wird nicht wie im Probit-Modell als px = Φ(ax + b), sondern als \begin{eqnarray}{p}_{x}=\frac{1}{1+{e}^{-ax+b}}\end{eqnarray}

angesetzt, was bedeutet, daß eine Regression \begin{eqnarray}\mathrm{ln}({p}_{x}/(1-{p}_{x}))=ax+b\end{eqnarray}

von ln(px /(1 − px)) auf x durchgeführt wird.

[1] Hartung, J., Elpelt, B.: Multivariate Statistik. R.Oldenbourg Verlag München Wien, 1989.

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

  • Die Autoren
- Prof. Dr. Guido Walz

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.