Direkt zum Inhalt

Lexikon der Mathematik: Entscheidungstheorie

Unter dem (Ober-)Begriff Entscheidungstheorie, manchmal auch genauer Statistische Entscheidungstheorie genannt, werden alle statistischen Methoden zusammengefaßt, die aufgrund einer Stichprobe eine Entscheidung hinsichtlich der Verteilung einer zufälligen Variablen treffen. Die Entscheidungsvorschrift wird dabei durch die sogenannte Entscheidungsfunktion gegeben, die jeder konkreten Stichprobe eine bestimmte Entscheidung zuordnet.

Wichtige Beispiele für Entscheidungsfunktionen sind (nichtrandomisierte) Hypothesentests, Punktschätzungen und Bereichsschätzungen. Das Auffinden von in einem gewissen Sinne optimalen Entscheidungsfunktionen und deren genaue Analyse ist der Gegenstand der von A. Wald begründeten statistischen Entscheidungstheorie.

Allgemein läßt sich diese Aufgabe wie folgt formalisieren. Sei X eine zufällige Variable mit der Wahrscheinlichkeitsverteilung Pγ, die bis auf γ bekannt ist. Von γ ist lediglich bekannt, daß es zu einer Menge Γ gehört: γ ∈ Γ. Sei Δ die Menge möglicher Entscheidungen über das unbekannte γ und [Δ, \({\mathfrak{D}}\)] die Erweiterung von Δ zu einem meßbaren Raum.

Sei nun \(\overrightarrow{x}=({x}_{1},\ldots,{x}_{n})\) eine konkrete Stichprobe von X mit Werten im Stichprobenraum \([M,\,{\mathfrak{M}}]\). Unter einer Entscheidungsfunktion δ versteht man eine meßbare Abbildung von \([M,\,{\mathfrak{M}}]\) in \([\Delta,\,{\mathfrak{D}}]\), die jeder konkreten Stichprobe \(\overrightarrow{x}\) eine Entscheidung \(d\,:=\delta (\overrightarrow{x})\in\Delta \) zuordnet.

Zur Beurteilung der Güte der Entscheidungsfunktion δ wird eine reellwertige Verlustfunktion L \begin{eqnarray}L(\gamma,d)={\rm{\Gamma }}\times {\rm{\Delta }}\to {{\mathbb{R}}}^{1}\end{eqnarray} definiert, wobei L(λ, d) der konkrete Verlust ist, wenn λ vorliegt und die konkrete Entscheidung \(d=\delta (\overrightarrow{x})\) getroffen wird.

Eine Beurteilung der Güte der Entscheidungsfunktion δ hinsichtlich aller möglichen Stichproben wird durch die sogenannte Risikofunktion R getroffen: \begin{eqnarray}\begin{array}{lll}R(\gamma,\delta ) & = & {E}_{\gamma }L(\gamma,\delta ({X}_{1},\ldots,{X}_{n}))\\ & = & \displaystyle \mathop{\int }\limits_{\overrightarrow{x}\in M}L(\gamma,\delta (\overrightarrow{x})){Q}_{\gamma }(d\overrightarrow{x}),\end{array}\end{eqnarray} die den erwarteten Verlust bei Vorliegen von γ darstellt. (Qγ ist die im Stichprobenraum \([M,\,{\mathfrak{M}}]\) vorliegende Verteilung, wenn X die Verteilung Pγ besitzt.)

Beispiel: Angenommen, X ist eine normalverteilte Zufallsgröße mit unbekanntem Erwartungswert μ ∈ ℝ1 und unbekannter Varianz σ2 > 0. Dann ist \begin{eqnarray}{\rm{\Gamma }}={{\mathbb{R}}}^{1}\times {{\mathbb{R}}}^{+}.\end{eqnarray}

Die Aufgabe besteht darin, die Hypothese \begin{eqnarray}H:\mu ={\mu }_{0}\end{eqnarray} mit Hilfe eines Signifikanztests, und zwar des t-Tests, zu prüfen.

Die Menge der Entscheidungen, die Entscheidungsfunktion dieses Tests mit der entsprechenden Testgröße T und dem kritischen Bereich K*, die Verlust- und die Risikofunktion sind dann offensichtlich gegeben durch: \begin{eqnarray}{\rm{\Delta }}=\{{d}_{1},{d}_{2}\}\end{eqnarray} mit \begin{eqnarray}\begin{array}{ll}{d}_{1}: & \text{Ablehnung}\,\text{von}\,H,\text{und}\\ {d}_{2}: & \text{keine}\,\text{Ablehnung}\,\,\text{von}\,H,\end{array}\end{eqnarray}\begin{eqnarray}\delta (\overrightarrow{x})=\left\{\begin{array}{ll}{d}_{1}, & \text{falls}\,\,T(\overrightarrow{x})\in {K}^{* }\\ {d}_{2}, & \text{falls}\,\,T(\overrightarrow{x})\notin {K}^{* },\end{array}\right.\end{eqnarray}\begin{eqnarray}L(\gamma,d)=\left\{\begin{array}{ll}0, & \text{falls}\,\gamma =(\mu,{\sigma }^{2})\\ & \text{mit}\,\mu ={\mu }_{0},\,d={d}_{2}\\ & \text{order}\,\mu \ne {\mu }_{0},\,d={d}_{1},\\ 1, & \text{falls}\,\gamma =(\mu,{\sigma }^{2})\\ & \text{mit}\,\mu ={\mu }_{0},\,d={d}_{1}\\ & \text{order}\,\mu \ne {\mu }_{0},\,d={d}_{2},\end{array}\right.\end{eqnarray}< ?PageNum _61\begin{eqnarray}R(\gamma,\delta )=\left\{\begin{array}{ll}{Q}_{\gamma }(\overrightarrow{x}|T(\overrightarrow{x})\in {K}^{* }) & \text{falls}\,\gamma =(\mu,{\sigma }^{2})\\ & \text{mit}\,\mu ={\mu }_{0},\\ {Q}_{\gamma }(\overrightarrow{x}|T(\overrightarrow{x})\notin {K}^{* }) & \text{falls}\,\gamma =(\mu,{\sigma }^{2})\\ & \text{mit}\,\mu \ne {\mu }_{0}.\end{array}\right.\end{eqnarray}R ist für μ = μ0 also gerade gleich der Irrtumswahrscheinlichkeit erster Art des Signifikanztests und andernfalls gleich der Irrtumswahrscheinlichkeit zweiter Art.

In der statistischen Entscheidungstheorie versucht man in gewissen wohldefinierten Sinne optimale Entscheidungsfunktionen zu konstruieren. Die Güte von Entscheidungsfunktionen wird dabei nach folgenden Gesichtspunkten beurteilt:

1. δ1 heißt gleichmäßig besser bzw. nicht schlechter als δ2, falls gilt: \begin{eqnarray}R(\gamma,{\delta }_{1})\lt (\le )\,\,R(\gamma,{\delta }_{2})\,\,\mathrm f\ddot{\mathrm u}\mathrm r\,\mathrm {alle}\,\,\gamma \in {\rm{\Gamma }}.\end{eqnarray}

2. Sei D1 eine Teilmenge der Menge D aller Entscheidungsfunktionen, für die das Risiko R existiert, D1D. δ0D1 heißt in D1 zulässige Entscheidungsfunktion, falls es in D1 keine gleichmäßig bessere Entscheidungsfunktion als δ0 gibt.

Häufig ist es nicht möglich, Entscheidungsfunktionen zu finden, die in ganz D zulässig sind. Durch Einschränkungen von D auf eine Teilmenge D1 findet man dann zulässige Funktionen. Solche Einschränkungen stellen beispielsweise die Forderung der Erwartungstreue einer Punktschätzung oder die Forderung gewisser Symmetrie- oder Invarianzeigenschaften eines Tests dar. Andere Methoden zur Beurteilung der Güte von Entscheidungsfunktionen, die die Forderung der gleichmäßigen Optimalität in Γ abschwächen, bilden die Grundlage der Minimax- und der Bayesschen Entscheidungsstrategie:

3. δ0 heißt Minimax-Entscheidungsfunktion, wenn gilt: \begin{eqnarray}\mathop{\sup }\limits_{\gamma \in {\rm{\Gamma }}}R(\gamma,{\delta }_{0})=\mathop{\inf }\limits_{\delta \in D}\,\mathop{\sup }\limits_{\gamma \in {\rm{\Gamma }}}R(\gamma,\delta ).\end{eqnarray}

Eine Minimax-Entscheidungsfunktion minimiert das Risiko nicht für alle, wohl aber für die ungünstigste Verteilung Pγ.

4. Bei der Bayesschen Entscheidungsfunktion geht man davon aus, daß Γ Grundmenge eines meßbaren Raums ist, und definiert über diesem eine Verteilungsfunktion τ, die sogenannte a priori-Verteilung. Diese stellt praktische eine Vorinformation darüber dar, mit welcher Wahrscheinlichkeit das unbekannte γ gleich einem der Werte aus Γ ist. Dann definiert man durch \begin{eqnarray}r(\tau,\delta )=\displaystyle \mathop{\int }\limits_{{\rm{\Gamma }}}R(\gamma,\delta )\tau (d\gamma )\end{eqnarray} das sogenannte Bayessche Risiko einer Entscheidungsfunktion δD bzgl. der a-priori-Verteilung τ. δ0 heißt Bayessche Entscheidungsfunktion bzgl. τ, wenn gilt: \begin{eqnarray}r(\tau,{\delta }_{0})=\mathop{\inf }\limits_{\delta \in D}r(\tau,\delta ).\end{eqnarray}

Literatur

[1] Ferguson, T.S.: Mathematical statistics – a decision theoretic approach. New York-London, 1967.

Lesermeinung

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

  • Die Autoren
- Prof. Dr. Guido Walz

Partnervideos