Direkt zum Inhalt

Lexikon der Mathematik: Testtheorie

Teildisziplin der mathematischen Statistik.

Die Testtheorie umfaßt statistische Verfahren, welche es gestatten, Annahmen (Hypothesen) über die vollständig oder teilweise unbekannte Wahrscheinlichkeitsverteilung einer zufälligen Variablen aufgrund einer Stichprobe derselben zu überprüfen. Allgemein lassen sich diese Verfahren wie folgt beschreiben.

Sei X eine Zufallsgröße mit der Wahrscheinlichkeitsverteilung \({P}_{{\gamma}^{*}}\). γ ist unbekannt, d. h., \({P}_{{\gamma}^{*}}\) ist bis auf γ vollständig bestimmt. Es sei bekannt, daß γ ∈ Γ gilt. Unter einer statistischen Hypothese versteht man die Annahme: \begin{eqnarray}{\gamma}^{*}\in {\Gamma}_{0},{\Gamma}_{0}\subset \Gamma, \end{eqnarray}

wobei Γ0 eine vorgegebene bekannte Teilmenge von Γ ist. Die zu überprüfende Hypothese γ ∈ Γ0 bezeichnet man als Nullhypothese (H0), die Hypothese H1 : γ ∈ Γ1 ⊆ Γ\Γ0 als Alternativhypothese; man schreibt: \begin{eqnarray}{H}_{0}:{\gamma}^{*}\in {\Gamma}_{0}\,\text{gegen}\,{H}_{1}:{\gamma}^{*}\in {\Gamma}_{1}\end{eqnarray}

Ist Γ0 einelementig, so nennt man H0 einfach, andernfalls heißt H0 zusammengesetzt. Es gibt auch Testverfahren, bei denen die Alternativhypothese nicht das Komplement der Nullhypothese darstellt, sondern bei denen gilt: Γ1 ⊂ Γ\Γ0, speziell kann auch H1 einfach sein.

Der Sinn eines statistischen Hypothesentests besteht darin, aufgrund einer Stichprobe von X eine Entscheidung über die Annahme oder Ablehnung von H0 herbeizuführen. Der Test läßt sich mathematisch durch eine Stichprobenfunktion S, die jeder konkreten Stichprobe x = (x1,…,xn) vom Umfang n eine Zahl S(x) ∈ [0, 1] zuordnet, beschreiben. In Abhängigkeit von S(x) wird eine Entscheidung über Annahme oder Ablehnung von H0 getroffen. Man unterscheidet zwei Fälle:

1) Nichtrandomisierter Test: S(x) nimmt nur die Werte 0 und 1 an, es ist \begin{eqnarray}S(x)=\left\{\begin{array}{cc}1 & \mathrm f\ddot{\mathrm u}\mathrm r\ x\in B,\\ 0 & \mathrm f\ddot{\mathrm u}\mathrm r\ x\notin B.\end{array}\right.\end{eqnarray}

Dabei ist B als Teilmenge des statistischen Grundraums aufzufassen, B heißt kritischer Bereich des Tests. Für S(x) = 1, d. h. xB, wird H0 abgelehnt (H1 angenommen), andernfalls wird H0 angenommen (H1 abgelehnt).

2) Randomisierter Test: S(x) nimmt nicht nur die Werte 0 und 1 an, sondern auch Zwischenwerte, es ist \begin{eqnarray}0\le S(x)\le 1.\end{eqnarray}

Bei diesem Testverfahren wird zunächst S(x) berechnet und anschließend die Entscheidung mit Hilfe eines zusätzlichen Zufallsexperimentes getroffen, bei welchem ein Ereignis A mit Wahrscheinlichkeit S(x) eintreten kann. Wird A beobachtet, so wird H0 abgelehnt, andernfalls angenommen.

Die gebräuchlicheren Tests sind nichtrandomisierte Tests. Zur praktischen Durchführung dieser Tests wird B ⊆ ℝ1 in der Regel mittels einer meß-baren Abbildung T, der sogenannten Teststatistik, in einen kritischen Bereich K überführt: \begin{eqnarray}\begin{array}{lll}x\in B & \leftrightarrow & T(x)\in K\\ x\notin B & \leftrightarrow & T(x)\notin K\end{array}\end{eqnarray}

In der Regel ist K = [ϵ, ∞), sodaß die Entscheidungsregel wie folgt lautet: \begin{eqnarray}\begin{array}{lll}T(x)\ge \varepsilon & \to & \text{Entscheidung gegen}\,{H}_{0}\\ T(x)\lt \varepsilon & \to & \text{Entscheidung für}\,{H}_{0}\end{array}\end{eqnarray}

ϵ heißt kritischer Wert. T(x) kann kann auch als Maß für die Abweichung der wahren Verteilung von der Nullhypothese H0 aufgefaßt werden.

Bei einem statistischen Hypothesentest geht man wie folgt vor:

  1. Aufstellung der Hypothesen
  2. Berechnung der Teststatistiken T(x) zum Prüfen der Hypothesen
  3. Berechnung des kritischen Wertes ϵ
  4. Entscheidung.

Gütekriterien für Hypothesentests: Bei der Durchführung eines Hypothesentests sind zwei Fehlentscheidungen möglich: Der Fehler 1. Art, der darin besteht, H0 abzulehnen, obwohl H0 richtig ist, und der Fehler 2. Art, der darin besteht, H0 anzunehmen, obwohl H0 falsch ist. Da die Entscheidung für oder gegen H0 auf einer Stichprobe beruht, ist sie zufällig; damit sind auch der Fehler 1. und 2. Art zufällig; in der Testtheorie betrachtet man deshalb ihre Wahrscheinlichkeiten. Sie lassen sich mit Hilfe der sogenannten Gütefunktion des Tests \begin{eqnarray}{g}_{S}(\gamma)=P(\text{Entscheidung gegen}\,{H}_{0}/{\gamma}^{*}=\gamma)\end{eqnarray}

für γ ∈ Γ ausdrücken. Die Wahrscheinlichkeit des Fehlers 1. Art ergibt sich als \begin{eqnarray}{g}_{S}(\gamma)\,\mathrm f\ddot{\mathrm u}\mathrm r\,\gamma \in {\Gamma}_{\text{0}},\end{eqnarray}

und die des Fehlers 2. Art als \begin{eqnarray}{L}_{S}(\gamma)=1-{g}_{S}(\gamma)\,\mathrm f\ddot{\mathrm u}\mathrm r\,\gamma \in {\Gamma}_{1}.\end{eqnarray}

gS(γ) wird für γ ∈ Γ1 auch als Machtfunktion des Tests, und die Funktion LS(γ) = 1 − gS(γ), γ ∈ Γ, die die Annahmewahrscheinlichkeit von H0 unter der Bedingung γ = γ angibt, als Operationscharakteristik (OC-Kurve) des Tests bezeichnet.

Ein Test, für den die Fehlerwahrscheinlichkeit 1. Art eine vorgegebene Schranke α, 0 ≤ α ≤ 1 nicht überschreitet, heißt α-Test. α heißt Signifikanzniveau (Signifikanzlevel) des Tests. Ein α-Test heißt unverfälscht (unbiased), wenn gilt: \begin{eqnarray}{g}_{S}(\gamma)\le \alpha\,\mathrm f\ddot{\mathrm u}\mathrm r\,\text {alle}\,\gamma \in {\Gamma}_{\text{1}}\end{eqnarray}

Bei einem unverfälschten Test ist also die Wahrscheinlichkeit, H0 abzulehnen, wenn H0 nicht vorliegt, mindestens so groß wie die Wahrscheinlichkeit, H0 abzulehnen, wenn H0 vorliegt.

Sind S1 und S2 zwei α-Tests zum Prüfen von H0 gegen H1, so heißt S1 gleichmäßig besser als S2, falls seine Fehlerwahrscheinlichkeit 2. Art kleiner ist, d. h., falls gilt: \begin{eqnarray}{L}_{{S}_{2}}(\gamma)\le {L}_{{S}_{1}}(\gamma)\,\mathrm f\ddot{\mathrm u}\mathrm r\,\text {alle}\,\gamma \in {\Gamma}_{1}\end{eqnarray}

Ein Test S, der unter allen α-Tests den Fehler 2. Art gleichmäßig minimiert, d. h., für den gilt \begin{eqnarray}{L}_{S}(\gamma)=\mathop{\inf}\limits_{\{\bar{S}/\bar{S}\,\text{ist}\,\alpha -\text{Test}\}}{L}_{\bar{S}}(\gamma)\,\,\mathrm f\ddot{\mathrm u}\mathrm r\,\text {alle}\,\,\gamma \in {\Gamma}_{\text{1}},\end{eqnarray}

heißt gleichmäßig bester α-Test. Wird der Fehler 2. Art nur an einer einzigen Stelle γ1 ∈ Γ1 minimiert, gilt also lediglich \begin{eqnarray}{L}_{S}({\gamma}_{1})=\mathop{\inf}\limits_{\{\bar{S}/\bar{S}\,\text{ist}\,\alpha -\text{Test}\}}{L}_{\bar{S}}({\gamma}_{1}),\end{eqnarray}

so spricht man von einem besten α-Test zum Prüfen von H0 gegen H1 : γ = γ1.

Man versucht, einen Test so zu konstruieren, daß beide Fehlerwahrscheinlichkeiten möglichst klein sind. Da sich nicht beide Fehlerwahrscheinlichkeiten unabhängig voneinander gleichzeitig minimieren lassen, geht man häufig so vor, daß man einen besten bzw. einen gleichmäßig besten α-Test sucht. Eine Methode zur Konstruktion bester α-Tests wurde von J. Neyman und E.S. Pearson um 1930 entwickelt; diese Tests werden aufgrund ihrer Konstruktionsmethode als Likelihood-Quotiententests bezeichnet. Wird lediglich α vorgegeben und auf eine direkte Berücksichtigung des Fehlers 2. Art und der Alternativhypothese H1 verzichtet, so spricht man von Signifikanztests.

Erwartungsgemäß zeigt es sich, daß die Fehlerwahrscheinlichkeiten vom Stichprobenumfang n abhängen; mit wachsendem Stichprobenumfang n sollte eine Verkleinerung der Fehlerwahrscheinlichkeiten erreicht werden. In der Testtheorie werden eine Reihe von Eigenschaften eines Tests auch über den Stichprobenumfang definiert, wie zum Beispiel die Konsistenz und die asymptotische Wirksamkeit eines Tests (vgl. [1]).

Sei (Sn)n∈ℕ eine Folge von Tests zur Prüfung von H0 : γ ∈ Γ0 gegen H1 : γ ∈ Γ1. Dabei sei (Sn) auf dem zur mathematischen Stichprobe von Umfang n gehörenden Stichprobenraum [ℝn, \({\mathcal{B}}\)n] definiert. (Sn)n∈ℕ heißt konsistent für ein festes \(\tilde{\gamma}\in {\Gamma}_{1}\), falls die Ablehnewahrscheinlichkeit für eine falsche Hypothese für n → ∞ gegen 1 strebt, d. h., falls gilt: \begin{eqnarray}\mathop{\mathrm{lim}}\limits_{n\to \infty}{g}_{{S}_{n}}(\tilde{\gamma})=1.\end{eqnarray}

Ist \({({S}_{n}^{*})}_{n\in {\mathbb{N}}}\) eine zweite Folge von α-Tests zur Prüfung der gleichen Hypothese H0 gegen H1, so heißt \begin{eqnarray}e(n,\tilde{\gamma})=\frac{n}{n^* (n,\tilde{\gamma})}\end{eqnarray}

mit \begin{eqnarray}n^* (n,\bar{\gamma})=\min \{\tilde{n}|{g}_{{S}_{\bar{n}}^{*}}(\bar{\gamma})\ge {g}_{{S}_{n}}(\tilde{\gamma})\}\end{eqnarray}

die relative Effizienz (relative Wirksamkeit) von (Sn)n∈ℕ bzgl. \({({S}_{n}^{*})}_{n\in {\mathbb{N}}}\) für \(\tilde{\gamma}\in {\Gamma}_{1}\) zum Stichprobenumfang n. Der Grenzwert \({\mathrm{lim}}_{n\to \infty}e(n,\tilde{\gamma})\) wird als asymptotische Effizienz bzw. asymptotische Wirksamkeit bezeichnet.

[1] Witting H.; Nölle, G.: Angewandte Mathematische Statistik. B.G.Teubner Verlagsgesellschaft Stuttgart, 1970.

Lesermeinung

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

  • Die Autoren
- Prof. Dr. Guido Walz

Partnervideos