Testtheorie

Lexikon der Mathematik: Testtheorie

Teildisziplin der mathematischen Statistik.

Die Testtheorie umfaßt statistische Verfahren, welche es gestatten, Annahmen (Hypothesen) über die vollständig oder teilweise unbekannte Wahrscheinlichkeitsverteilung einer zufälligen Variablen aufgrund einer Stichprobe derselben zu überprüfen. Allgemein lassen sich diese Verfahren wie folgt beschreiben.

Sei X eine Zufallsgröße mit der Wahrscheinlichkeitsverteilung \({P}_{{\gamma}^{*}}\). γ^∗ ist unbekannt, d. h., \({P}_{{\gamma}^{*}}\) ist bis auf γ^∗ vollständig bestimmt. Es sei bekannt, daß γ^∗ ∈ Γ gilt. Unter einer statistischen Hypothese versteht man die Annahme: \begin{eqnarray}{\gamma}^{*}\in {\Gamma}_{0},{\Gamma}_{0}\subset \Gamma, \end{eqnarray}

wobei Γ₀ eine vorgegebene bekannte Teilmenge von Γ ist. Die zu überprüfende Hypothese γ^∗ ∈ Γ₀ bezeichnet man als Nullhypothese (H₀), die Hypothese H₁ : γ^∗ ∈ Γ₁ ⊆ Γ\Γ₀ als Alternativhypothese; man schreibt: \begin{eqnarray}{H}_{0}:{\gamma}^{*}\in {\Gamma}_{0}\,\text{gegen}\,{H}_{1}:{\gamma}^{*}\in {\Gamma}_{1}\end{eqnarray}

Ist Γ₀ einelementig, so nennt man H₀ einfach, andernfalls heißt H₀ zusammengesetzt. Es gibt auch Testverfahren, bei denen die Alternativhypothese nicht das Komplement der Nullhypothese darstellt, sondern bei denen gilt: Γ₁ ⊂ Γ\Γ₀, speziell kann auch H₁ einfach sein.

Der Sinn eines statistischen Hypothesentests besteht darin, aufgrund einer Stichprobe von X eine Entscheidung über die Annahme oder Ablehnung von H₀ herbeizuführen. Der Test läßt sich mathematisch durch eine Stichprobenfunktion S, die jeder konkreten Stichprobe x = (x₁,…,x_n) vom Umfang n eine Zahl S(x) ∈ [0, 1] zuordnet, beschreiben. In Abhängigkeit von S(x) wird eine Entscheidung über Annahme oder Ablehnung von H₀ getroffen. Man unterscheidet zwei Fälle:

1) Nichtrandomisierter Test: S(x) nimmt nur die Werte 0 und 1 an, es ist \begin{eqnarray}S(x)=\left\{\begin{array}{cc}1 & \mathrm f\ddot{\mathrm u}\mathrm r\ x\in B,\\ 0 & \mathrm f\ddot{\mathrm u}\mathrm r\ x\notin B.\end{array}\right.\end{eqnarray}

Dabei ist B als Teilmenge des statistischen Grundraums aufzufassen, B heißt kritischer Bereich des Tests. Für S(x) = 1, d. h. x ∈ B, wird H₀ abgelehnt (H₁ angenommen), andernfalls wird H₀ angenommen (H₁ abgelehnt).

2) Randomisierter Test: S(x) nimmt nicht nur die Werte 0 und 1 an, sondern auch Zwischenwerte, es ist \begin{eqnarray}0\le S(x)\le 1.\end{eqnarray}

Bei diesem Testverfahren wird zunächst S(x) berechnet und anschließend die Entscheidung mit Hilfe eines zusätzlichen Zufallsexperimentes getroffen, bei welchem ein Ereignis A mit Wahrscheinlichkeit S(x) eintreten kann. Wird A beobachtet, so wird H₀ abgelehnt, andernfalls angenommen.

Die gebräuchlicheren Tests sind nichtrandomisierte Tests. Zur praktischen Durchführung dieser Tests wird B ⊆ ℝ¹ in der Regel mittels einer meß-baren Abbildung T, der sogenannten Teststatistik, in einen kritischen Bereich K überführt: \begin{eqnarray}\begin{array}{lll}x\in B & \leftrightarrow & T(x)\in K\\ x\notin B & \leftrightarrow & T(x)\notin K\end{array}\end{eqnarray}

In der Regel ist K = [ϵ, ∞), sodaß die Entscheidungsregel wie folgt lautet: \begin{eqnarray}\begin{array}{lll}T(x)\ge \varepsilon & \to & \text{Entscheidung gegen}\,{H}_{0}\\ T(x)\lt \varepsilon & \to & \text{Entscheidung für}\,{H}_{0}\end{array}\end{eqnarray}

ϵ heißt kritischer Wert. T(x) kann kann auch als Maß für die Abweichung der wahren Verteilung von der Nullhypothese H₀ aufgefaßt werden.

Bei einem statistischen Hypothesentest geht man wie folgt vor:

Aufstellung der Hypothesen
Berechnung der Teststatistiken T(x) zum Prüfen der Hypothesen
Berechnung des kritischen Wertes ϵ
Entscheidung.

Gütekriterien für Hypothesentests: Bei der Durchführung eines Hypothesentests sind zwei Fehlentscheidungen möglich: Der Fehler 1. Art, der darin besteht, H₀ abzulehnen, obwohl H₀ richtig ist, und der Fehler 2. Art, der darin besteht, H₀ anzunehmen, obwohl H₀ falsch ist. Da die Entscheidung für oder gegen H₀ auf einer Stichprobe beruht, ist sie zufällig; damit sind auch der Fehler 1. und 2. Art zufällig; in der Testtheorie betrachtet man deshalb ihre Wahrscheinlichkeiten. Sie lassen sich mit Hilfe der sogenannten Gütefunktion des Tests \begin{eqnarray}{g}_{S}(\gamma)=P(\text{Entscheidung gegen}\,{H}_{0}/{\gamma}^{*}=\gamma)\end{eqnarray}

für γ ∈ Γ ausdrücken. Die Wahrscheinlichkeit des Fehlers 1. Art ergibt sich als \begin{eqnarray}{g}_{S}(\gamma)\,\mathrm f\ddot{\mathrm u}\mathrm r\,\gamma \in {\Gamma}_{\text{0}},\end{eqnarray}

und die des Fehlers 2. Art als \begin{eqnarray}{L}_{S}(\gamma)=1-{g}_{S}(\gamma)\,\mathrm f\ddot{\mathrm u}\mathrm r\,\gamma \in {\Gamma}_{1}.\end{eqnarray}

g_S(γ) wird für γ ∈ Γ₁ auch als Machtfunktion des Tests, und die Funktion L_S(γ) = 1 − g_S(γ), γ ∈ Γ, die die Annahmewahrscheinlichkeit von H₀ unter der Bedingung γ^∗ = γ angibt, als Operationscharakteristik (OC-Kurve) des Tests bezeichnet.

Ein Test, für den die Fehlerwahrscheinlichkeit 1. Art eine vorgegebene Schranke α, 0 ≤ α ≤ 1 nicht überschreitet, heißt α-Test. α heißt Signifikanzniveau (Signifikanzlevel) des Tests. Ein α-Test heißt unverfälscht (unbiased), wenn gilt: \begin{eqnarray}{g}_{S}(\gamma)\le \alpha\,\mathrm f\ddot{\mathrm u}\mathrm r\,\text {alle}\,\gamma \in {\Gamma}_{\text{1}}\end{eqnarray}

Bei einem unverfälschten Test ist also die Wahrscheinlichkeit, H₀ abzulehnen, wenn H₀ nicht vorliegt, mindestens so groß wie die Wahrscheinlichkeit, H₀ abzulehnen, wenn H₀ vorliegt.

Sind S₁ und S₂ zwei α-Tests zum Prüfen von H₀ gegen H₁, so heißt S₁ gleichmäßig besser als S₂, falls seine Fehlerwahrscheinlichkeit 2. Art kleiner ist, d. h., falls gilt: \begin{eqnarray}{L}_{{S}_{2}}(\gamma)\le {L}_{{S}_{1}}(\gamma)\,\mathrm f\ddot{\mathrm u}\mathrm r\,\text {alle}\,\gamma \in {\Gamma}_{1}\end{eqnarray}

Ein Test S, der unter allen α-Tests den Fehler 2. Art gleichmäßig minimiert, d. h., für den gilt \begin{eqnarray}{L}_{S}(\gamma)=\mathop{\inf}\limits_{\{\bar{S}/\bar{S}\,\text{ist}\,\alpha -\text{Test}\}}{L}_{\bar{S}}(\gamma)\,\,\mathrm f\ddot{\mathrm u}\mathrm r\,\text {alle}\,\,\gamma \in {\Gamma}_{\text{1}},\end{eqnarray}

heißt gleichmäßig bester α-Test. Wird der Fehler 2. Art nur an einer einzigen Stelle γ₁ ∈ Γ₁ minimiert, gilt also lediglich \begin{eqnarray}{L}_{S}({\gamma}_{1})=\mathop{\inf}\limits_{\{\bar{S}/\bar{S}\,\text{ist}\,\alpha -\text{Test}\}}{L}_{\bar{S}}({\gamma}_{1}),\end{eqnarray}

so spricht man von einem besten α-Test zum Prüfen von H₀ gegen H₁ : γ = γ₁.

Man versucht, einen Test so zu konstruieren, daß beide Fehlerwahrscheinlichkeiten möglichst klein sind. Da sich nicht beide Fehlerwahrscheinlichkeiten unabhängig voneinander gleichzeitig minimieren lassen, geht man häufig so vor, daß man einen besten bzw. einen gleichmäßig besten α-Test sucht. Eine Methode zur Konstruktion bester α-Tests wurde von J. Neyman und E.S. Pearson um 1930 entwickelt; diese Tests werden aufgrund ihrer Konstruktionsmethode als Likelihood-Quotiententests bezeichnet. Wird lediglich α vorgegeben und auf eine direkte Berücksichtigung des Fehlers 2. Art und der Alternativhypothese H₁ verzichtet, so spricht man von Signifikanztests.

Erwartungsgemäß zeigt es sich, daß die Fehlerwahrscheinlichkeiten vom Stichprobenumfang n abhängen; mit wachsendem Stichprobenumfang n sollte eine Verkleinerung der Fehlerwahrscheinlichkeiten erreicht werden. In der Testtheorie werden eine Reihe von Eigenschaften eines Tests auch über den Stichprobenumfang definiert, wie zum Beispiel die Konsistenz und die asymptotische Wirksamkeit eines Tests (vgl. [1]).

Sei (S_n)_n_∈ℕ eine Folge von Tests zur Prüfung von H₀ : γ^∗ ∈ Γ₀ gegen H₁ : γ^∗ ∈ Γ₁. Dabei sei (S_n) auf dem zur mathematischen Stichprobe von Umfang n gehörenden Stichprobenraum [ℝⁿ, \({\mathcal{B}}\)ⁿ] definiert. (S_n)_n_∈ℕ heißt konsistent für ein festes \(\tilde{\gamma}\in {\Gamma}_{1}\), falls die Ablehnewahrscheinlichkeit für eine falsche Hypothese für n → ∞ gegen 1 strebt, d. h., falls gilt: \begin{eqnarray}\mathop{\mathrm{lim}}\limits_{n\to \infty}{g}_{{S}_{n}}(\tilde{\gamma})=1.\end{eqnarray}

Ist \({({S}_{n}^{*})}_{n\in {\mathbb{N}}}\) eine zweite Folge von α-Tests zur Prüfung der gleichen Hypothese H₀ gegen H₁, so heißt \begin{eqnarray}e(n,\tilde{\gamma})=\frac{n}{n^* (n,\tilde{\gamma})}\end{eqnarray}

mit \begin{eqnarray}n^* (n,\bar{\gamma})=\min \{\tilde{n}|{g}_{{S}_{\bar{n}}^{*}}(\bar{\gamma})\ge {g}_{{S}_{n}}(\tilde{\gamma})\}\end{eqnarray}

die relative Effizienz (relative Wirksamkeit) von (S_n)_n_∈ℕ bzgl. \({({S}_{n}^{*})}_{n\in {\mathbb{N}}}\) für \(\tilde{\gamma}\in {\Gamma}_{1}\) zum Stichprobenumfang n. Der Grenzwert \({\mathrm{lim}}_{n\to \infty}e(n,\tilde{\gamma})\) wird als asymptotische Effizienz bzw. asymptotische Wirksamkeit bezeichnet.

[1] Witting H.; Nölle, G.: Angewandte Mathematische Statistik. B.G.Teubner Verlagsgesellschaft Stuttgart, 1970.

Lexikon der Mathematik: Testtheorie

Schreiben Sie uns!

Artikel zum Thema

Die fabelhafte Welt der Mathematik : Die irrationalste aller Zahlen

»Die Welt als Zahl« : Ob Navi oder Organtransplantation: die Präsenz der Mathematik

Verhaltensökonomie : Psychologe und Nobelpreisträger Daniel Kahneman ist gestorben

Freistetters Formelwelt : Von der Banane zum Kosmos

Die neue Generation von Computern

Quantenphysik

Das Digital-Manifest

SponsoredPartnerinhalte