Suffiziente σ-Algebra

Eine suffiziente σ-Algebra ist ein spezielles Mengensystem in der mathematischen Statistik, das verwendet wird, um die Kompression von Daten ohne Informationsverlust mittels suffizienter Statistiken zu formalisieren.

Definition

Gegeben sei ein statistisches Modell ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},{\mathcal {P}})} sowie eine Teil-σ-Algebra S A {\displaystyle {\mathcal {S}}\subset {\mathcal {A}}} . Sei E P ( | S ) {\displaystyle \operatorname {E} _{P}(\cdot |{\mathcal {S}})} der bedingte Erwartungswert gegeben S {\displaystyle {\mathcal {S}}} unter Verwendung des Wahrscheinlichkeitsmaßes P {\displaystyle P} . Die σ-Algebra S {\displaystyle {\mathcal {S}}} heißt dann suffizient für P {\displaystyle {\mathcal {P}}} , wenn für jedes A A {\displaystyle A\in {\mathcal {A}}} eine S {\displaystyle {\mathcal {S}}} -messbare Funktion f A {\displaystyle f_{A}} existiert, so dass

f A = E P ( 1 A | S )  für alle  P P {\displaystyle f_{A}=\operatorname {E} _{P}(\mathbf {1} _{A}|{\mathcal {S}}){\text{ für alle }}P\in {\mathcal {P}}} .

Bemerkungen

Ein Defizit des Suffizienzbegriffes ist, dass wenn S 1 , S 2 {\displaystyle {\mathcal {S}}_{1},{\mathcal {S}}_{2}} σ-Algebren sind mit S 1 S 2 {\displaystyle {\mathcal {S}}_{1}\subset {\mathcal {S}}_{2}} und S 1 {\displaystyle {\mathcal {S}}_{1}} suffizient ist (bezüglich einer vorgegebenen Verteilungsklasse), dann folgt im Allgemeinen nicht, dass auch S 2 {\displaystyle {\mathcal {S}}_{2}} suffizient ist. Das würde man aber intuitiv erwarten, denn wenn schon die kleinere σ-Algebra ausreichend ist, um eine verlustfreie Datenkompression zu ermöglichen, dann sollte dies ebenso für die größere gelten, da sie ja die kleinere enthält, in der alle Informationen von Belang schon vorhanden sind. Zu beachten ist hier, dass die Datenkompression hier dem Weglassen der Mengen aus der größeren σ-Algebra entspricht.

Formell lässt sich dieses Defizit wie folgt einsehen: ist S 1 {\displaystyle {\mathcal {S}}_{1}} suffizient, so gilt laut Definition des bedingten Erwartungswertes

S f A d P = P ( A S ) {\displaystyle \int _{S}f_{A}\,\mathrm {d} P=P(A\cap S)}

für alle S S 1 {\displaystyle S\in {\mathcal {S}}_{1}} , aber eben nicht notwendigerweise für alle S S 2 {\displaystyle S\in {\mathcal {S}}_{2}} .

Erläuterung

Klar wird die Bedeutung des Begriffes, wenn man die Wahrscheinlichkeitsmaße aus P {\displaystyle {\mathcal {P}}} auf S {\displaystyle {\mathcal {S}}} einschränkt. Dann gilt

P ( A ) = P ( A | S ) d P | S = f A d P | S {\displaystyle P(A)=\int P(A|{\mathcal {S}})\mathrm {d} P|_{\mathcal {S}}=\int f_{A}\mathrm {d} P|_{\mathcal {S}}} .

Da aber f A {\displaystyle f_{A}} nicht von P P {\displaystyle P\in {\mathcal {P}}} abhängt, können sich die Wahrscheinlichkeitsmaße nur dann unterscheiden, wenn schon deren Einschränkungen auf S {\displaystyle {\mathcal {S}}} verschieden sind. Damit sind alle möglichen Informationen, welche die Wahrscheinlichkeitsmaße aus P {\displaystyle {\mathcal {P}}} liefern können, bereits in S {\displaystyle {\mathcal {S}}} enthalten.

Stabilität bezüglich Operationen

  • Ist S S A {\displaystyle {\mathcal {S}}^{*}\subset {\mathcal {S}}\subset {\mathcal {A}}} und ist S {\displaystyle {\mathcal {S}}} suffizient für P {\displaystyle {\mathcal {P}}} , so ist S {\displaystyle {\mathcal {S}}^{*}} genau dann suffizient für ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},{\mathcal {P}})} , wenn S {\displaystyle {\mathcal {S}}^{*}} suffizient ist für ( Ω , S , P | S ) {\displaystyle (\Omega ,{\mathcal {S}},{\mathcal {P}}|_{\mathcal {S}})} .
  • Sei N P {\displaystyle {\mathcal {N}}_{\mathcal {P}}} die Mengen aller P {\displaystyle {\mathcal {P}}} -Nullmengen. Sind S 1 {\displaystyle {\mathcal {S}}_{1}} und S 2 {\displaystyle {\mathcal {S}}_{2}} suffizient und ist N P S 1 {\displaystyle {\mathcal {N}}_{\mathcal {P}}\subset {\mathcal {S}}_{1}} , so ist auch S 1 S 2 {\displaystyle {\mathcal {S}}_{1}\cap {\mathcal {S}}_{2}} suffizient.
  • Ist S {\displaystyle {\mathcal {S}}} suffizient und ist E {\displaystyle {\mathcal {E}}} eine abzählbar erzeugte σ-Algebra, so ist auch σ ( S , E ) {\displaystyle \sigma ({\mathcal {S}},{\mathcal {E}})} suffizient. Daraus folgt direkt, dass abzählbar erzeugte Ober-σ-Algebren von suffizienten σ-Algebren wieder suffizient sind.

Suffizienz und dominierte Verteilungsklassen

Mittels des Satzes von Halmos-Savage lassen sich für dominierte Verteilungsklassen P {\displaystyle {\mathcal {P}}} einige stärkere Aussagen zeigen:

  • Sei S {\displaystyle {\mathcal {S}}} suffizient und S A {\displaystyle {\mathcal {S}}\subset {\mathcal {A}}} . Dann ist jede σ-Algebra S {\displaystyle {\mathcal {S}}^{*}} mit
S S A {\displaystyle {\mathcal {S}}\subset {\mathcal {S}}^{*}\subset {\mathcal {A}}}
ebenfalls suffizient.
  • S {\displaystyle {\mathcal {S}}} ist genau dann suffizient bezüglich P {\displaystyle {\mathcal {P}}} , wenn S {\displaystyle {\mathcal {S}}} suffizient bezüglich P := { P i , P j } {\displaystyle {\mathcal {P}}^{*}:=\{P_{i},P_{j}\}} ist für alle P i , P j P {\displaystyle P_{i},P_{j}\in {\mathcal {P}}} .
  • Sind für i = 1 , 2 {\displaystyle i=1,2} die Verteilungsklassen P i {\displaystyle {\mathcal {P}}_{i}} auf ( Ω i , A i ) {\displaystyle (\Omega _{i},{\mathcal {A}}_{i})} dominiert und ist S i A i {\displaystyle {\mathcal {S}}_{i}\subset {\mathcal {A}}_{i}} suffizient, so ist auch S 1 S 2 {\displaystyle {\mathcal {S}}_{1}\otimes {\mathcal {S}}_{2}} suffizient bezüglich P 1 P 2 {\displaystyle {\mathcal {P}}_{1}\otimes {\mathcal {P}}_{2}} .

Eine weitere Möglichkeit zur Überprüfung der Suffizienz einer σ-Algebra bei Vorliegen einer dominierten Verteilungsklasse ist das Neyman-Kriterium.

Verwandte Begriffe

Der bekannteste Begriff, der sich aus der Suffizienz einer σ-Algebra ableiten lässt, ist die suffiziente Statistik. Eine Statistik T {\displaystyle T} heißt suffizient, wenn die von ihr erzeugte σ-Algebra σ ( T ) {\displaystyle \sigma (T)} suffizient ist.

Eine Abwandlung des hier behandelten Suffizienzbegriffes ist die starke Suffizienz, die mittels Markow-Kernen definiert wird. Auf borelschen Räumen stimmen die beiden Begriffe überein. Eine Verstärkung der Suffizienz ist die Minimalsuffizienz: eine σ-Algebra ist minimalsuffizient, wenn sie bis auf P {\displaystyle {\mathcal {P}}} -Nullmengen in jeder weiteren suffizienten σ-Algebra enthalten ist. Demnach ist eine minimalsuffiziente σ-Algebra die maximal mögliche Datenreduktion.

Ein ebenfalls verwandter, aber gegenläufiger Begriff ist der einer vollständigen Verteilungsklasse. Dies ist eine Verteilungsklasse P {\displaystyle {\mathcal {P}}} , so dass auf L ( Ω , S , P ) {\displaystyle {\mathcal {L}}(\Omega ,{\mathcal {S}},{\mathcal {P}})} alle Funktionen unterschieden werden können.

Gegenteil des Suffizienzbegriffs ist die Verteilungsfreiheit. Sie formalisiert, dass eine σ-Algebra keine Informationen trägt bzw. dass eine Statistik keine Informationen überträgt.

Eine Verbindung von Suffizienz, Vollständigkeit und Verteilungsfreiheit schlagen die drei Sätze von Basu.

Literatur

  • Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, doi:10.1007/978-3-642-41997-3.