Satz von Cochran

In der Statistik wird der Satz von Cochran in der Varianzanalyse verwendet. Der Satz geht auf den schottischen Mathematiker William Gemmell Cochran zurück.

Man nimmt an U 1 , U n , {\displaystyle U_{1},\dots U_{n},} seien stochastisch unabhängige standardnormalverteilte Zufallsvariablen, und es gilt

i = 1 n U i 2 = Q 1 + + Q k , {\displaystyle \sum _{i=1}^{n}U_{i}^{2}=Q_{1}+\cdots +Q_{k},}

wobei jedes Q i {\displaystyle Q_{i}} die Summe der Quadrate von Linearkombinationen der U {\displaystyle U} s darstellt. Ferner nimmt man an, dass

r 1 + + r k = n , {\displaystyle r_{1}+\cdots +r_{k}=n,}

wobei r i {\displaystyle r_{i}} der Rang von Q i {\displaystyle Q_{i}} ist. Der Satz von Cochran besagt, dass die Q i {\displaystyle Q_{i}} unabhängig sind mit einer Chi-Quadrat-Verteilung mit r i {\displaystyle r_{i}} Freiheitsgraden.

Der Satz von Cochran ist die Umkehrung des Satzes von Fisher.

Beispiel

Falls X 1 , X n , {\displaystyle X_{1},\dots X_{n},} unabhängige normalverteilte Zufallsvariablen mit Erwartungswert μ {\displaystyle \mu } und Standardabweichung σ {\displaystyle \sigma } sind, dann gilt

U i = ( X i μ ) / σ {\displaystyle U_{i}=(X_{i}-\mu )/\sigma \;}

ist standardnormalverteilt für jedes i {\displaystyle i} .

Jetzt kann man folgendes schreiben

i = 1 n U i 2 = i = 1 n ( X i X ¯ σ ) 2 + n ( X ¯ μ σ ) 2 {\displaystyle \sum _{i=1}^{n}U_{i}^{2}=\sum \limits _{i=1}^{n}\left({\frac {X_{i}-{\overline {X}}}{\sigma }}\right)^{2}+n\left({\frac {{\overline {X}}-\mu }{\sigma }}\right)^{2}}

Damit man diese Identität erkennt, muss man auf beiden Seiten mit σ {\displaystyle \sigma } multiplizieren und beachten, dass gilt

i = 1 n ( X i μ ) 2 = i = 1 n ( X i X ¯ + X ¯ μ ) 2 {\displaystyle \sum _{i=1}^{n}(X_{i}-\mu )^{2}=\sum _{i=1}^{n}(X_{i}-{\overline {X}}+{\overline {X}}-\mu )^{2}}

und erweitert, um zu zeigen

i = 1 n ( X i X ¯ ) 2 + i = 1 n ( X ¯ μ ) 2 + 2 i = 1 n ( X i X ¯ ) ( X ¯ μ ) . {\displaystyle \sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}+\sum _{i=1}^{n}({\overline {X}}-\mu )^{2}+2\sum _{i=1}^{n}(X_{i}-{\overline {X}})({\overline {X}}-\mu ).}

Der dritte Term ist null, weil der Faktor

i = 1 n ( X ¯ X i ) = 0 {\displaystyle \sum _{i=1}^{n}({\overline {X}}-X_{i})=0}

ist, und der zweite Term besteht nur aus n {\displaystyle n} identischen Termen, die zusammengefügt wurden.

Kombiniert man die obigen Ergebnisse und teilt anschließend durch σ 2 {\displaystyle \sigma ^{2}} , dann erhält man:

i = 1 n ( X i μ σ ) 2 = i = 1 n ( X i X ¯ σ ) 2 + n ( X ¯ μ σ ) 2 = Q 1 + Q 2 . {\displaystyle \sum _{i=1}^{n}\left({\frac {X_{i}-\mu }{\sigma }}\right)^{2}=\sum _{i=1}^{n}\left({\frac {X_{i}-{\overline {X}}}{\sigma }}\right)^{2}+n\left({\frac {{\overline {X}}-\mu }{\sigma }}\right)^{2}=Q_{1}+Q_{2}.}

Jetzt ist der Rang von Q 2 {\displaystyle Q_{2}} gerade gleich 1 (es ist das Quadrat von nur einer Linearkombination der standardnormalverteilten Zufallsvariablen). Der Rang von Q 1 {\displaystyle Q_{1}} ist gleich n 1 {\displaystyle n-1} , und daher sind die Bedingungen des Satzes von Cochran erfüllt.

Der Satz von Cochran besagt dann, dass Q 1 {\displaystyle Q_{1}} und Q 2 {\displaystyle Q_{2}} unabhängig sind, mit einer Chi-Quadrat-Verteilung mit n 1 {\displaystyle n-1} und 1 {\displaystyle 1} Freiheitsgrad.

Dies zeigt, dass der Mittelwert und die Varianz unabhängig sind; Ferner gilt

( X ¯ μ ) 2 σ 2 n χ 1 2 . {\displaystyle ({\overline {X}}-\mu )^{2}\sim {\frac {\sigma ^{2}}{n}}\chi _{1}^{2}.}

Um die unbekannte Varianz der Grundgesamtheit σ 2 {\displaystyle \sigma ^{2}} zu schätzen, wird ein häufig verwendeter Schätzer benutzt

σ ^ 2 = 1 n i = 1 n ( X i X ¯ ) 2 . {\displaystyle {\hat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\right)^{2}.}

Der Satz von Cochran zeigt, dass

σ ^ 2 σ 2 n χ n 1 2 , {\displaystyle {\hat {\sigma }}^{2}\sim {\frac {\sigma ^{2}}{n}}\chi _{n-1}^{2},}

was zeigt, dass der Erwartungswert von σ ^ 2 {\displaystyle {\hat {\sigma }}^{2}} gleich σ 2 n 1 n {\displaystyle \sigma ^{2}{\frac {n-1}{n}}} ist.

Beide Verteilungen sind proportional zur wahren aber unbekannten Varianz σ 2 {\displaystyle \sigma ^{2}} Daher ist ihr Verhältnis unabhängig von σ 2 {\displaystyle \sigma ^{2}} , und weil sie unabhängig sind, erhält man

( X ¯ μ ) 2 1 n i = 1 n ( X i X ¯ ) 2 F 1 , n {\displaystyle {\frac {\left({\overline {X}}-\mu \right)^{2}}{{\frac {1}{n}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\right)^{2}}}\sim F_{1,n}} ,

wobei F 1 , n {\displaystyle F_{1,n}} die F-Verteilung mit 1 {\displaystyle 1} und n {\displaystyle n} Freiheitsgraden darstellt (siehe auch Studentsche t-Verteilung).

Literatur

  • Cochran, W. G.: The distribution of quadratic forms in a normal system, with applications to the analysis of covariance. Mathematical Proceedings of the Cambridge Philosophical Society 30 (2): 178–191, 1934.
  • Bapat, R. B.: Linear Algebra and Linear Models. Zweite Auflage (1990). Springer. ISBN 978-0-387-98871-9