条件付き独立

条件付き独立(じょうけんつきどくりつ、英語: conditional independence)は、確率論において、ある仮説の確からしさを評価するときに、ある観測が無関係または冗長である場合をいう。

条件付き独立は通常、条件付き確率の観点から定式化される。情報のない観測が与えられた場合の仮説の確率が、情報のない場合の確率と等しいという特殊な場合である。仮説 A {\displaystyle A} 、観測 B {\displaystyle B} 、観測 C {\displaystyle C} を用いて、条件付き独立性は P ( A B , C ) = P ( A C ) {\displaystyle P(A\mid B,\,C)=P(A\mid C)} として表現できる。ここで、 P ( A B , C ) {\displaystyle P(A\mid B,\,C)} は観測 B {\displaystyle B} と観測 C {\displaystyle C} が与えられた下での仮説 A {\displaystyle A} の確率である。観測 C {\displaystyle C} の下で、観測 B {\displaystyle B} は仮説 A {\displaystyle A} の確からしさについて何ら貢献しない。このとき、 C {\displaystyle C} の下で A {\displaystyle A} B {\displaystyle B} 条件付き独立であると表現し、 A B C {\displaystyle A\perp \!\!\!\perp B\mid C} と表記する。条件付き独立性の概念は、統計的推論のグラフベースの理論に不可欠である。

事象の条件付き独立

事象 C {\displaystyle C} の下で事象 A {\displaystyle A} と事象 B {\displaystyle B} 条件付き独立であるとは、 P ( C ) > 0 {\displaystyle P(C)>0} に加えて次式が成立することと同値である。

P ( A B , C ) = P ( A C ) {\displaystyle P(A\mid B,\,C)=P(A\mid C)}

これは、しばしば次のように表現される。

A B C {\displaystyle A\perp \!\!\!\perp B\mid C}

条件付き独立は次のように表すこともできる。

P ( A , B C ) = P ( A C ) P ( B C ) {\displaystyle P(A,\,B\mid C)=P(A\mid C)\,P(B\mid C)}

ここで、 P ( A , B C ) {\displaystyle P(A,\,B\mid C)} は事象 C {\displaystyle C} の下で事象 A {\displaystyle A} と事象 B {\displaystyle B} がともに成立する確率である。

定義の同値性の証明

条件付き確率の定義から、

P ( A , B C ) = P ( A C ) P ( B C ) P ( A , B , C ) P ( C ) =   P ( A , C ) P ( C ) P ( B , C ) P ( C ) P ( A , B , C ) P ( B , C ) = P ( A , C ) P ( C ) P ( A B , C ) = P ( A C ) {\displaystyle {\begin{aligned}&P(A,\,B\mid C)=P(A\mid C)\,P(B\mid C)\\&\iff {\frac {P(A,\,B,\,C)}{P(C)}}=\ {\frac {P(A,\,C)}{P(C)}}\,{\frac {P(B,\,C)}{P(C)}}\\&\iff {\frac {P(A,\,B,\,C)}{P(B,\,C)}}={\frac {P(A,\,C)}{P(C)}}\\&\iff P(A\mid B,\,C)=P(A\mid C)\end{aligned}}}

以下に示すような、Stack Exchangeでの議論が参考になる[1]

色付きのボックス

各セルは、考えられるアウトカムを表す。事象 R {\displaystyle \color {red}R} B {\displaystyle \color {blue}B} Y {\displaystyle \color {gold}Y} をそれぞれ赤色青色黄色のセルで表し、例えば事象 R {\displaystyle \color {red}R} とイベント B {\displaystyle \color {blue}B} の重複は 紫色 のセルで表す。これらの事象の確率は、全体の面積に対する色付きの面積の比に相当する。

条件付き独立性を示す2つの例。

どちらの例でも、 Y {\displaystyle \color {gold}Y} を条件として R {\displaystyle \color {red}R} B {\displaystyle \color {blue}B} は条件付き独立である(次式)[注釈 1]

Pr ( R , B Y ) = Pr ( R Y ) Pr ( B Y ) {\displaystyle \Pr({\color {red}R},\,{\color {blue}B}\mid {\color {gold}Y})=\Pr({\color {red}R}\mid {\color {gold}Y})\,\Pr({\color {blue}B}\mid {\color {gold}Y})}

n o t Y {\displaystyle \mathrm {not} \,{\color {gold}Y}} を条件として R {\displaystyle \color {red}R} B {\displaystyle \color {blue}B} は条件付き独立ではない(次式)。

Pr ( R , B not  Y ) Pr ( R not  Y ) Pr ( B n o t Y ) {\displaystyle \Pr({\color {red}R},{\color {blue}B}\mid {\text{not }}{\color {gold}Y})\neq \Pr({\color {red}R}\mid {\text{not }}{\color {gold}Y})\Pr({\color {blue}B}\mid \mathrm {not} \,{\color {gold}Y})}

天気と遅れ

AとBが夕食に間に合うように帰宅する確率を考える。「吹雪が街を襲った」という事象の下で、AとBが夕食に間に合う確率はいずれも低くなる。確率が低くなった上で、Aが夕食に間に合うかがBが夕食に間に合うかに影響しない場合、条件付き独立である。ただし、2人が近所から同じ交通機関を利用して同じ職場に通勤しているような場合、条件付き独立とはいえない。

サイコロを振る

2つのサイコロを振った場合、1つのサイコロの目を見ても、2番目のサイコロの目は分からない。つまり、2つのサイコロは独立している。しかし、2つの目の和が偶数だと知っていた場合、1番目のサイコロの目が3だと分かれば2番目のサイコロの目が奇数だと分かる。独立した事象であっても、条件付き独立とは限らない。

身長と語彙

非常に小さな人は子供である確率が高く、子供であれば語彙は限られる。このため、身長と語彙は独立ではない。しかし、年齢が分かっている上で(年齢を条件として)背が高いと言われても、語彙が豊富だと考える根拠にはならない。

確率変数の条件付き独立

確率変数 Z {\displaystyle Z} の下で2つの確率変数 X {\displaystyle X} Y {\displaystyle Y} が条件付き独立であるとは、確率変数 Z {\displaystyle Z} の下での X {\displaystyle X} Y {\displaystyle Y} 条件付き確率分布が独立である、ということと同値である。つまり、 Z {\displaystyle Z} の値が与えられたとき、 Y {\displaystyle Y} の値によって X {\displaystyle X} の確率分布は変わらないし、 X {\displaystyle X} の値によって Y {\displaystyle Y} の確率分布は変わらない。

X Y Z F X , Y Z = z ( x , y ) = F X Z = z ( x ) F Y Z = z ( y ) f o r   a l l x , y , z {\displaystyle X\perp \!\!\!\perp Y\mid Z\quad \iff \quad F_{X,\,Y\mid Z=z}(x,\,y)=F_{X\mid Z=z}(x)\,F_{Y\mid Z=z}(y)\quad \mathrm {for\ all} \;x,\,y,\,z}

ここで F X , Y Z = z ( x , y ) = Pr ( X x , Y y Z = z ) {\displaystyle F_{X,Y\,\mid \,Z\,=\,z}(x,y)=\Pr(X\leq x,Y\leq y\mid Z=z)} Z {\displaystyle Z} を条件とした X {\displaystyle X} Y {\displaystyle Y} 累積分布関数である。

σ代数 Σ {\displaystyle \Sigma } の下で事象 R {\displaystyle R} と事象 B {\displaystyle B} が条件付き独立とは

Pr ( R , B Σ ) = Pr ( R Σ ) Pr ( B Σ ) {\displaystyle \Pr(R,B\mid \Sigma )=\Pr(R\mid \Sigma )\Pr(B\mid \Sigma )}

ここで Pr ( A Σ ) {\displaystyle \Pr(A\mid \Sigma )} は、σ代数 Σ {\displaystyle \Sigma } の下での事象 A {\displaystyle A} 指示関数 χ A {\displaystyle \chi _{A}} 条件付き期待値を示す。

Pr ( A Σ ) := E [ χ A Σ ] {\displaystyle \Pr(A\mid \Sigma ):=\operatorname {E} [\chi _{A}\mid \Sigma ]}

σ ( X ) {\displaystyle \sigma (X)} の全ての R {\displaystyle R} σ ( Y ) {\displaystyle \sigma (Y)} の全ての B {\displaystyle B} に対して上の式が成立するとき、σ代数 Σ {\displaystyle \Sigma } の下で 2つの確率変数 X {\displaystyle X} Y {\displaystyle Y} は条件付き独立である。

確率変数 W {\displaystyle W} の下で 2つの確率変数 X {\displaystyle X} Y {\displaystyle Y} が条件付き独立であるのは、 W {\displaystyle W} による σ代数 σ ( W ) {\displaystyle \sigma (W)} の下で X {\displaystyle X} Y {\displaystyle Y} が独立している場合であり、次のように表現する。

X Y W {\displaystyle X\perp \!\!\!\perp Y\mid W}


W {\displaystyle W} が可算集合のとき、 X {\displaystyle X} Y {\displaystyle Y} が以下の形式の事象に対して条件付き独立であることと等価である。

W = w {\displaystyle W=w}

3つ以上の事象や3つ以上の確率変数の条件付き独立性も同様に定義される。

確率変数ベクトルの条件付き独立性

確率変数ベクトル 独立 Z = ( Z 1 , , Z n ) {\displaystyle \mathbf {Z} =(Z_{1},\dots ,Z_{n})^{\top }} の下で2つの確率変数ベクトル X = ( X 1 , , X l ) {\displaystyle \mathbf {X} =(X_{1},\dots ,X_{l})^{\top }} Y = ( Y 1 , , Y m ) {\displaystyle \mathbf {Y} =(Y_{1},\dots ,Y_{m})^{\top }} が条件付き独立であるとは、 Z {\displaystyle \mathbf {Z} } の下で条件付き累積分布が独立であることと同値である。

X Y Z F X , Y | Z = z ( x , y ) = F X Z = z ( x ) F Y Z = z ( y ) f o r   a l l x , y , z {\displaystyle \mathbf {X} \perp \!\!\!\perp \mathbf {Y} \mid \mathbf {Z} \quad \iff \quad F_{\mathbf {X} ,\mathbf {Y} |\mathbf {Z} =\mathbf {z} }(\mathbf {x} ,\mathbf {y} )=F_{\mathbf {X} \mid \mathbf {Z} =\mathbf {z} }(\mathbf {x} )\,F_{\mathbf {Y} \mid \mathbf {Z} =\mathbf {z} }(\mathbf {y} )\quad \mathrm {for\ all} \;\mathbf {x} ,\,\mathbf {y} ,\,\mathbf {z} }

ここで、 x = ( x 1 , , x l ) {\displaystyle \mathbf {x} =(x_{1},\dots ,x_{l})^{\top }} y = ( y 1 , , y m ) {\displaystyle \mathbf {y} =(y_{1},\dots ,y_{m})^{\top }} z = ( z 1 , , z n ) {\displaystyle \mathbf {z} =(z_{1},\dots ,z_{n})^{\top }} であり、条件付き累積分布は次のように定義される。

F X , Y Z = z ( x , y ) = Pr ( X 1 x 1 , , X l x l , Y 1 y 1 , , Y m y m Z 1 = z 1 , , Z n = z n ) F X Z = z ( x ) = Pr ( X 1 x 1 , , X l x l Z 1 = z 1 , , Z n = z n ) F Y Z = z ( y ) = Pr ( Y 1 y 1 , , Y m y m Z 1 = z 1 , , Z n = z n ) {\displaystyle {\begin{aligned}F_{\mathbf {X} ,\mathbf {Y} \mid \mathbf {Z} =\mathbf {z} }(\mathbf {x} ,\mathbf {y} )&=\Pr(X_{1}\leq x_{1},\dots ,X_{l}\leq x_{l},\;Y_{1}\leq y_{1},\dots ,Y_{m}\leq y_{m}\mid Z_{1}=z_{1},\dots ,Z_{n}=z_{n})\\F_{\mathbf {X} \,\mid \,\mathbf {Z} =\mathbf {z} }(\mathbf {x} )&=\Pr(X_{1}\leq x_{1},\dots ,X_{l}\leq x_{l}\mid Z_{1}=z_{1},\dots ,Z_{n}=z_{n})\\F_{\mathbf {Y} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {y} )&=\Pr(Y_{1}\leq y_{1},\dots ,Y_{m}\leq y_{m}\mid Z_{1}=z_{1},\dots ,Z_{n}=z_{n})\end{aligned}}}

ベイズ推定での使用

今度の国民投票で「賛成」と投票する有権者の割合を p とする。母集団から無作為に n 人の有権者を選んで世論調査を行う。i = 1、 …、 n に対して、 i が賛成に投票するなら Xi = 1、賛成に投票しないなら Xi = 0 とする。

統計的推論への頻度主義的アプローチでは、p に確率分布を与えることなく、X1 、…、 Xn を独立した確率変数と呼ぶ。

対照的に、統計的推論へのベイズアプローチでは、p確率分布を割り当てて、その確率を「p が任意の間隔にあるという確信の度合い」として解釈する。このモデルでは、確率変数 X1 、 …、 Xn は独立ではないが、p の値を条件として条件付き独立である。特に、多数の X が 1 に等しいことが観察された場合、p が 1 に近いことが示唆されるので、次に観測される X が 1 に等しいという条件付き確率が高くなる。

条件付き独立性の規則

基本的な定義から、条件付き独立の記述に関する一連の規則は、導き出される[2] [3]

これらの規則は、PearlとPazによって「グラフォイド公理」と呼ばれるようになった。 X A B {\displaystyle X\perp \!\!\!\perp A\mid B} は「 X {\displaystyle X} から A {\displaystyle A} へのすべての道は集合 B {\displaystyle B} によって包含される」と解釈される[4]

対称

X Y Y X {\displaystyle X\perp \!\!\!\perp Y\quad \implies \quad Y\perp \!\!\!\perp X}

分解

X A , B X A X B {\displaystyle X\perp \!\!\!\perp A,B\quad \implies \quad X\perp \!\!\!\perp A\quad \land \quad X\perp \!\!\!\perp B}

証明

X A , B p X , A , B ( x , a , b ) = p X ( x ) p A , B ( a , b ) B p X , A , B ( x , a , b ) d b = B p X ( x ) p A , B ( a , b ) d b p X , A ( x , a ) = p X ( x ) p A ( a ) X A {\displaystyle {\begin{aligned}&X\perp \!\!\!\perp A,B\\&\iff p_{X,\,A,\,B}(x,\,a,\,b)=p_{X}(x)\,p_{A,\,B}(a,\,b)\\&\implies \int _{B}p_{X,\,A,\,B}(x,\,a,\,b)\,db=\int _{B}p_{X}(x)\,p_{A,\,B}(a,\,b)\,db\\&\iff p_{X,\,A}(x,\,a)=p_{X}(x)\,p_{A}(a)\\&\iff X\perp \!\!\!\perp A\end{aligned}}}

弱い組合

X A , B X A B X B A {\displaystyle X\perp \!\!\!\perp A,\,B\quad \implies \quad X\perp \!\!\!\perp A\mid B\quad \land \quad X\perp \!\!\!\perp B\mid A}

証明

X A , B Pr ( X ) = Pr ( X A , B ) {\displaystyle X\perp \!\!\!\perp A,\,B\quad \iff \quad \Pr(X)=\Pr(X\mid A,\,B)}

また、

X A , B X B Pr ( X ) = Pr ( X B ) {\displaystyle {\begin{aligned}&X\perp \!\!\!\perp A,\,B\\&\implies X\perp \!\!\!\perp B\\&\iff \Pr(X)=\Pr(X\mid B)\end{aligned}}}

以上から、 Pr ( X B ) = Pr ( X A , B ) ( X A B ) {\displaystyle \Pr(X\mid B)=\Pr(X\mid A,\,B)\quad (\iff X\perp \!\!\!\perp A\mid B)}

収縮

X A B X B X A , B {\displaystyle X\perp \!\!\!\perp A\mid B\quad \land \quad X\perp \!\!\!\perp B\implies \quad X\perp \!\!\!\perp A,\,B}

証明

X A B Pr ( X A , B ) = Pr ( X B ) {\displaystyle X\perp \!\!\!\perp A\mid B\quad \iff \quad \Pr(X\mid A,\,B)=\Pr(X\mid B)}

また、

X B Pr ( X B ) = Pr ( X ) {\displaystyle X\perp \!\!\!\perp B\quad \iff \quad \Pr(X\mid B)=\Pr(X)}

このとき、

Pr ( X A , B ) = Pr ( X ) ( X A , B ) {\displaystyle \Pr(X\mid A,\,B)=\Pr(X)\quad (\iff X\perp \!\!\!\perp A,\,B)}

共通部分

厳密に正の確率分布の場合、次式が成立する[3]

X Y Z , W X W Z , Y X W , Y Z {\displaystyle X\perp \!\!\!\perp Y\mid Z,\,W\quad \land \quad X\perp \!\!\!\perp W\mid Z,\,Y\quad \implies \quad X\perp \!\!\!\perp W,\,Y\mid Z}

証明

X Y Z , W X W Z , Y P ( X Z , W , Y ) = P ( X Z , W ) P ( X Z , W , Y ) = P ( X Z , Y ) P ( X Z , Y ) = P ( X Z , W ) {\displaystyle {\begin{aligned}&X\perp \!\!\!\perp Y\mid Z,\,W\quad \land \quad X\perp \!\!\!\perp W\mid Z,\,Y\\&\iff P(X\mid Z,\,W,\,Y)=P(X\mid Z,\,W)\quad \land \quad P(X\mid Z,\,W,\,Y)=P(X\mid Z,\,Y)\\&\implies P(X\mid Z,\,Y)=P(X\mid Z,W)\end{aligned}}}

このとき、 P ( X Z ) {\displaystyle P(X\mid Z)} に全確率の法則を適用することで、

P ( X Z ) = w W P ( X Z , W = w ) P ( W = w Z ) = w W P ( X Z , Y ) P ( W = w Z ) = P ( X Z , Y ) w W P ( W = w Z ) = P ( X Z , Y ) {\displaystyle {\begin{aligned}P(X\mid Z)&=\sum _{w\in W}P(X\mid Z,W=w)\;P(W=w\mid Z)\\&=\sum _{w\in W}P(X\mid Z,\,Y)\;P(W=w\mid Z)\\&=P(X\mid Z,\,Y)\;\sum _{w\in W}P(W=w\mid Z)\\&=P(X\mid Z,\,Y)\end{aligned}}}

ここで、

X Y Z , W P ( X Z , W , Y ) = P ( X Z , Y ) {\displaystyle X\perp \!\!\!\perp Y\mid Z,\,W\quad \implies \quad P(X\mid Z,\,W,\,Y)=P(X\mid Z,\,Y)}

に注意して、次式を得る。

P ( X Z , W , Y ) = P ( X Z ) ( X Y , W Z ) {\displaystyle P(X\mid Z,\,W,\,Y)=P(X\mid Z)\quad (\iff X\perp \!\!\!\perp Y,\,W\mid Z)}

部分空間

ほかの条件 K {\displaystyle K} で条件付けした部分空間でも、同様の規則が成立する。

例えば、

X Y Y X {\displaystyle X\perp \!\!\!\perp Y\quad \implies \quad Y\perp \!\!\!\perp X}

に関しては、

X Y K Y X K {\displaystyle X\perp \!\!\!\perp Y\mid K\quad \implies \quad Y\perp \!\!\!\perp X\mid K}

が成立する。

脚注

[脚注の使い方]

注釈

  1. ^ このことを理解するには、Pr(RB | Y) が黄色領域(Y)において紫色領域(R かつ B)と重なる確率である確率であることを理解する必要がある。左図なら12マス中2マスだから確率6分の1。同様に、赤色領域(R)と重なるのは12マス中4マスだから確率3分の1、青色領域(B)と重なるのは12マス中6マスだから確率は2分の1。

出典

  1. ^ Could someone explain conditional independence?
  2. ^ Dawid, A. P. (1979). “Conditional Independence in Statistical Theory”. Journal of the Royal Statistical Society, Series B 41 (1): 1–31. JSTOR 2984718. MR0535541. 
  3. ^ a b J Pearl, Causality: Models, Reasoning, and Inference, 2000, Cambridge University Press
  4. ^ Pearl, Judea (1988). Probabilistic reasoning in intelligent systems: networks of plausible inference. Morgan Kaufmann. ISBN 9780934613736. https://archive.org/details/probabilisticrea00pear 

関連項目

外部リンク

  • ウィキメディア・コモンズには、条件付き独立に関するカテゴリがあります。