3.5.ベイズの定理

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$
条件付き確率では, 事象$A$が起きた時の事象$B$の確率を求めました.
これは, 例えるならば事象$A$「東大生」に小学生のテストを解かせるときに, $B$「点数が100点であった」確率を求める問題といえます.「東大生」に解かせたのだから通常よりも100点をとる確率は上がるだろうという直感が働きます.

今度は,「東大生」,「高校生」,「中学生」,「小学生」がいたとし,誰かが小学生のテストを解いたら「点数が100点であった」とします.さてテストを解いたのが東大生である確率は?というような問題考えたいと思います. 上記の4種類の属性に実際にテストを解かせたときの100点をとる確率がわかっているとすると,ベイズの定理を用いて東大生である確率を求められます.

全確率の定理

まずはベイズの定理の導入に必要な全確率の定理(Total Probability Theorem)を紹介します.
$A_1,A_2,\cdots$を標本空間$\Omega$の分割とします.(分割について忘れてしまった人はこちら
このとき全ての$i$で,$P(A_i) > 0$ならば,事象$B$に対して

\begin{align}
P(B) = \sum_{i=1}^\infty P(A_i)P(B|A_i) \label{eq-total-probability-theorem}
\end{align}

となります.

なぜならば,

\begin{align}
B=B\cap \Omega = B\cap \left(\bigcup_{i=1}^\infty A_i\right) = \bigcup_{i=1}^\infty (B\cap A_i)
\end{align}

が成り立ちます.ここで, $i \ne j$なら $(B\cap A_i) \cap (B\cap A_j) = \phi$ですので,確率の公理(iii)より,
\begin{align}
P(B) = \sum_{i=1}^\infty P(B\cap A_i)
\end{align}

となります.また,各$P(B\cap A_i)$は乗法定理より$P(A_i)P(B|A_i)$となるので,$\eqref{eq-total-probability-theorem}$が成り立ちます.

ベイズの定理

$A_1,A_2,\cdots$を標本空間$\Omega$の分割とします.
このとき全ての$i$で,$P(A_i) > 0$であり, $B$が事象で$P(B)>0$ならば

\begin{align}
P(A_i|B) = \frac{P(A_i)P(B|A_i)}{\displaystyle \sum_{j=1}^{\infty} P(A_j)P(B|A_j)} \label{eq-bayes-theorem}
\end{align}

が成り立ちます.これをベイズの定理(Bayes’ theorem)といいます.
このとき$P(A_i)$を事前確率(Prior Probability) , $P(A_i|B)$を事後確率(Posterior Probability)といいます.

ベイズの定理は,条件付き確率の定義

\begin{align}
P(A_i|B) = \frac{P(A_i \cap B)}{P(B)}
\end{align}

の分子に乗法定理を,分母に全確率の定理を適用すれば直ちに示されます.

ベイズの定理を利用する例

冒頭の小学生のテストの問題だと納得感のある答えは用意できなそうなので別の問題を例とします.
3つの袋があり,それぞれに白球または赤球が合わせて3つ入っているとします.

上図のような球の内訳となっているとします.とある袋から球を1個出したら赤球でした.
その袋が袋1であった確率を求めてみましょう.

まず袋1~3が選ばれる事象を$A_1 , A_2, A_3$とします.また赤球を取り出す事象を$B$とします.
すると,

\begin{align}
&P(A_1) = P(A_2) = P(A_3) = \frac{1}{3}\\
&P(B|A_1) = \frac{1}{3} , P(B|A_2) = \frac{2}{3} , P(B|A_3) = 1
\end{align}

であることがわかりますから,
\begin{align}
P(A_1|B)&=\frac{P(A_1)P(B|A_1)}{\displaystyle \sum_{j=1}^3 P(A_j)P(B|A_j)}\lnl
&=\frac{P(A_1)P(B|A_1)}{P(A_1)P(B|A_1) +P(A_2)P(B|A_2) +P(A_3)P(B|A_3) }\lnl
&=\frac{\frac{1}{3}\frac{1}{3}}{\frac{1}{3}\frac{1}{3} + \frac{1}{3}\frac{2}{3} + \frac{1}{3}\cdot 1}\lnl
&=\frac{1}{6}
\end{align}

となります.事象$B$が起こったことを知らない場合は確率(事前確率)$\cfrac{1}{3}$であったものが,事象$B$が起こってしまったことを知ったために事後確率$\cfrac{1}{6}$に変わってしまいました.