らんだむな記憶

blogというものを体験してみようか!的なー

ベイズ更新を考える

ある事象$X$の確率に興味があるとする。それと関連し、事象$A,B,C,\cdots$があるとし、またこれらは$X,X^c$に関して条件付き独立であるものとする。即ち、 $P(A,B|X)=P(A|X)P(B|X),\ P(A,B|X^c) = P(A|X^c)P(B|X^c)$などが成立するとする。
例えば、$X$は「メールがスパムメールである」で、$A$は「メールがNGワード1を含む」、 $B$は「メールがNGワード2を含む」などである。この事例では条件付き独立性の仮定の妥当性があやしいが応用上は気にしないでもさほど問題はないようだ。

ベイズの定理とは
\begin{equation}
P(X|A) = \frac{P(X,A)}{P(A)} = \frac{P(A|X)P(X)}{P(A)} \tag{1}
\end{equation}

或は、全確率の公式を用いた書き方をすると、
\begin{align}
P(X|A) &= \frac{P(A|X)P(X)}{P(A|X)P(X) + P(A|X^c)P(X^c)} \\
&= \frac{P(A|X)P(X)}{P(A|X)P(X) + P(A|X^c)(1 - P(X))} \tag{$1^\prime$}
\end{align}

であった。この事後確率$P(X|A)$を$P(X)^{*}$などとしておこう。

$P(X|A) + P(X^c|A) = 1$であることから、 $P(X^c)^{*} = P(X^c|A) = 1 - P(X|A) = 1 - P(X)^{*}$となることに注意する。

次に更に事象$B$が生起した場合のことを考える。仮定より、$A,\ B$は条件付き独立であるので、
\begin{align}
P(X|A,B) &= \frac{P(X,A,B)}{P(A,B)} = \frac{P(A,B|X)P(X)}{P(A,B)} \\
&= \frac{P(A,B|X)P(X)}{P(A,B|X)P(X) + P(A,B|X^c)P(X^c)} \\
&= \frac{P(A|X)P(B|X)P(X)}{P(A|X)P(B|X)P(X) + P(A|X^c)P(B|X^c)P(X^c)} \tag{2}
\end{align}

と変形できる。(2)式の分母と分子を$P(A)$で割り、式(1)を適用すると、
\begin{equation}
P(X|A,B) = \frac{P(B|X)P(X|A)}{P(B|X)P(X|A) + P(B|X^c)P(X^c|A)} \tag{3}
\end{equation}

となることが分かる。$P(X|A)$を$P(X)^{*}$と書くことにしていたので、
\begin{equation}
P(X|A,B) = \frac{P(B|X)P(X)^{*}}{P(B|X)P(X)^{*} + P(B|X^c)(1 - P(X)^{*})} \tag{4}
\end{equation}

となるが、ここで、(1')式を事象$B$に対して書き下した式
\begin{equation}
P(X|B) = \frac{P(B|X)P(X)}{P(B|X)P(X) + P(B|X^c)(1 - P(X))} \tag{5}
\end{equation}

と比較してみよう。
ほぼ自明であるが、$P(X|A,B)$とは、$P(X|B)$における$P(X)$を$P(X)^{*}$で置き換えて計算したものである。
つまり、「事象$A,\ B$が同時に生起したもとでの事象$X$の条件付き確率」というものは、「まず事象$A$が起こることで得られる事後確率を次に事象$B$が生起した際の事前確率として投入して計算した条件付き確率」に等しいということである。
このように事象$A$が生起した際の事後確率を次の事象生起時の事前確率として使って「スパムメールっぽさ」の判定精度を逐次的に更新することをベイズ更新と呼ぶ。
そして、ベイズ更新によって得られる計算結果が、関連するすべての事象が同時生起したと仮定した場合の条件付き確率と一致することを「逐次合理性」と呼ぶ。

...ようだ。ベイズ更新についてはさらりと書いている入門書が多いように感じるし、数式を用いてしっかり書いている本は逆に難解に感じる。
基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門は良い線をいっていると思うが、p.12の(1.41)~(1.44)の変形がイマイチに感じる。分母を独立性の仮定によって分離するのではなく、一旦全確率の公式で展開しておいて最後に$P(A|B)$を$P(A)^{*}$に差し替える書き方をしないと、後続の(1.48)~(1.50)の計算で違和感をおぼえる羽目になるように思われる。
この計算の訂正(?)については入門ベイズ統計―意思決定の理論と発展の狙撃の例における計算を大いに参考にした。
測度論的確率論の上でもっとがっつりと数式を使って基礎付けるにはベイズ法の基礎と応用 条件付き分布による統計モデリングとMCMC法を用いたデータ解析が結構良さそうには感じるがこの本は “1冊目” としてはあまりに難しく感じられた。