らんだむな記憶

blogというものを体験してみようか!的なー

決定木 (4)

情報理論」を読みつつ、エントロピーの意味を掘り下げたい

定義

確率 $p$ の情報が実際に生起したことを知らせる情報に含まれている情報量を

$$
\begin{align*}
- \log_2 p
\end{align*}
$$

と定義する。

とある。つまり、エントロピーとは、事象 $A_1, \cdots, A_n$ があった時に、「この事象が生起しましたよ」と教えてもらう時の得られる情報量の期待値である。式で書くと

$$
\begin{align*}
H(p_1,\cdots,p_n) = - \sum_{j=1}^n p_j \log_2 p_j
\end{align*}
$$

であった。
天気予報の例に戻ると $N_\text{雨}$ において、ある具体的な予報が届く時の平均的な情報量?と言えるだろうか。分類性能 100% ならクラス「雨」のデータだけが届くので、何の驚きもない = 常に情報量 0 でエントロピーが 0 であるといった具合になるだろうか。

Gini 不純度の式は

$$
\begin{align*}
G(p_1,\cdots,p_n) = \sum_{j=1}^n p_j(1 - p_j)
\end{align*}
$$

であった。エントロピーと比較すると、事象ごとの $1 - p_j$ をいう値を平均化していることになる。これは何かというと、誤分類の確率である。平均的な誤分類の確率が Gini 不純度ということになる。確かに任意の事象についてそれが生起する確率が等しい、つまり $\frac{1}{n}$ であるなら、当てずっぽうなので、誤分類する確率は最も高くなるだろう。つまり Gini 不純度が最も高くなるであろう。