Jensenの不等式 - らんだむな記憶

Real Analysis: Modern Techniques and Their Applications (Pure and Applied Mathematics: A Wiley Series of Texts, Monographs and Tracts)の Exercise として出てくるからまぁ一応実解析的なトピックスなのかな？
イェンセンの不等式 - Wikipediaの参考書としては Rudin の「Real and Complex Analysis」が出てきているけど持ってない。確かアレすごい分厚いし・・・。しかも高い。

定理 (Jensen の不等式)
$p_j > 0,\ \sum p_j = 1$ を満たす正数列と下に凸な実函数 $f$ が与えられた時、任意の実数列 $\{x_j\} \subset \R$ に対して \begin{align} \sum p_j\,f(x_j) \geq f\left(\sum p_j x_j\right) \end{align}

が成立する。

という内容らしい。
面倒臭いので一番簡単な場合を考える。 $0 < t < 1$ として実数 $x_1, x_2$ を考える。 \begin{align} (1-t)\,f(x_1) + t\,f(x_2) \geq f\big((1-t)\,x_1 + t\,x_2\big) \end{align}

が成り立つことを見る。ところでこれは凸函数の定義そのものである。終わり。

ということで、Jensen の不等式は凸函数の定義の一般化であることがわかる。このパターンはどっちかっちゅーと演繹法のくせに「数学的帰納法」とか名乗っているアレの出番であることが多い。
いけそうな感じなので調子にのって、 $0 < r, s, t < 1,\ r + s + t = 1$ と $x_1, x_2, x_3 \in \R$ のケースで考えてみよう。 \begin{align} y = \frac{s}{1-r} x_2 + \frac{t}{1-r} x_3 \end{align}

という点を唐突に考えてみよう。すると、 $r x_1 + s x_2 + t x_3 = r x_1 + (1-r) y$ となる。この時、凸函数の定義により \begin{align} r\,f(x_1) + (1-r)\,f(y) \geq f\big(r\,x_1 + (1-r)\,y\big) = f(r x_1 + s x_2 + t x_3) \quad\quad\quad (1) \end{align}

が成立する。あと一息である。最後に左辺の $(1-r)\,f(y)$ を評価する。ここでありがてぇ！という事実として、 $r + s + t = 1$ であることから $s + t = 1 - r$ であることに注目すると、 $0 < \frac{s}{1-r}, \frac{t}{1-r} < 1,\ \frac{s}{1-r} + \frac{t}{1-r} = 1$ が成り立っている。ここまでくればもはや自明であるがまたまた凸函数の定義により \begin{align} \frac{s}{1-r} f(x_2) + \frac{t}{1-r} f(x_3) \geq f \left(\frac{s}{1-r} x_2 + \frac{t}{1-r} x_3\right) = f(y) \end{align}

である。両辺に $1 - r$ をかけて \begin{align} s\,f(x_2) + t\,f(x_3) \geq f \left(\frac{s}{1-r} x_2 + \frac{t}{1-r} x_3\right) = (1-r)\,f(y) \quad\quad\quad (2) \end{align}

を得る (もちろんこの辺のカラクリを見つけてから逆算的に上記の $y$ の式を出して“唐突に”先に書いただけである)。式 (1), (2) を併せて \begin{align} r\,f(x_1) + s\,f(x_2) + t\,f(x_3) \geq f\big(r\,x_1 + (1-r)\,y\big) = f(r x_1 + s x_2 + t x_3) \end{align}

を得た。後は数学的帰納法を使って、$n$ 個の点に対して Jensen の不等式が成立していると仮定した場合に、 $n+1$ 点の場合にも成立することが同じ方法で示せるので、一般の個数の点に対して Jensen の不等式が成立することが示された。

これを、Riemann 積分だとか Lebesgue 積分の単函数的なやつで丁寧に追いかけると (ここでは追いかけないけど)、 $\R^{1}$ 上の確率測度 $\mu$ に対して

\begin{align} \int f( X ) d\mu \geq f\left(\int X d\mu \right) \end{align}

が、特に確率密度函数 $p$ が陽に書き下せる場合には \begin{align} \int f( X(x) ) p(x) dx \geq f\left(\int X(x) p(x) dx \right) \end{align}

と書けるであろう。ここで期待値 $E_p[X] = \int X d\mu = \int X(x) p(x) dx$ とかいう記号を持ち出せば \begin{align} E_p[f(X)] \geq f(E_p[X]) \end{align}

となるだろう。 $f = - \log$ の時には積分の線型性より \begin{align} \log (E_p[X]) \geq E_p[\log (X)] \end{align}

を得る。この辺は

統計学において、式の下限を評価するさいに、一定の役割を担っている。例えば、カルバックライブラーダイバージェンスが常に 0 より大きいことを証明するときに用いられる。

だとか、深層学習における VAE (Variational Autoencoder) の理論的側面で活用されるようなのだがその辺はよく分からない。なんか分からないけど、確率分布 $P, Q$ とその確率密度函数 $p, q$ に対して \begin{align} D_\mathrm{KL} (P \| Q) = \int p(x) \log \frac{p(x)}{q(x)} dx \end{align}

とかいう定義らしい。なるほどね。情報量だから、 $\log$ が出てくるんだね。さて、この辺から先にはなんか Radon-Nikodym 導函数の話が載っているからこの辺で撤退しよう・・・。

カルバック・ライブラー情報量については Kullback の 1959 年の本に出てくるような話題で

情報理論 (ちくま学芸文庫) pp.282-286
多変量解析入門――線形から非線形へ p.108
現代数理統計学の基礎 p.195
Pattern Recognition and Machine Learning pp.55-58, p.130, pp.462-470

辺りに登場する。どうやら分布に対する擬距離的なツールらしい。