らんだむな記憶

blogというものを体験してみようか!的なー

大数の法則と中心極限定理(2)

一方の中心極限定理は、Microsoftが新人に読ませるだとかかんとか書かれているところのいかにして問題をとくか | G. ポリア, 柿内 賢信 | 本 | Amazon.co.jpの著者G. Polya氏の命名であるそうだ。この分野の中心的な極限定理だから、ということ、らしい。「中心極限」とかいう何か凄いものがあるわけでもないし、極限というとこに何かギリギリの悟りの境地があるわけでもない。
Central limit theorem、うーん、意味深でありながら、なんとも直接的な。

中心極限定理

$X_j$を独立同分布の確率変数とする。$X_1$の期待値を$\mu$とし分散を$\sigma^2$とする。
$S_n = \sum_{j=1}^n X_j$とおくと、以下が成立する。
$$P \left(a \le \frac{S_n - n\mu}{\sqrt{\sigma^2 n}} \le b \right) \to \frac{1}{\sqrt{2\pi}} \int_a^b \exp \left(- \frac{x^2}{2} \right) dx \quad (n \to \infty)$$

これは、確率変数のもとの分布函数がなんであれ、沢山足し合わせると正規分布で近似できるようになるというところにうまみがある。

これまた、統計学的に標本平均で書き直すと、$n$が十分大として、
$$P \left(a \le \frac{\overline{X} - \mu}{\sqrt{\sigma^2/n}} \le b \right) \approx \frac{1}{\sqrt{2\pi}} \int_a^b \exp \left(- \frac{x^2}{2} \right) dx$$
とできる。
ここで、$-a = b = \varepsilon \sqrt{n / \sigma^2}$などと置くと、
$$P \left(|\overline{X} - \mu| > \varepsilon \right) \approx 1 - \frac{1}{\sqrt{2\pi}} \int_{- \varepsilon \sqrt{n / \sigma^2}}^{\varepsilon \sqrt{n / \sigma^2}} \exp \left(- \frac{x^2}{2} \right) dx$$
と変形できる。右辺の積分は$n$が大きい時にほぼ全区間を積分することになるので、1に近づく。結果、右辺は$1-1=0$に近い。よって、左辺は$n$が大きい時にほぼ0ということだが、これは大数の弱法則である。要するに、中心極限定理は大数の(弱)法則をもっと細かく評価したものとも言える。

昔、授業で出てきた例で言えば、パチスロなりなんなりは適当に負けるようにクギが調整されている(要は単発の獲得金を確率変数としてその期待値が負ということだ)のだが、下手なタマも数売ってるうちに勝ったり負けたりで総和としては段々正規分布で表現されるような揺らぎを持ちながら推移していくと。でも、結局は期待値が負だから長い目では負けちゃうよねとか。正規分布の特性を考えると、総和が正になるなんて稀だから万が一勝ち越したらそこでやめるのが賢明だろう。先生はもうやらないよみたいなことを言っていたと思う。確率論の専門家がやらないような代物だ、ということだ。

さて、中心極限定理の式を更にちょっと書き換えて、
$$P \left(\overline{X} - a \sqrt{\sigma^2/n} \le \mu \le \overline{X} + b \sqrt{\sigma^2/n} \right) \approx \frac{1}{\sqrt{2\pi}} \int_a^b \exp \left(- \frac{x^2}{2} \right) dx$$
とすると、真の期待値$\mu$が信頼係数なんぼで信頼区間に含まれるということを表現する式ができる。

標準正規分布の上側2.5%点はoctaveを使うと

octave:1> norminv(1 - 0.025)
ans = 1.9600

で求まる。両側の2.5%点を考えると、信頼係数$1 - 0.025 \times 2 = 0.95$となるので、
$$P \left(\overline{X} - 1.96 \sqrt{\sigma^2/n} \le \mu \le \overline{X} + 1.96 \sqrt{\sigma^2/n} \, \right) \approx 0.95$$
という式を具体的に得る。まぁ、母数$n$は定まるとして、$\sigma$が普通は求まらないので、小標本の場合には(*1)更に亜種として$t$分布というやつを使ったりするようだ。
統計学入門 (基礎統計学) | 東京大学教養学部統計学教室 | 本 | Amazon.co.jpで言うと、p.201「10.4 分散が未知のときの標本平均の標本分布」が該当するが、$t$分布があまりに吐き気のする式なのとthis margin is too narrow to containという理由で式を記述するのを断念する。

(*1)存分に$n$が大きい大標本の場合には、大数の法則から$\overline{X} \approx \mu$に注意すると、標本から作る不偏分散
$s^2 := \frac{1}{n-1}\sum_{j=1}^n (X_j - \overline{X})^2 \approx \frac{1}{n-1}\sum_{j=1}^n (X_j - \mu)^2$が最早母集団の分散である母分散と大して違わないだろ?($\approx \frac{1}{n}\sum_{j=1}^n (X_j - \mu)^2 = \sigma^2$)ということで、不偏分散を母分散とみなして中心極限定理から標準正規分布で計算しちゃえばいいさ!ということのようだ。