らんだむな記憶

blogというものを体験してみようか!的なー

不偏推定量

あるパラメータ$\theta$の推定量$\hat{\theta}$に関して$E[\hat{\theta}] = \theta$が成立する時、$\hat{\theta}$を不偏推定量と言うのであった。
例えば、独立同分布の確率変数$\{X_j\}_{j=1}^n$に関する標本平均$\overline{X} = \frac{1}{n}\sum_{j=1}^n X_j$は、$E[X_1] = \mu$とすると、$E[\overline{X}] = \frac{1}{n} \sum_{j=1}^n X[X_j] = \frac{1}{n} \sum_{j=1}^n \mu = \mu$となることから、標本平均$\overline{X}$は母平均$\mu$の不偏推定量になっていると言える。

母分散の不偏推定量については少々面倒くさい。統計学入門 (基礎統計学) | 東京大学教養学部統計学教室 | 本 | Amazon.co.jpの第9章練習問題9.4を思いっきり参考にする。

$E[X_1] = \mu,\ V[X_1] = \sigma^2$とする。
$Y_j = X_j - \mu$とおく。$E[Y_j] = \mu - \mu = 0,\ E[\overline{Y}] = E[\overline{X}] - \mu = 0$である。

$\sum_{j=1}^n (X_j - \overline{X})^2 = \sum_{j=1}^n (Y_j - \overline{Y})^2 = \sum_{j=1}^n Y_j^2 - 2 \overline{Y} \sum_{j=1}^n Y_j + n \overline{Y}^2$
であるが、$\sum_{j=1}^n Y_j = n \overline{Y}$なので、$\sum_{j=1}^n (X_j - \overline{X})^2 = \sum_{j=1}^n Y_j^2 - n \overline{Y}^2$となる。
$E[Y_j^2] = V[Y_j] + (E[Y_j])^2 = V[Y_j] = V[X_j] = \sigma^2$である。
また、$E[\overline{Y}^2] = V[\overline{Y}] + (E[\overline{Y}])^2 = V[\overline{Y}] = V[\frac{1}{n} \sum_{j=1}^n Y_j] = \frac{1}{n^2} \sum_{j=1}^n V[Y_j] = \frac{\sigma^2}{n}$である。
よって、
$$E[\sum_{j=1}^n (X_j - \overline{X})^2] = E[\sum_{j=1}^n Y_j^2] - E[n \overline{Y}^2] = n \sigma^2 - n \frac{\sigma^2}{n} = (n-1) \sigma^2 \hspace{5em} (1)$$

を得る。
故に、$s^2 := \frac{1}{n-1}\sum_{j=1}^n (X_j - \overline{X})^2$とおくと、$E[s^2] = \sigma^2$となる。

このことから、母分散$\sigma^2$の推定量$s^2$が不偏性を持つことが分かり、同時に$S^2 = \frac{1}{n}\sum_{j=1}^n (X_j - \overline{X})^2$は不偏性を持たないことが分かる。
$n-1$は自由度と呼ばれるが、変数$X_j$らは$(X_1 - \overline{X}) + \cdots + (X_n - \overline{X}) = 0$という1つの束縛条件を持つので、自由度が$n$より1つ小さい$n-1$になるとの解説がある。なかなか痒いところまで書いてあって、さすがよく売れている本というだけある。
とは言え、なんだか$n-1$になるのはむずむずするというのもあるので、ちょっと具体的に見てみよう。

$n=1$の場合を考える。この場合、$\overline{X} = \frac{X_1}{1} = X_1$であるので、
$E[\sum_{j=1}^n (X_j - \overline{X})^2] = E[(X_1 - X_1)^2] = E[0] = 0$である。これは(1)式とも同じ結果である。もしも$n-1$ではなく、$n$だとすると(1)の右辺がいきのこってしまい変なことになってしまう。

$n=2$の場合を考える。この場合、$E[\sum_{j=1}^2 (X_j - \overline{X})^2] = \frac{1}{4} E[(X_1 - X_2)^2 + (-X_1 + X_2)^2]$である。$(X_1 - X_2)^2 = X_1^2 - 2 X_1 X_2 + X_2^2$と展開した時、$X_1$と$X_2$の独立性により $E[X_1 X_2] = E[X_1] E[X_2]$ が成立することに注意すると、
\begin{align}
E[(X_1 - X_2)^2] &= E[X_1^2] - 2 E[X_1] E[X_2] + E[X_2^2] \\
&= V(X_1) + (E[X_1])^2 - 2 \mu^2 + V(X_2) + (E[X_2])^2 \\
&= V(X_1) + \mu^2 - 2 \mu^2 + V(X_2) + \mu^2 = V(X_1) + V(X_2)
\end{align}

を得る。よって、$E[(X_1 - X_2)^2] = 2 \sigma^2$となる。このことから$E[\sum_{j=1}^2 (X_j - \overline{X})^2] = \sigma^2$であることが従う。
ちょっと面倒だが、この計算をそのままストレートに$n$の場合にまで持ち上げてごりごり計算しても(1)が得られるはずである。

この計算でも見られるように、$\overline{X}$は$\mu$の(不偏)推定量ではあるが、$\mu$のように定数ではなく、$X_1,\cdots ,X_n$に依存するような確率変数である。この辺を見落とすと変な計算をしてしまいそうなので、ちょっとだけ注意する必要があるな、と思う。