らんだむな記憶

blogというものを体験してみようか!的なー

仮説検定

確率変数$\{X_j\}_{j=1}^n$が正規分布に従っているとする。この時、正規化して
$$P \left(a \le \frac{\overline{X} - \mu}{\sqrt{\sigma^2/n}} \le b \right) = \frac{1}{\sqrt{2\pi}} \int_a^b \exp \left(- \frac{x^2}{2} \right) dx \hspace{5em} (1)$$

となる。(大数の法則と中心極限定理(2) - らんだむな記憶で触れた中心極限定理の場合、$\{X_j\}$が正規分布に従っていなくても、沢山かき集めると、あたかも従っているかのようになるというものであった)

両側検定のみ見てみる。仮説検定をするにあたって、ある$\mu_0$に対して、null hypothesisを「$\mu = \mu_0$」とする。要するに、「母平均は$\mu_0$なのだ」という主張だ。このもとで「いや、その仮定だと変でしょ」というくらいレアケースの標本値を見つけて、前提たる$H_0$を背理法で棄却することで、本当に示したい alternative hypothesis $H_1:\, \mu \ne \mu_0$を支持するという流れだ。とは言え、推定値だとかそういうので「変でしょ」レベルで「矛盾だ!」とのたまうのだから、論理学的にはどーなの?というところだが気にしない。「$H_0$は実学的見解では大分疑わしいので$H_1$が濃厚ではないかなぁ」くらいだろう。

検定統計量$Z$を考え、その値$z_{obs}$というものを考える。
$$z_{obs} := \frac{\overline{X} - \mu_0}{\sqrt{\sigma^2/n}}$$
の形だ。要するに、標準正規分布が分布函数になるように正規化した形での(1)の左辺の中身だ。
P値なるものを考える。

\begin{equation}
p := P(|Z| \ge |z_{obs}|) \,\ where\,\ null\,\ hypothesis\,\ H_0\,\ holds
\end{equation}
といったところか。P値が何を言っているかというと、null hypothesisが正しいと仮定した場合に、
\begin{equation}
p = P(|Z| \ge |z_{obs}|) = \frac{1}{\sqrt{2\pi}} \left[\int_{-\infty}^{-|z_{obs}|} + \int_{|z_{obs}|}^\infty \right] \exp \left(- \frac{x^2}{2} \right) dx
\end{equation}

が幾らか?ということになる。$|z_{obs}|$が大きい場合、P値はとても小さくなる。

実際の標本値${X_j}_{j=1}^2$から作り出した標本平均$\overline{X}$がnull hypothesisで仮定した母平均の推測$\mu_0$と大幅に異なる場合、$|z_{obs}|$が大きくなり、P値はとても小さくなる。
5%水準での検定の場合、
\begin{equation}
p \le \frac{5}{100}
\end{equation}
が成立すれば有意 (significant; わぉ、びっくりする値が出たよ!) だということで、null hypothesisが棄却される。要は、「標本値から母平均の推定値を計算してみたら、確率5%以下の域の値じゃねーか、そんなの常識的に起こらないよね?」ということで、rejectしちゃえということだ。
信頼区間の言葉で言うと、$\mu_0$は信頼係数0.95の信頼区間に入らないとなる。


片側検定の場合、積分区間を片側にすれば良いし、母分散が分からない場合は、母分散の不偏推定値として$s^2$を採用して、正規分布の代わりにt分布を用いれば良い。