らんだむな記憶

blogというものを体験してみようか!的なー

統計勉強ノート(3)

統計勉強ノート(2) - らんだむな記憶から大分経った。
ので、決定係数を丸暗記してみる。
まず、データセット$\{x_j,y_j\}_{1 \le j \le n}$があるとする。
$\widehat{y}_j = \widehat{\alpha} + \widehat{\beta} x_j$とおいた時にうまく$y_j$に近くなるようないい感じの$\widehat{\alpha} ,\ \widehat{\beta}$が欲しいじゃないですかというところなので、
\begin{equation}
\sum(y_j - \widehat{y}_j)^2 = \sum (y_j - \widehat{\alpha} - \widehat{\beta} x_j)^2
\end{equation}

が最小になるようにしたい。偏微分して、
\begin{equation}
\begin{cases}
\sum (y_j - \widehat{\alpha} - \widehat{\beta} x_j) = 0, \\
\sum x_j (y_j - \widehat{\alpha} - \widehat{\beta} x_j) = 0
\end{cases}
\end{equation}

を得る。で$\widehat{\alpha},\ \widehat{\beta}$が求まりますよと。

んじゃ、ちょっと天下り的に${y_j}$の分散を見てみよっか。
\begin{equation}
\sum (\bar{y} - y_j)^2
\end{equation}

折角、推定量を作成したので、それを挟んでみるのはよくあること。
\begin{equation}
\sum (\bar{y} - y_j)^2 = \sum (\bar{y} - \widehat{y}_j + \widehat{y}_j -y_j)^2 = \sum (\widehat{y}_j - \bar{y})^2 + \sum (y_j - \widehat{y}_j)^2 + \text{residue}
\end{equation}

で、ここは暗記のテクで、都合よく「残余などない!」と即効信じることにして、
\begin{equation}
\sum (y_j - \bar{y})^2 = \sum (\widehat{y}_j - \bar{y})^2 + \sum (y_j - \widehat{y}_j)^2
\end{equation}

次に、$y_j = \widehat{y}_j$だと最高で、その場合左辺と右辺第1項が一致する。とすれば、
\begin{equation}
R^2 := \sum (\widehat{y}_j - \bar{y})^2 / \sum (y_j - \bar{y})^2
\end{equation}

って1に近いほどうまくフィッティングしてるよね~ということで「決定係数」とか呼んじゃいましょかと。