回帰分析 - らんだむな記憶

なんか機械学習でも Linear regression をやった気もするが。
\begin{equation}
y \approx \beta_0 + \beta_1 x
\end{equation}
の形でデータにフィッティングしましょう的な。$x$を説明変数とか言って、$y$を被説明変数とか応答変数とか言うようだ。
実際には、線型函数でピッタリ近似できなくて誤差が出るので、
\begin{equation}
y = \beta_0 + \beta_1 x + \varepsilon
\end{equation}
の形になる。個々のデータで見ると、
\begin{equation}
y_i = \beta_0 + \beta_1 x^i + \varepsilon_i
\end{equation}
のような形だ。ここでこういう説明変数が1つの場合のモデルとして単回帰モデルというのがあるようだが、この誤差項(或は攪乱項)についてのモデルとしての仮定として
(a) $\varepsilon_i$は確率変数
(b) $\varepsilon_i \sim N(0,\sigma^2)$
というように正規分布に従う確率変数であるというものを置くようだ。具体的に正規分布とはせずに
(1) $E[\varepsilon_i] = 0$
(2) $V[\varepsilon_i] = \sigma^2$
(3) $\mathrm{Cov}(\varepsilon_i, \varepsilon_j) = 0,\quad i \ne j$
くらいにする場合もあるようだ。

重回帰分析の場合、説明変数が複数個となり、$\beta = (\beta_0, \beta_1, \cdots, \beta_k)^T,\ x^i = (1, x_1^i, \cdots, x_k^i)^T$となって、
\begin{equation}
y_i = \langle \beta,\, x \rangle + \varepsilon_i = \beta^T x + \varepsilon_i = \sum_{j =0}^k \beta_k x_k^i + \varepsilon_i
\end{equation}
となる。