らんだむな記憶

blogというものを体験してみようか!的なー

ニューラルネットワークの数理的構造 (1)

$x \in \R^1$ とする時、
\begin{align}
e^{ix} = \cos(x) + i \sin(x)
\end{align}
により

\begin{align}
\cos(x) = \frac{e^{ix} + e^{-ix}}{2},\ \sin(x) = \frac{e^{ix} - e^{-ix}}{2i},\ \tan(x) = \frac{e^{ix} - e^{-ix}}{i (e^{ix} + e^{-ix})}
\end{align}
であった。これと類型の形状を持つ双曲線函数

$$ \cosh(x) = \frac{e^{x} + e^{-x}}{2},\ \sinh(x) = \frac{e^{x} - e^{-x}}{2},\ \tanh(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} $$
と表され、 $\lim_{x \to -\infty} \tanh(x) = -1,\ \lim_{x \to \infty} \tanh(x) = 1$ という性質を持つ。

次に $\tanh$ を拡張し、 $x \in \R^d$ に対しては、 $\tanh(x) = (\tanh(x_1), \cdots, \tanh(x_d))$ というように要素ごとに作用するものとして定義する。

$w$ を適当な行列、 $b$ を適当な列ベクトルとし、 $f(x; w,b) = \tanh(w \cdot x + b)$ なる函数を考える。特に、 $w_j$ と $b_j$ に対しては、 $f_j(x; w,b) = \tanh(w_j \cdot x + b_j)$ と書くことにする。
更に $N \in \N$ を固定し、 $W = (w_1, \cdots, w_N)$, $B = (b_1, \cdots, b_N)$ と置き、

\begin{align}
F(x;W, B) &= f_N \circ f_{N-1} \circ \cdots \circ f_2 \circ f_1(x) \\
&= f_N(f_{N-1}(\cdots f_2(f_1(x; w_1,b_1);w_2,b_2) \cdots; w_{N-1},b_{N-1});w_N, b_N)
\end{align}
とする。 $F$ は $\R^d \to [-1,1]^{d^\prime}$ への写像であるが、 $x_0 \in \R^d$ と $t_0 \in [-1,1]^{d^\prime}$ を固定して、

\begin{align}
\mathrm{cost}(W,B;x_0,t_0) = \left| F(x_0;W,B) - t_0 \right|^2
\end{align}
と置くと、 $\mathrm{cost}$ は $W$ と $B$ に関する函数となる。 $x_0$ と $t_0$ の間に何らかの関係性 (例えば、 $x_0$ を部屋の面積, 駅からの距離, 築年数からなる変数とし $t_0$ を家賃) を想定する時、この函数 $\mathrm{cost}$ の最小値を与える $W_\min$ と $B_\min$ を用いて設定した $F(\cdot;W_\min, B_\min)$ は、入力 $x$ に対してよい“推定”をするであろうと期待される。 $W_\min$ と $B_\min$ については、登場する函数の可微分性により $F(x_0;\cdot, \cdot)$ が可微分であることから数値計算により近似値を求めることができる。