らんだむな記憶

blogというものを体験してみようか!的なー

カーネル法(2)

カーネル法(1) - らんだむな記憶の感触がわりと良かったので、カーネル法入門―正定値カーネルによるデータ解析 (シリーズ 多変量データの統計科学)を無駄買いする。わりと数学の本で良い。
\begin{equation}
\langle\, f, k_x \rangle_\mathcal{H} = f(x) \quad\quad (\forall\, f \in \mathcal{H})
\end{equation}

といった記述を見ていると段々頭の中がこんがらがってしまった。一瞬「恒等写像の超函数核がまともな函数になる場合の積分核が再生核なのかな?」と思ったが、内積が常に単純な積分とは言えないのでそれはちょっと違った。が、命題2.19による
\begin{equation}
\mathcal{H} = \left\{ f \in L^2(\mathbb{R},dx)\, \Bigg | \int \frac{|\,\hat{f}(t)|^2}{\rho(t)} dt < \infty \right\}
\end{equation}

の再生核が
\begin{equation}
k(x,y) = \int e^{- \sqrt{-1}(x-y)t}\rho(t) dt \quad\quad\quad\quad\quad (1)
\end{equation}

というのはわりとシックリくる。この式は $\rho$ の Fourier 変換であるが、 $\rho(t) \equiv 1$ として普通の $L^2$ 空間を考えるとき、上式からは $1$ の Fourier 変換として形式的に $\delta(x-y)$ が求まる。これは恒等写像の超函数核と一致する。要するに、再生性として
\begin{equation}
f(x) = \int \delta(x-y)\, f(y) dy
\end{equation}

が得られるのでシックリくる。
もう少し脱線しよう。関数解析 共立数学講座 (15)のp.113より

\begin{equation}
\mathcal{F}\left(\frac{a}{x^2 + a^2}\right) = \sqrt{\frac{\pi}{2}} e^{-a |\xi|} \quad\quad (a > 0) \quad\quad\quad\quad\quad (2)
\end{equation}

である。ここで記号 $\langle \xi \rangle := \left( 1 + |\xi|^2\right)^{1/2}$ を導入すると、 $\rho (t) = \langle t \rangle ^{-2}$ の時に前述の $\mathcal{H}$ は Sobolev 空間 $H^1(\mathbb{R})$ になる。命題2.20の後続の議論よりこの Sobolev 空間は再生核 $k(x,y) = \frac{1}{2} e^{- |x-y|}$ を持つ。
このことは、 $\rho (t) = \langle t \rangle ^{-2}$ の Fourier変換が (2) より係数を除いて $e^{- |\xi|}$ であることと (1) よりこれが $\mathcal{H} = H^1(\mathbb{R})$ の再生核になることと符合する。この再生核は Laplace カーネルと呼ばれるらしい。
なんだか謎の「再生核ヒルベルト空間」が実はよく遭遇する1階の Sobolev 空間もそうなんです、となると多少親しみが持てる。($L^2$ 空間だと既に見たように真性の超函数核が出てきてしまうので・・・)
但し、2.2.3冒頭の $H^m[a,b]$ へ導入したノルムは馴染みのないものであり、お馴染みの導函数積分ベースのものとの関係が分からない・・・。同値なノルム・・・?なんだろうか・・・

特徴写像としては
\begin{equation}
\Phi: \mathcal{X} \to \mathcal{H} \quad\quad\quad x \mapsto k(\cdot,x)
\end{equation}

を採用すれば十分ということであるが、典型的には数ベクトルとして表れていた特徴量が函数になってしまうので、なかなか特徴空間内でのイメージがわきにくい部分もある・・・。(もともとが $\mathbb{R}^{100}$ に属する特徴量だとして、Laplace カーネルを使う場合にこの特徴量が $H^1 (\mathbb{R}^{100})$ の函数になりますってのは(現実的な計算機で扱うのだとすると)ぞっとする・・・。なのにPCAの計算コストとかが見てくれの印象ほどでないというのは凄い!)

カーネル主成分分析とは - Qiitaも参考になりそうだ。
カーネル多変量解析―非線形データ解析の新しい展開 (シリーズ確率と情報の科学)も良いらしいがそろそろ散財がきつくなってきた・・・。