らんだむな記憶

blogというものを体験してみようか!的なー

残差ブロック (1)

よく分からないけど ResNet の論文を読んでみる。深層ネットワークでは訓練精度が劣化してくるが、もしも超イケてるブロックだったら解決できると仮定してこれを $\mathcal{H}(\mathrm{x})$ としてみているようだ。何でかよく分からないけど、恒等写像 $\mathrm{Id}$ と $\mathcal{H}$ の残差関数として $\mathcal{F}(\mathrm{x}) := (\mathcal{H} - \mathrm{Id})(\mathrm{x}) = \mathcal{H}(\mathrm{x}) - \mathrm{x}$ を考えてみるらしい。この $\mathcal{F}$ をよくある線形層 + 活性関数のような非線形レイヤの積み重ねで学習 & 近似するようなことを考えます的な話が出ている。つまり、式で書くと $n$ 個の非線形レイヤを関数っぽく $\{f_i\}_{i=1}^n$ と書いてみて

$$
\begin{align*}
f_n \circ f_{n-1} \circ \cdots \circ f_1 \approx \mathcal{F}
\end{align*}
$$

的なことをしたいですと。
ところで、式変形すると

$$
\begin{align*}
\mathcal{H}(\mathrm{x}) = \mathcal{F}(\mathrm{x}) + \mathrm{x} \approx f_n \circ f_{n-1} \circ \cdots \circ f_1 (\mathrm{x}) + \mathrm{x}
\end{align*}
$$

ですと。仮に $\mathcal{H}(\mathrm{x}) = \mathrm{Id}(\mathrm{x}) = \mathrm{x}$ が “訓練精度の劣化” を解決する最強のレイヤだとした場合、$\mathcal{F} = \mathbf{0}$ なわけですと。たぶんお気持ち的には $\mathcal{F}$ は何か小さな変分だといいなぁ〜というのが裏にあるのだろう*1

極端なケースとして恒等写像が最適解の時に、$\mathcal{H} = \overbrace{(\mathcal{H} - \mathrm{Id})}^{\mathcal{F}} + \mathrm{Id}$ としておくと、$f_n \circ f_{n-1} \circ \cdots \circ f_1 + \mathrm{Id}$ で $\mathcal{H}$ を近似するとした場合、$f_n \circ f_{n-1} \circ \cdots \circ f_1$ が近似するのは $\mathbf{0} (= \mathcal{F} = \mathcal{H} - \mathrm{Id})$ なのでやりやすい・・・ということを主張している。活性関数が $\tanh$ とか ReLU だとした場合に、積み重ねたレイヤの重みがほぼほぼ 0 になれば、全体としてもほぼほぼ 0 になるので、この時求める近似が得られる。これは適当に backprop しとけば学習できそう。一方で、もしもこの分解をせずに $\mathcal{F}$ を切り出していないとすると、非線形レイヤの積み重ね $f_n \circ f_{n-1} \circ \cdots \circ f_1$ は直接 $\mathcal{H} = \mathrm{Id}$ を近似しなければならなくて、非線形関数の合成で線形関数を近似するのはちょっと難しいなって書いてある。そういうものなのかは知らないけど、そう書いてあるのだから仕方ない。

まとめ

お気持ち的に恒等写像 + 非線形の小さい変分として劣化を防ぐ最適なブロックが見つかるだろうと期待することにして*2、線形部分の恒等写像はそっ閉じして触れないでおいて、非線形の小さい変分のほうを非線形層を重ね込んで近似したらいいんじゃないかな?という主張のようだ。難しいね。

$\mathcal{H}(\mathrm{x}) = \mathcal{F}(\mathrm{x}) + \mathrm{x}$ に戻ると、これはみんなが大好きな残差ブロックですってなわけで。

ML の論文は論理的にこうですっていう主張が書かれて証明されるというよりは、なんか好ましい前提を置いて演繹した結果を「こうなったらいいな」という期待を込めて書き下すのでかなり・・・分かりにくい。

*1:ResNets have generally smaller responses than their plain counterparts. These results support our basic motivation that the residual functions might be generally closer to zero than the non-residual functions. という記載が実際にある。

*2:この恒等写像を reasonable preconditioning という感じで呼んでいる。