Pattern Recognition and Machine Learning - Microsoft Research
2006年の本だから結構古いんかなと思いきや、ニューラルネットワークのところでは普通に activation function として sigmoid
だとか tanh
とか出てくるし、分類問題なら softmax
を通す的な話が書いてあってもうこの頃にはほぼほぼ確立されとったんかなと思えた。ReLU
は2011年に出てきたものみたいだから流石に載ってないけど。
2013年にmax(0.01x, x) がLReL (leaky rectified linear) と命名された。ただし、命名者はこの活性化関数を使う意味はなかったと報告している。
ふむ・・・relu_hybrid_icml2013_final.pdfの
Leaky rectifiers, with non-zero gradient over the entire domain, perform nearly identically to standard rectifier DNNs.
の部分かな。まぁ、“意味がない”とはちょっとニュアンス違いそうだけど。