確率的勾配降下法 - らんだむな記憶

くっそデータが大きい場合、生のgradient descentでやらんとstochastic gradient descent使うほうがすげー効率いいとか。
すげーいい加減くさいのに確率的勾配降下法 - Wikipediaによると、

確率的勾配降下法の収束性は凸最適化と確率近似の理論を使い解析されている。目的関数が凸関数もしくは疑似凸関数であり、学習率が適切な速度で減衰し、さらに、比較的緩い制約条件を付ければ、確率的勾配降下法はほとんど確実に最小解に収束する。目的関数が凸関数でない場合でも、ほとんど確実に局所解に収束する。これは Robbins-Siegmund の定理による。

とか。なかなかイラッとするな。