ゼロつく 2 (5) - らんだむな記憶

暫くは読書のパートが続くので読み読み。

\begin{align*}
P(w_t | w_1, \cdots, w_{t-1}) \approx P(w_t | w_{t-2}, w_{t-1})
\end{align*}

しているところは、可測集合 $A, A^\prime, B$ があって、$A \subset A^\prime$ の時に、$P(B|A) \approx P(B|A^\prime)$ を考えていることになる。条件付き確率の定義より $P(B|A) = \frac{P(A,B)}{P(A)}$ で上下に $A$ が出てくるので、即座にこの 2 つがどういう大小関係であるとかどれくらい近いのかは判断できなさそうだ。

ちなみに、word2vec は 2013 年、この後で見ていく RNN による言語モデルは 2010 年に Tomas Mikolov 氏らのチームによって、それぞれ提案されました。

とのこと、つまり、word2vec に至ってはまだ 10 年さえ経過していない。RNN は LSTM や Transformer にどんどん置き換えられていったようにも感じるが、これも僅か 10 年程度前に提案されたというのだからどんだけのペースで進んでるんだ NLP の方面は・・・。NLP に限らず画像分類モデルも 2012 年に AlexNet が提案されて、10 年も経たないうちに EfficientNet が出てきて、まだまだ進化を続けている・・・。これは恐ろしいことだ・・・。

p.183 まで来た。およそ 1 週間が経過したな。1 日あたり 16 ページくらいの速度感か。25 日くらいで完了する見込みかな？