詳解ディープラーニング第2版 (6)

数日経ってしまったが、6/06_attention_torch.py を K80 上で実行した。30 エポックで 22 分だった。

epoch: 30
loss: 1.670, val_loss: 3.57
> she doesn 't have any <unk> .
= 彼女 に は 敵 は い な い 。 </s>
< 彼女 は 数 に 無 い 。 </s> 。 </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s>

> she played the piano well enough .
= 彼女 は かなり うま く ピアノ を 弾 い た 。 </s>
< 彼女 は ピアノ を よく 弾 い た 。 </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s>

> i don 't like sad movies .
= 私 は 悲し い 映画 は 嫌い だ 。 </s>
< 私 は 悲し い こと が 好き で は な い 。 </s> </s> </s> </s> </s> </s> </s> </s>

なるほど。まぁまぁだな。Attention 層の実装が torch.einsum のせいもあってちょっと見た目が難しいのでもう少し追いかけてみよう。