らんだむな記憶

blogというものを体験してみようか!的なー

詳解ディープラーニング 第2版 (6)

数日経ってしまったが、6/06_attention_torch.py を K80 上で実行した。30 エポックで 22 分だった。

epoch: 30
loss: 1.670, val_loss: 3.57
> she doesn 't have any <unk> .
= 彼女 に は 敵 は い な い 。 </s>
< 彼女 は 数 に 無 い 。 </s> 。 </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s>

> she played the piano well enough .
= 彼女 は かなり うま く ピアノ を 弾 い た 。 </s>
< 彼女 は ピアノ を よく 弾 い た 。 </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s>

> i don 't like sad movies .
= 私 は 悲し い 映画 は 嫌い だ 。 </s>
< 私 は 悲し い こと が 好き で は な い 。 </s> </s> </s> </s> </s> </s> </s> </s>

なるほど。まぁまぁだな。Attention 層の実装が torch.einsum のせいもあってちょっと見た目が難しいのでもう少し追いかけてみよう。