数日経ってしまったが、6/06_attention_torch.py を K80 上で実行した。30 エポックで 22 分だった。
epoch: 30 loss: 1.670, val_loss: 3.57 > she doesn 't have any <unk> . = 彼女 に は 敵 は い な い 。 </s> < 彼女 は 数 に 無 い 。 </s> 。 </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> > she played the piano well enough . = 彼女 は かなり うま く ピアノ を 弾 い た 。 </s> < 彼女 は ピアノ を よく 弾 い た 。 </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> > i don 't like sad movies . = 私 は 悲し い 映画 は 嫌い だ 。 </s> < 私 は 悲し い こと が 好き で は な い 。 </s> </s> </s> </s> </s> </s> </s> </s>
なるほど。まぁまぁだな。Attention 層の実装が torch.einsum
のせいもあってちょっと見た目が難しいのでもう少し追いかけてみよう。