DeepSVG - らんだむな記憶

論文読もうかと思ったけど、先に YOLO とかの物体検出系を読み切っちゃいたいなと思っていたところ、解説記事があった: 【論文読解】DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation - Qiita, deep svgの紹介
おぉ、Transformer ベースか。SVG だと流石に順番が重要そうだから位置エンコーディングじゃきついかな？って思ったけど、位置エンコーディングでいくのか・・・。なんとなく雰囲気は分かった気がしなくもないが・・・これは論文とソースコードを読んだほうが早いな・・・。それにしてもキリがないから、YOLO, YOLO9000 を読んだ後だな。RetinaNet や SSD も読んでおきたいかもしれないし悩むところ・・・。MIT & Adobe Research の diffvg も見ておきたいんだけどなぁ・・・。

LSTM 的なものをエンコーダとして使って潜在表現を作り、デコーダをかまして元データとの差分をとるオートエンコーダ方式は何か見てるとやや意味不明感があってう〜んって気持ちになるのだが、シーケンス長が数十くらいとそんなに長くなければそういうアプローチでもそのうちデコーダが元データを復元しだすので驚く。たぶん、元データのドメイン情報がデコーダのウェイトの中に蓄積されていくのだろう・・・。