らんだむな記憶

blogというものを体験してみようか！的なー

Vision Transformer

machine_learning

へー。Transformer は名前を聞いたくらいのレベルの知識だけど、画像にも適用されるようになったんだな。技術書典10 の書籍 Transformerと画像処理（電子書籍 94ページ） - lib-arts - BOOTH でも取り上げられているみたい。論文は [2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale、或いは ICLR 2021 で Accept されたバージョンは An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale | OpenReview らしい。

[2006.03677] Visual Transformers: Token-based Image Representation and Processing for Computer Vision という似た名前の研究論文もあるが、こちらは CNN + Transformer とのこと。うーむ。

ちょっと気になるからまずは Vision Transformer の論文を読んでみるか。

公式実装は GitHub - google-research/vision_transformer らしい。Google Brain の研究なので勿論 TensorFlow 使用。GitHub - rwightman/pytorch-image-models: PyTorch image models, scripts, pretrained weights -- (SE)ResNet/ResNeXT, DPN, EfficientNet, MixNet, MobileNet-V3/V2, MNASNet, Single-Path NAS, FBNet, and more には Vision Transformer や RepVGG の PyTorch 実装が置いてあるようだ。