- 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita
- Transformer で画像認識をやってみる ~ Vision Transformer ~ | GMOインターネット 次世代システム研究室
へー。Transformer
は名前を聞いたくらいのレベルの知識だけど、画像にも適用されるようになったんだな。技術書典10 の書籍 Transformerと画像処理(電子書籍 94ページ) - lib-arts - BOOTH でも取り上げられているみたい。論文は [2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale、或いは ICLR 2021 で Accept されたバージョンは An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale | OpenReview らしい。
[2006.03677] Visual Transformers: Token-based Image Representation and Processing for Computer Vision という似た名前の研究論文もあるが、こちらは CNN + Transformer
とのこと。うーむ。
ちょっと気になるからまずは Vision Transformer
の論文を読んでみるか。
公式実装は GitHub - google-research/vision_transformer らしい。Google Brain の研究なので勿論 TensorFlow
使用。GitHub - rwightman/pytorch-image-models: PyTorch image models, scripts, pretrained weights -- (SE)ResNet/ResNeXT, DPN, EfficientNet, MixNet, MobileNet-V3/V2, MNASNet, Single-Path NAS, FBNet, and more には Vision Transformer
や RepVGG
の PyTorch 実装が置いてあるようだ。