らんだむな記憶

blogというものを体験してみようか!的なー

Panoptic segmentation

記録を残していると思ったら全然残してなかった・・・。AI最新論文読み会2021年10月 - Speaker Deck に参加した時に聞いたのであった。

論文としては、[2109.03814] Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers が紹介された。Abstract の冒頭だけ抜き出すと

Panoptic segmentation involves a combination of joint semantic segmentation and instance segmentation, where image contents are divided into two types: things and stuff. We present Panoptic SegFormer, a general framework for panoptic segmentation with transformers.

ということで、パノプティックセグメンテーションとはセマンティックセグメンテーションとインスタンスセグメンテーションの合いの子みたいなものであると。で、この SegFormer は Transformer を使ってパノプティックセグメンテーションのフレームワークを作ったよと。ずっと Transfromer ばかり・・・。

論文をちらっと読むと、よく分からないけど、物体検出の DETR との比較とかもされている。あれってセグメンテーションタスクに使えるの?と思って DETR 論文を読み返すと、4.4 でパノプティックセグメンテーションに対する DETR という感じで扱われていた。全然ちゃんと読んでなかった・・・。どうも [1801.00868] Panoptic Segmentation がきっかけの論文っぽい。・・・ってまた、Kaiming He か・・・。

とりあえず、Faster R-CNN にマスクヘッドとやらを付け加えると Mask R-CNN になるようで、同じようなことを DETR に施すとパノプティックセグメンテーションに応用できるらしい。Focal loss の話も書いてあるけど、RetinaNet の論文を読んでないから名前くらいでよく分からない。とりあえず、パノプティックセグメンテーションの先行研究は UPSnet や PanopticFPN++ といったものらしい。とりあえずこの辺まで読んだら 2021 年の夏頃までの動向は把握できるのかな・・・。2021 年の前半では Max-DeepLab というモデルもあったようだ。

色々雑多なメモを残すと

  • SegNet と U-Net
  • FPN と PSPnet

というのはセットで調べたら良さそう。FPN ってそこそこ聞くからまた調べておくのが良いのかもしれない。

セマンティックセグメンテーションについては、FCN が一番参照されていそう。U-Net はぼちぼち?[1606.00915] DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs を読んだら 2016 年の夏くらいまでアップデートできそうだけど、それ以降の動向はちょっとまだ追えていない。もうちょっと新しいのは [1612.01105] Pyramid Scene Parsing Network (PSPnet) かな?