らんだむな記憶

blogというものを体験してみようか!的なー

画像認識

画像認識や物体検出の本としてなかなかコンパクトにまとまっている本がなさそうな気がしている。

画像認識 | 書籍情報 | 株式会社 講談社サイエンティフィク を読んでみたが、かなり難しく感じた。深層学習に限らず機械学習の方法や、最後には生成モデルについても触れられていたが、正直絞ってもらえるほうが良かったかもしれない。少なくとも昔々に深層学習にタッチし始めたた頃に読まなくて良かった・・・。

  • 最初 40 ページくらいで画像認識の基礎的な事項にタッチ。画像フィルタを経て特徴量抽出の話への足掛かり。
  • そこから 160 ページ分くらい OpenCV 的な特徴量、主成分分析、CNN による特徴量抽出 etc. 一般的な統計学機械学習の話
  • 200 ページ手前くらいから 15 ページ分くらい HOG 特徴量等々を用いながらの機械学習的な画像認識
  • 30 ページ分くらいで、R-CNN に始まり、Fast R-CNN, Faster R-CNN, YOLO と 2017 年当時までの深層学習手法を用いた物体検出の話
  • 最後にセマンティックセグメンテーションと生成モデル (GAN) の話

で終わる。自分にとっては最初の 40 ページくらいのうち画像フィルタを除く部分の基本的な話と R-CNN から YOLO までの 30 ページの高々 70 ページくらいが読みたい部分だった。しかし、ザッピングでここだけゼロベースで読むのはつらそうな・・・prerequisite 多めの本だなぁ〜と思った。

この本を読む前に

  • OpenCV を使って HOG 特徴量などは活用していた。
  • ゼロ知識で YOLO の論文を読んだ。
  • Transformer の論文を読んで、DETR の論文を読んだ。
  • YOLOv3 の論文を読んだ。(少し知見が増えたのでここでもう一度 YOLO の論文を読んだ)
  • Faster R-CNN, SSD, RetinaNet のチュートリアルレベルのモデルを触った。
  • YOLOv3 を使った物体検出のモデルで少し遊んだ。

というところまでやってて、その上で基本的なところや見落としを振り返りたかった。ぼんやりと「こうだろうなぁ〜」と思っていたことは最初の 40 ページで拾えて良かった。大きな害はないが理解が適当だった用語などが明確化できたのは良かった。

そういう前提で読んでも難しい本だな、と思った。YouTube や MOOC でアニメーションで分かりやすい説明が沢山見られる今日からすると、静的でごちゃごちゃしている図はつらい。既にその概念を分かっていれば分かるし、そうでなければ分からないんじゃないかな・・・。

今から読むと生成モデルの部分の話は「え?今さらに DCGAN?」という気がしたが、2017 年の本だから仕方ない。セマンティックセグメンテーションとの絡みでは U-Net を用いた Pix2pix くらい載せて欲しくなる時期ではあるが、2017 年前半の出版なので、2016 年末のモデルを掲載できるかは確かにあやしい。第 2 版が出るのなら、SSD や YOLOv3 以降、DETR の話とかも含めて欲しいが、Transformer の話も含めるとなると NLP の話を多少しないとダメな気がするので相当発散しそうなので厳しいかもしれない・・・。