物体検出 - らんだむな記憶

物体検出の手法には

Faster R-CNN
YOLO
SSD
RetinaNet
DETR

などがあると。

も参考になりそう。猛烈に素朴な実装としては、画像を NxN のパッチに切り出して、それぞれのパッチで CNN で画像分類をして、同じオブジェクトに分類されたパッチ同士をつなぎ合わせてその長方形の包をバウンディングボックスということにすればいいのか。これだと素朴過ぎて計算コストが高すぎるけど・・・。

実装面では

https://github.com/yukinaga/object_detection

が参考になりそう。ついでに BERT について

https://github.com/yukinaga/bert_nlp

が参考になりそう。BERT のほうを斜め読みした感じではスクラッチから実装するわけではなさそうなので細かいところについては論文とかを読んだほうが理解できるかもしれない。

論文を読むなら例えば以下だろうかと思うが、歴史を追いかけつつ結構な量になるので気が重い。

Focal loss は $L = -(1-p)^\gamma \log p$ みたいな損失関数で、$\gamma=0$ なら従来の交差エントロピーに一致し、$\gamma$ を例えば 5 くらいにすると $p=0.5$ でも十分に損失値が小さい = 少々あやしくても OK という大雑把な判断を下すようになると。厳しさを緩和できる損失らしい。

YOLOの各バージョンについてまとめ（2020年7月27日時点） - Qiita によると、論文はまだ発表されていないらしい。GitHub の issues でも度々質問は出ているようだが、bot に close されているように見える。↩