らんだむな記憶

blogというものを体験してみようか!的なー

NDLOCR

OCR処理プログラム及び学習用データセットの公開について | NDLラボ を触ってみた系の記事を結構見かけるようになったので、一応メモ的に残しておこう。

GitHub - ndl-lab/pdmocrdataset-part1: デジタル化資料OCRテキスト化事業において作成されたOCR学習用データセット

(※ファイルサイズ:4.8 GB)

めちゃくちゃ大きいわけじゃないけど、まぁ、大きい・・・と感じるのであまり気楽にダウンロードしてあれこれしたい気持ちになるわけでもない。