らんだむな記憶

blogというものを体験してみようか!的なー

Tesseract(1)

ま、画像で遊ぶなら文字認識とかしてみる~?ということで、Tesseractに目星をつける。

むっづかしーことばかり書いてあるページが多いので、知恵熱で倒れそうだ。

(1)leptonica のセットアップ
http://www.leptonica.com/download.htmlからleptonicaを取得。
新しすぎると tesseract のリンク時にちょっと怒られるっぽいので、ピンポイントで狙ったほうが良いかもしれないけど、面倒なので最新ので。ガツンとしばいてリンクさせればなんとかなるなる!

$ tar xvfz leptonica-1.73.tar.gz
$ cd leptonica-1.73
$ ./configure
$ make
$ sudo make install

だったと思う。メモってないので忘れた。
続いて、

(2)tesseract のビルド

$ git clone https://github.com/tesseract-ocr/tesseract.git
$ cd tesseract
$ ./autogen.sh
$ CPPFLAGS="-I/usr/local/include" LDFLAGS="-L/usr/local/lib" ./configure
$ make
$ sudo make install
$ sudo ldconfig

あまり新しい leptonica だと、leptonica 内のシンボルが解決できねーよってな理由でリンクエラーが起こるかも。liblept.so.4.0.0 が欲しいらしいんだけど、leptonica-1.73 だと、liblept.so.5.0.0 になるらしい。知るかボケッ!と言いつつ liblept.so.5.0.0 をコピってきて、liblept.so に rename して、置き場所を -L で指定して強引にリンク時のコマンドを叩いたら、warning でぶつくさ言いながら tesseract ができた。(う、動いたらイイね!)

次にシェルの環境変数に以下を追加。手順書に書いとけよ!と思うのだが。

(3)シェルの環境変数
[.bashrc]

export TESSDATA_PREFIX=/home/samba/test/tesseract

場所なんてなんでもいい。更に、「/home/samba/test/tesseract/tessdata」というサブフォルダを作る。より正確には「tessdata」という固定の名前のディレクトリが重要で、その親ディレクトリを TESSDATA_PREFIX で参照させろとさ。おいふざけんな!と思ったが。

(4)デフォルトのテストデータ配置
そして、tesseract-ocr/tessdata · GitHubから「eng.traineddata」と「jpn.traineddata」をダウンロードしてさっきの「tessdata」の下に置くらしい。
ややこしい。泣きそうだ(TmT)

多分、準備はこのくらいなんだと思う。たぶん。

$ tesseract --list-langs
List of available languages (2):
jpn
eng

まぁ、いけてるよね!!