らんだむな記憶

blogというものを体験してみようか!的なー

Tesseract(2)

Tesseract(1) - らんだむな記憶Macでもやるぜー... と思ったが面倒臭いので、Home · tesseract-ocr/tesseract Wiki · GitHubを参考に

$ brew install tesseract

する。やったね!

[.bashrc]

export TESSDATA_PREFIX=$HOME/tesseract

くらいは加えておく。
engとfraくらいのテストデータを回収して、

$ tesseract --list-langs
List of available languages (2):
eng
fra

ってね。
FreeTypeで文字を書く - らんだむな記憶の結果に対して以下のような感じで。

$ tesseract 2.png result -l eng -psm 6

とか。もっと言えば

#! /usr/bin/env ruby -Ku

s = ""
2.upto(69).each do |gid|
    cmd = "tesseract #{gid}.png #{gid} -l eng -psm 6"
    system(cmd)
    File.open("#{gid}.txt") { |f|
        line = f.gets
        if line
            s += line.chomp
        end
    }
end

print "#{s}\n"

「-psm」についてはPageSegMode Enumerationを参照。
まぁ、なんか読み取るね。flリガチャなんぞ出てきている気はしないがね。単発の文字のせいか認識率は微妙だね。ま、仕方ないか。

ABCDEFGHJKLMNOPQRSTUVWXYZPo]bCdefghflJkHmnOPCIrStUVWXyZAAAAAAAAAAAAAflflA