Tesseract(1) - らんだむな記憶をMacでもやるぜー... と思ったが面倒臭いので、Home · tesseract-ocr/tesseract Wiki · GitHubを参考に
$ brew install tesseract
する。やったね!
[.bashrc]
export TESSDATA_PREFIX=$HOME/tesseract
くらいは加えておく。
engとfraくらいのテストデータを回収して、
$ tesseract --list-langs List of available languages (2): eng fra
ってね。
FreeTypeで文字を書く - らんだむな記憶の結果に対して以下のような感じで。
$ tesseract 2.png result -l eng -psm 6
とか。もっと言えば
#! /usr/bin/env ruby -Ku s = "" 2.upto(69).each do |gid| cmd = "tesseract #{gid}.png #{gid} -l eng -psm 6" system(cmd) File.open("#{gid}.txt") { |f| line = f.gets if line s += line.chomp end } end print "#{s}\n"
「-psm」についてはPageSegMode Enumerationを参照。
まぁ、なんか読み取るね。flリガチャなんぞ出てきている気はしないがね。単発の文字のせいか認識率は微妙だね。ま、仕方ないか。
ABCDEFGHJKLMNOPQRSTUVWXYZPo]bCdefghflJkHmnOPCIrStUVWXyZAAAAAAAAAAAAAflflA