ページ

審査員の自炊-OCR認識率

審査員の自炊-OCR認識率

いくら電子化しても検索性が低いと使い物にならない。検索性を確保するにはOCRの文字認識率が高いことが要件となる。検索性はOCR性能に依存することになる。当然ですね。テキストとして理解されて初めて検索も可能になる訳です。

アドビ社が開発した文書イメージにテキストを上乗せするやり方は、比較的最近の業績だが素晴らしいの一言に尽きる。文書イメージを残したまま検索性を実現したことが、今の自炊ブームの根底にあるのは言うまでも無い。アドビはアクロバットで世界を変えた貢献者だね。

Adobe Acrobatもバージョンが進んで2011年の今現在バージョン10(X)となっている。アクロバットのOCR性能も少しずつ改良を進めているようだ。

OCRも奥が深くて、各国の言語辞書、核専門領域の辞書なども持って文脈から文字の推定を行うものまであるそうだ。翻訳ソフトと似たようなロジックを持つようだ。アクロバットがどのレベルかは残念ながら把握できなかった。

Adobe Acrobat X

ところで「認識率」とは何でしょう?

コンサルの方、審査員の方に、誰彼なく聞いてみたことがあります。定義せよ!と言われると途端に顔がクエスチョンマークに変わる。試しにその関係の(OCRを売っている)どこかの営業さんに聞いてみた。説明を始めたが止まってしまった。あまりに一般的過ぎて聞く方を非難めいてみていたが、説明できない自分に唖然。

どなた様かのこの説明が一番納得できた。

元の文字列をAとする。文字数を仮に100文字としておく。認識された(正しくは単に変換された)文字列をPとする。Pは100より少ない時もあれば多い時もある。Pは正しく変換された文字と誤変換された文字の集合。Pに操作を加えてAにする。スキップした文字は書き足し(L)、誤変換は修正する。誤変換の修正は文字の入れ替えのケース(M)と削除のケース(N)がある。

PにL+M+Nを施してAとする。

OCR認識率=1-{(L+M+N)/A}のパーセント表示。

.*.

文字以外の認識についてはまだまだ発展途上のようだ。

.*.