審査員の自炊-OCR認識率

審査員の自炊-OCR認識率

いくら電子化しても検索性が低いと使い物にならない。検索性を確保するにはOCRの文字認識率が高いことが要件となる。検索性はOCR性能に依存することになる。当然ですね。テキストとして理解されて初めて検索も可能になる訳です。

アドビ社が開発した文書イメージにテキストを上乗せするやり方は、比較的最近の業績だが素晴らしいの一言に尽きる。文書イメージを残したまま検索性を実現したことが、今の自炊ブームの根底にあるのは言うまでも無い。アドビはアクロバットで世界を変えた貢献者だね。

Adobe Acrobatもバージョンが進んで2011年の今現在バージョン10(X)となっている。アクロバットのOCR性能も少しずつ改良を進めているようだ。

OCRも奥が深くて、各国の言語辞書、核専門領域の辞書なども持って文脈から文字の推定を行うものまであるそうだ。翻訳ソフトと似たようなロジックを持つようだ。アクロバットがどのレベルかは残念ながら把握できなかった。

Adobe Acrobat X

ところで「認識率」とは何でしょう?

コンサルの方、審査員の方に、誰彼なく聞いてみたことがあります。定義せよ!と言われると途端に顔がクエスチョンマークに変わる。試しにその関係の(OCRを売っている)どこかの営業さんに聞いてみた。説明を始めたが止まってしまった。あまりに一般的過ぎて聞く方を非難めいてみていたが、説明できない自分に唖然。

どなた様かのこの説明が一番納得できた。

元の文字列をAとする。文字数を仮に100文字としておく。認識された(正しくは単に変換された)文字列をPとする。Pは100より少ない時もあれば多い時もある。Pは正しく変換された文字と誤変換された文字の集合。Pに操作を加えてAにする。スキップした文字は書き足し(L)、誤変換は修正する。誤変換の修正は文字の入れ替えのケース(M)と削除のケース(N)がある。

PにL+M+Nを施してAとする。

OCR認識率=1-{(L+M+N)/A}のパーセント表示。

.*.

文字以外の認識についてはまだまだ発展途上のようだ。

.*.

<必ずお読みください>

◆コメントについて

内容見直しの機会としてコメント可能としています。但し、採否・削除は勝手に行いますので予めご了解ください。

◆注意事項

当ブログは独断と偏見を排除しない私用目的のものです。不適切な内容を含む可能性がありますので注意してください。

組織・個人・商品・サービス等について固有名詞が引用されますが、関連考察は誹謗中傷を意図したものでは有りません。また内容の真否は一切確認しておりません。鵜呑みにしないでください。

記事は同じような内容が繰り返し記載されたり、矛盾することが記載されたりします。事実誤認もあります。これらの修正は必ずしも行うものではありません。

◆禁止事項

ブログ訪問者は直接閲覧すること以外の行為は遠慮してください。ブログ内容の一部または全部に関わらず、印刷、コピー、ダウンロード、保管、編集、利用、及び他の人への紹介・情報提供等を禁じます。

2004/04/01

人気の投稿:月間

人気の投稿:年間

人気の投稿