ページ

OCRの話

自炊は手持ちの書籍などハードコピーから電子化することを言う。自分で吸出し(りっぴんぐ?)のことだから、当てる字は自吸(い)なんだろうけど、自分で書籍をばらしてサイズを揃えてと家事みたいに取り組んでいるので自炊の方が感覚的にもぴったりのようだ。

自炊ではスキャナーのお世話になる。が、スキャナーの出力は透明テキスト付きの画像のPDFファイル。ADOBEのアクロバットか類似のソフトウエアを利用する。スキャナー出力で一気にテキスト付きPDFを作るケースも有れば、一旦は画像(PDF形式でも純粋に画像形式でも構わない)だけ出力して、その後、纏めてテキスト付きPDFにすることもできる(筈)。

一番の問題は、図表の中の文字認識。それに加えて、数式。。外国語。科学や物理学など専門領域の記号類。殆どお手上げ。

変換したファイルの出力をPDF以外のワードとかエクセルにすることは、プレーンなテキストのケースでは可能だが、図表などが入る場合は難しい。プレーンなテキストの場合も、イメージをベースするPDFの方が表示性の保障が出来るので優れたやり方といえる。

。*。

ISMS的な観点から自炊(他者著作物のスキャン・OCR)を見ると、

  1. 最大の関心事はやはり著作権問題と言うことになる。自分が利用するために自分で自炊するのは認められている。
  2. 他人のために自炊をするのは事業であり自炊の範疇に無いとして、著作権団体が訴えるぞと警告している。既に廃業に追い込まれた自炊屋さんもいる。
  3. 自分で真面目に自炊していても誤ってネットに流出させてしまったら?当然、損害賠償責任を問われる話になる。
企業などが自社業務でOCR文書を利用する場合は、
  1. 完全性が保障できない(検索保証の問題)
  2. OCRの認識率が100%になることは無い。
.*.