OCRの話

自炊は手持ちの書籍などハードコピーから電子化することを言う。自分で吸出し(りっぴんぐ?)のことだから、当てる字は自吸(い)なんだろうけど、自分で書籍をばらしてサイズを揃えてと家事みたいに取り組んでいるので自炊の方が感覚的にもぴったりのようだ。

自炊ではスキャナーのお世話になる。が、スキャナーの出力は透明テキスト付きの画像のPDFファイル。ADOBEのアクロバットか類似のソフトウエアを利用する。スキャナー出力で一気にテキスト付きPDFを作るケースも有れば、一旦は画像(PDF形式でも純粋に画像形式でも構わない)だけ出力して、その後、纏めてテキスト付きPDFにすることもできる(筈)。

一番の問題は、図表の中の文字認識。それに加えて、数式。。外国語。科学や物理学など専門領域の記号類。殆どお手上げ。

変換したファイルの出力をPDF以外のワードとかエクセルにすることは、プレーンなテキストのケースでは可能だが、図表などが入る場合は難しい。プレーンなテキストの場合も、イメージをベースするPDFの方が表示性の保障が出来るので優れたやり方といえる。

。*。

ISMS的な観点から自炊(他者著作物のスキャン・OCR)を見ると、

  1. 最大の関心事はやはり著作権問題と言うことになる。自分が利用するために自分で自炊するのは認められている。
  2. 他人のために自炊をするのは事業であり自炊の範疇に無いとして、著作権団体が訴えるぞと警告している。既に廃業に追い込まれた自炊屋さんもいる。
  3. 自分で真面目に自炊していても誤ってネットに流出させてしまったら?当然、損害賠償責任を問われる話になる。
企業などが自社業務でOCR文書を利用する場合は、
  1. 完全性が保障できない(検索保証の問題)
  2. OCRの認識率が100%になることは無い。
.*.

<必ずお読みください>

◆コメントについて

内容見直しの機会としてコメント可能としています。但し、採否・削除は勝手に行いますので予めご了解ください。

◆注意事項

当ブログは独断と偏見を排除しない私用目的のものです。不適切な内容を含む可能性がありますので注意してください。

組織・個人・商品・サービス等について固有名詞が引用されますが、関連考察は誹謗中傷を意図したものでは有りません。また内容の真否は一切確認しておりません。鵜呑みにしないでください。

記事は同じような内容が繰り返し記載されたり、矛盾することが記載されたりします。事実誤認もあります。これらの修正は必ずしも行うものではありません。

◆禁止事項

ブログ訪問者は直接閲覧すること以外の行為は遠慮してください。ブログ内容の一部または全部に関わらず、印刷、コピー、ダウンロード、保管、編集、利用、及び他の人への紹介・情報提供等を禁じます。

2004/04/01

人気の投稿:月間

人気の投稿:年間

人気の投稿