通常、スキャナーで読み取った文書は "画像情報" となる。もちろん、写真などをスキャンすれば文字通り "画像情報" として読み取られ、保存の際には、保存ファイルの拡張子を ".bmp" にするか ".jpg" にするか、といった選択が迫られるわけだ。
そして、こうした方式でスキャンされたデータを後で閲覧する時には、 "ファイル名" による "検索" で探すしかないことになる。
もっとも、写真などの文字通りの画像データであれば、さほどの苦労ではないかもしれない。だが、もしスキャンした情報が "テキスト" を含む文書だとして、その中のとある文脈などを探していたならば、それらが "画像情報" として扱われているという状態はかなり厄介なことになりそうである。
何しろ、 "ファイル名" だけでは区別できない文書内テキストに関心がある場合、それらを逐一 "検索" することができないからである。こうした状態下では、こうした貴重な情報も結局、閲覧されたり再利用されたりすることなく "埋没" してしまうことになりそうである。
どんな情報にせよ、データベース的な仕組みなどによって自在に "検索" され閲覧されてこそ、活用の可能性が広がるはずであろう。
こうした観点が、十分に考慮されているのが昨今の "PDF文書" なのであり、何あろうその "立役者" が "透明テキスト付きPDF" なのだと思われる。
<透明テキスト付きPDF
紙に印刷された書類をスキャンして、スキャナーが生成したイメージからPDFファイルを作成した場合、次の問題があります。もともと文字で表されている情報なのに、PDFファイルでは文字情報として扱えないことです。
すなわち、コンピュータで文字情報を取り扱うためには、文字をコード化されたデータとして扱わなければならないのに、スキャンした結果は画像だからです。この問題を解決するのが透明テキスト付きPDFです。
透明テキスト付PDFとは、スキャナーで読み取った画像をOCR機能をつかって文字を認識し、コード化した情報(テキスト)として、PDFの画像の上に透明属性を持たせて重ねたもの。PDFファイルの内容である文字情報を利用したいときは、テキストを取り出して利用できます。また、PDFファイルの中を検索してヒットした文字列の該当部分を反転表示することもできます。
透明テキスト付きPDFのアイデアは、恐らくOCR関係者が考えたものと思います。仕組みを聞いてみれば、特に驚くほどのことはないですが、こういうアイデアを初めて考え出した人は、なかなかすごいものですね。
一昔前のスキャナソフトは、OCRで文字認識した結果を、MicrosoftWord、Excelあるいは一太郎に変換できるのが売りだったと思います。いまのOCRソフトはすでにそのレベルは超えて、多くのものは、透明テキスト付きPDFまで作ることができるようです。......>(「透明テキスト付きPDF/PDF 千夜一夜 PDFなんでも情報ブログ by アンテナハウス株式会社/2005年12月09日」)
つまり、"透明テキスト付きPDF" ファイルには、 "画像データ" と、 "OCR(Optical Character Reader)" で文字認識された結果の "テキストデータ" とが "抱き合わせで二重化" されている、ということなのである。
したがって、文書内テキストが元のままに復元されていて、その個々のテキスト・ワードを逐一、検索できることになる。いわゆる "全文検索" が可能となるのである。 "アドビ・リーダー" という無料ソフトを使えば、PC内に保存してきた "透明テキスト付きPDF" ファイルを瞬時に "検索→閲覧" することができる。
"自前のPDF文書" を保存・蓄積していれば、まさに "自前のデータベース" が構築されていく、ということになるわけだ。
こうあってこそ、身の回りの "紙の文書" を、わざわざスキャンして "電子文書" とするその意味と甲斐とがあるというものであろう。
それで、 "自前のPDF文書" 作りにおいて "透明テキスト付きPDF" にするのに、大した苦労がいらないのもありがたい。
PC内の既存の "PDF文書" を、 "OCR" 機能を介して "透明テキスト付きPDF" に変換する低価格ソフトも出回っている。
また、従来型のスキャナーを使っている場合には、スキャンの際に "透明テキスト付きPDF" として出力させるための、低価格のお助けソフトもある。
さらに、これから "自前のPDF文書" 作りを始める場合には、昨今の低価格のスキャナーには、最初からスキャンする文書を "透明テキスト付きPDF" として出力してしまう便利な機能が組み込まれてもいる。
要するに、後日に "検索→閲覧" することを大前提にした "透明テキスト付きPDF" を作成するツール環境は、既に十分に整っているということなのである。
とにかく、この "透明テキスト付きPDF" という "隠れた工夫" こそが、 "ペーパーレス" 事業(?)では "縁の下の力持ち" の役目を担っていそうである...... (2010.07.25)
コメントする