PDF電子文書技術活用のすすめ_②/"透明テキスト付きPDF"でPDF文書の検索が可能! ......

| | コメント(0) | トラックバック(0)

 通常、スキャナーで読み取った文書は "画像情報" となる。もちろん、写真などをスキャンすれば文字通り "画像情報" として読み取られ、保存の際には、保存ファイルの拡張子を ".bmp" にするか ".jpg" にするか、といった選択が迫られるわけだ。
 そして、こうした方式でスキャンされたデータを後で閲覧する時には、 "ファイル名" による "検索" で探すしかないことになる。
 もっとも、写真などの文字通りの画像データであれば、さほどの苦労ではないかもしれない。だが、もしスキャンした情報が "テキスト" を含む文書だとして、その中のとある文脈などを探していたならば、それらが "画像情報" として扱われているという状態はかなり厄介なことになりそうである。
 何しろ、 "ファイル名" だけでは区別できない文書内テキストに関心がある場合、それらを逐一 "検索" することができないからである。こうした状態下では、こうした貴重な情報も結局、閲覧されたり再利用されたりすることなく "埋没" してしまうことになりそうである。
 どんな情報にせよ、データベース的な仕組みなどによって自在に "検索" され閲覧されてこそ、活用の可能性が広がるはずであろう。
 こうした観点が、十分に考慮されているのが昨今の "PDF文書" なのであり、何あろうその "立役者" が "透明テキスト付きPDF" なのだと思われる。

<透明テキスト付きPDF
 紙に印刷された書類をスキャンして、スキャナーが生成したイメージからPDFファイルを作成した場合、次の問題があります。もともと文字で表されている情報なのに、PDFファイルでは文字情報として扱えないことです。
 すなわち、コンピュータで文字情報を取り扱うためには、文字をコード化されたデータとして扱わなければならないのに、スキャンした結果は画像だからです。この問題を解決するのが透明テキスト付きPDFです。
 透明テキスト付PDFとは、スキャナーで読み取った画像をOCR機能をつかって文字を認識し、コード化した情報(テキスト)として、PDFの画像の上に透明属性を持たせて重ねたもの。PDFファイルの内容である文字情報を利用したいときは、テキストを取り出して利用できます。また、PDFファイルの中を検索してヒットした文字列の該当部分を反転表示することもできます。
 透明テキスト付きPDFのアイデアは、恐らくOCR関係者が考えたものと思います。仕組みを聞いてみれば、特に驚くほどのことはないですが、こういうアイデアを初めて考え出した人は、なかなかすごいものですね。
 一昔前のスキャナソフトは、OCRで文字認識した結果を、MicrosoftWord、Excelあるいは一太郎に変換できるのが売りだったと思います。いまのOCRソフトはすでにそのレベルは超えて、多くのものは、透明テキスト付きPDFまで作ることができるようです。......>(「透明テキスト付きPDF/PDF 千夜一夜 PDFなんでも情報ブログ by アンテナハウス株式会社/2005年12月09日」

 つまり、"透明テキスト付きPDF" ファイルには、 "画像データ" と、 "OCR(Optical Character Reader)" で文字認識された結果の "テキストデータ" とが "抱き合わせで二重化" されている、ということなのである。
 したがって、文書内テキストが元のままに復元されていて、その個々のテキスト・ワードを逐一、検索できることになる。いわゆる "全文検索" が可能となるのである。 "アドビ・リーダー" という無料ソフトを使えば、PC内に保存してきた "透明テキスト付きPDF" ファイルを瞬時に "検索→閲覧" することができる。
  "自前のPDF文書" を保存・蓄積していれば、まさに "自前のデータベース" が構築されていく、ということになるわけだ。
 こうあってこそ、身の回りの "紙の文書" を、わざわざスキャンして "電子文書" とするその意味と甲斐とがあるというものであろう。

 それで、 "自前のPDF文書" 作りにおいて "透明テキスト付きPDF" にするのに、大した苦労がいらないのもありがたい。
 PC内の既存の "PDF文書" を、 "OCR" 機能を介して "透明テキスト付きPDF" に変換する低価格ソフトも出回っている。
 また、従来型のスキャナーを使っている場合には、スキャンの際に "透明テキスト付きPDF" として出力させるための、低価格のお助けソフトもある。
 さらに、これから "自前のPDF文書" 作りを始める場合には、昨今の低価格のスキャナーには、最初からスキャンする文書を "透明テキスト付きPDF" として出力してしまう便利な機能が組み込まれてもいる。
 要するに、後日に "検索→閲覧" することを大前提にした "透明テキスト付きPDF" を作成するツール環境は、既に十分に整っているということなのである。
 とにかく、この "透明テキスト付きPDF" という "隠れた工夫" こそが、 "ペーパーレス" 事業(?)では "縁の下の力持ち" の役目を担っていそうである...... (2010.07.25)













【 SE Assessment 】 【 プロジェクトα 再挑戦者たち 】








トラックバック(0)

このブログ記事を参照しているブログ一覧: PDF電子文書技術活用のすすめ_②/"透明テキスト付きPDF"でPDF文書の検索が可能! ......

このブログ記事に対するトラックバックURL: http://adhocrat.net/mt/mt-tb.cgi/1201

コメントする

2020年11月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          














関連サイトへのリンク


  • 電子書籍(eBooks)制作にフォーカスしたサイト
  • 明けない夜はないことを確信するサイト
  • Green(地球環境改善)にフォーカスしたサイト
  • ソフトウェア技術者やSEのための評価と育成、人事考課制度を考えるサイト
  • さまざまな業種・業態でご利用可能なモバイル活用の予約システム!
  • 創作小説『海念と保兵衛』のサイト
  • 創作小説『かもめたちの行方』のサイト
  • 当ブログ推奨の商品を展示したAmazon ストアー!
  • 当AdhocBlogブログの過去のエントリー
  • 株式会社アドホクラット当時のサイト

★売れ筋! No.1!
家庭用"放射線測定器"

日本通信 bモバイルWiFi ルータ+1 ヶ月定額SIM BM-U300W-1M
価格:¥ 20,208
国内配送料無料 Amazon





このブログ記事について

このページは、yasuo hiroseが2010年7月25日 00:01に書いたブログ記事です。

ひとつ前のブログ記事は、
 「PDF電子文書技術活用のすすめ_①/"iPad"="iBooks"はPDF文書対応/PDF脆弱性問題 ......
です。

次のブログ記事は、
 「PDF電子文書技術活用のすすめ_③/ウェブページ情報を"PDF文書"化保存して管理! ......
です。

最近のコンテンツは、
 インデックスページ
で見られます。

過去に書かれたものは、
 アーカイブのページ
で見られます。

年月別アーカイブ

最近のトラックバック