PDF電子書籍化で"全文検索"や"読み上げ"を望む場合は、Scan解像度設定に要注意! ......

| | コメント(0) | トラックバック(0)

 <蔵書の "PDF電子書籍" 化作業>の意味・目的を改めて問うならば、"紙の書籍" では望めない "全文検索"、"キーワード検索"、さらに "読み上げ" が可能になる、という点がどうしても浮かび上がってくるはずである。
  "蔵書、紙の書籍" を "電子化" してPCなり、"iPhone、iPad、および iPod touch" などのポータブルな端末の PDF リーダーで読むという効用も有難いことではあるし、 "ペーパーレス" の結果に伴うメリットという点も小さくはない。
 しかし、"蔵書、紙の書籍" の "電子化(PDF化)" に託された期待は、やはりそれだけではないはずであり、 "全文検索"、"キーワード検索" が可能となることや、あるいは "読み上げ" も可能となることではなかろうか。
 もしこれらが可能となった場合のメリットは決して小さくないはずだ。"読み上げ" による "(聴き)ながら読み" は理解度を高めることにつながろうし、聴くだけでも内容に親しむことになろう。
 また、 "紙の書籍" が "貴重な文献" などである場合には、"全文検索" が可能となれば、 "調べごと" や "文献研究" などは大いに捗るのではなかろうか。
 また、 "コピペ" も思いのままとなるため、 "引用" 作業がラクになるというメリットもあろう......。

 ここで言い添えれば、同じ "PDF電子書籍" 化であっても、こうした、"蔵書、紙の書籍" の "電子化(PDF化)" ではなくて、 "Text 文書" などを "PDF電子書籍" 化した場合には、元の "Text 文書" が "保持" されているわけなのだから、 "全文検索"、"キーワード検索" にしても、"読み上げ" にしても実現されて "当たり前" なのである。
 以前に、<小説などの"PDF 電子書籍"を、"合成音声"で読ませてみる( by "Adobe Acrobat" )(当日誌 2010.08.26)>でレポートした内容は、 "Text 文書" などを "PDF電子書籍" 化した場合のケースであった。

 ところが、"蔵書、紙の書籍" の "電子化(PDF化)" の場合は、"蔵書、紙の書籍" の活字が画像としてスキャニングされてとりあえず "画像" ページだけの "PDF電子書籍" が出来上がるのは周知の事実である。
 これでは、 "Text" を対象として進められる "全文検索"、"キーワード検索" にしても、"読み上げ" にしても "立つ瀬がない" ことになる。
 ちなみに、スキャニング直後の "画像" ページだけの "PDF電子書籍" に対して、"Adobe Acrobat" のメニューバーから「表示」⇒「読み上げ」をクリックしてみると、次のようなメッセージボックスが表示される。
<このページには、スキャンしたページの画像だけが含まれています。テキスト文字はありません。文字の解析を実行して、このページのテキストにアクセスできるようにしますか?......>( "Adobe Acrobat" )
 つまり、「画像だけ」のページの "活字像" は、実質的な "Text" へと "変換" されなければ、 "Text" を対象とした "全文検索"、"キーワード検索"、"読み上げ" を叶えないということなのである。そして、その "変換" を実行するのは、"Adobe Acrobat" などのソフトに組込まれている "OCR プログラム" なのである。
 "Adobe Acrobat" では、そのメニューバーから「文書」⇒「OCR を使用してテキストとして認識」をクリックして行くと、多少時間がかかるが、この "変換" がなされて、 "透明テキスト" のレイヤーが被せられて、いわゆる<透明テキスト付きPDF>ファイルが作り上げられることになる。

 さて、以上のような事情から、"蔵書、紙の書籍" の "電子化(PDF化)" の場合は、スキャニングの後で、「OCR を使用してテキストとして認識」させる "作業工程" が不可欠となろう。 "検索" や "読み上げ" を望むならば、である。
 ところで、この段階の "OCR" は結構な割合で "誤読" することも知っておかなければならない。少なくとも、スキャニング時の環境設定で、スキャニング解像度が "300 dpi" 未満であるとボロボロと "誤読" してしまうようだ。
 自分の経験からすると、ほぼパーフェクトな結果を得るために、"ScanSnap S1500" においては以下のように設定している。
 ■ 画質の選択:エクセレント(カラー/グレー:600 dpi、白黒:1200dpi)
 ■ カラーモードの選択:白黒
 つまり、やや余裕を持たせて "解像度 1200dpi" を選択しているのである。 "300 dpi" がミニマムで、 "600 dpi" ならまずまず、余裕を持って "1200dpi" ということなのである。
 こうして実行しても、現時点での "OCR" は、縦書き文章の中に埋め込まれた "横文字(アルファベット)" などを "了解しない" のは残念である......。

 蔵書など"紙の書籍" の "PDF電子書籍" 化作業については、単にポータブル・リーダーで読めればいいという段階から、その活用目的に応じた "ステップアップ" が必要な段階に来ているのかもしれない...... (2010.09.11)













【 SE Assessment 】 【 プロジェクトα 再挑戦者たち 】








トラックバック(0)

このブログ記事を参照しているブログ一覧: PDF電子書籍化で"全文検索"や"読み上げ"を望む場合は、Scan解像度設定に要注意! ......

このブログ記事に対するトラックバックURL: http://adhocrat.net/mt/mt-tb.cgi/1249

コメントする

2020年11月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          














関連サイトへのリンク


  • 電子書籍(eBooks)制作にフォーカスしたサイト
  • 明けない夜はないことを確信するサイト
  • Green(地球環境改善)にフォーカスしたサイト
  • ソフトウェア技術者やSEのための評価と育成、人事考課制度を考えるサイト
  • さまざまな業種・業態でご利用可能なモバイル活用の予約システム!
  • 創作小説『海念と保兵衛』のサイト
  • 創作小説『かもめたちの行方』のサイト
  • 当ブログ推奨の商品を展示したAmazon ストアー!
  • 当AdhocBlogブログの過去のエントリー
  • 株式会社アドホクラット当時のサイト

★売れ筋! No.1!
家庭用"放射線測定器"

日本通信 bモバイルWiFi ルータ+1 ヶ月定額SIM BM-U300W-1M
価格:¥ 20,208
国内配送料無料 Amazon





このブログ記事について

このページは、yasuo hiroseが2010年9月11日 00:01に書いたブログ記事です。

ひとつ前のブログ記事は、
 「同梱付属ソフト"ScanSnap Organizerビューアー/編集"は「傾き補正」作業で効果的! ......
です。

次のブログ記事は、
 「新規抗菌薬(多剤耐性アシネトバクター、NDM1系の菌等に対抗)の開発が危機的状況! ......
です。

最近のコンテンツは、
 インデックスページ
で見られます。

過去に書かれたものは、
 アーカイブのページ
で見られます。

年月別アーカイブ

最近のトラックバック