<蔵書の "PDF電子書籍" 化作業>の意味・目的を改めて問うならば、"紙の書籍" では望めない "全文検索"、"キーワード検索"、さらに "読み上げ" が可能になる、という点がどうしても浮かび上がってくるはずである。
"蔵書、紙の書籍" を "電子化" してPCなり、"iPhone、iPad、および iPod touch" などのポータブルな端末の PDF リーダーで読むという効用も有難いことではあるし、 "ペーパーレス" の結果に伴うメリットという点も小さくはない。
しかし、"蔵書、紙の書籍" の "電子化(PDF化)" に託された期待は、やはりそれだけではないはずであり、 "全文検索"、"キーワード検索" が可能となることや、あるいは "読み上げ" も可能となることではなかろうか。
もしこれらが可能となった場合のメリットは決して小さくないはずだ。"読み上げ" による "(聴き)ながら読み" は理解度を高めることにつながろうし、聴くだけでも内容に親しむことになろう。
また、 "紙の書籍" が "貴重な文献" などである場合には、"全文検索" が可能となれば、 "調べごと" や "文献研究" などは大いに捗るのではなかろうか。
また、 "コピペ" も思いのままとなるため、 "引用" 作業がラクになるというメリットもあろう......。
ここで言い添えれば、同じ "PDF電子書籍" 化であっても、こうした、"蔵書、紙の書籍" の "電子化(PDF化)" ではなくて、 "Text 文書" などを "PDF電子書籍" 化した場合には、元の "Text 文書" が "保持" されているわけなのだから、 "全文検索"、"キーワード検索" にしても、"読み上げ" にしても実現されて "当たり前" なのである。
以前に、<小説などの"PDF 電子書籍"を、"合成音声"で読ませてみる( by "Adobe Acrobat" )(当日誌 2010.08.26)>でレポートした内容は、 "Text 文書" などを "PDF電子書籍" 化した場合のケースであった。
ところが、"蔵書、紙の書籍" の "電子化(PDF化)" の場合は、"蔵書、紙の書籍" の活字が画像としてスキャニングされてとりあえず "画像" ページだけの "PDF電子書籍" が出来上がるのは周知の事実である。
これでは、 "Text" を対象として進められる "全文検索"、"キーワード検索" にしても、"読み上げ" にしても "立つ瀬がない" ことになる。
ちなみに、スキャニング直後の "画像" ページだけの "PDF電子書籍" に対して、"Adobe Acrobat" のメニューバーから「表示」⇒「読み上げ」をクリックしてみると、次のようなメッセージボックスが表示される。
<このページには、スキャンしたページの画像だけが含まれています。テキスト文字はありません。文字の解析を実行して、このページのテキストにアクセスできるようにしますか?......>( "Adobe Acrobat" )
つまり、「画像だけ」のページの "活字像" は、実質的な "Text" へと "変換" されなければ、 "Text" を対象とした "全文検索"、"キーワード検索"、"読み上げ" を叶えないということなのである。そして、その "変換" を実行するのは、"Adobe Acrobat" などのソフトに組込まれている "OCR プログラム" なのである。
"Adobe Acrobat" では、そのメニューバーから「文書」⇒「OCR を使用してテキストとして認識」をクリックして行くと、多少時間がかかるが、この "変換" がなされて、 "透明テキスト" のレイヤーが被せられて、いわゆる<透明テキスト付きPDF>ファイルが作り上げられることになる。
さて、以上のような事情から、"蔵書、紙の書籍" の "電子化(PDF化)" の場合は、スキャニングの後で、「OCR を使用してテキストとして認識」させる "作業工程" が不可欠となろう。 "検索" や "読み上げ" を望むならば、である。
ところで、この段階の "OCR" は結構な割合で "誤読" することも知っておかなければならない。少なくとも、スキャニング時の環境設定で、スキャニング解像度が "300 dpi" 未満であるとボロボロと "誤読" してしまうようだ。
自分の経験からすると、ほぼパーフェクトな結果を得るために、"ScanSnap S1500" においては以下のように設定している。
■ 画質の選択:エクセレント(カラー/グレー:600 dpi、白黒:1200dpi)
■ カラーモードの選択:白黒
つまり、やや余裕を持たせて "解像度 1200dpi" を選択しているのである。 "300 dpi" がミニマムで、 "600 dpi" ならまずまず、余裕を持って "1200dpi" ということなのである。
こうして実行しても、現時点での "OCR" は、縦書き文章の中に埋め込まれた "横文字(アルファベット)" などを "了解しない" のは残念である......。
蔵書など"紙の書籍" の "PDF電子書籍" 化作業については、単にポータブル・リーダーで読めればいいという段階から、その活用目的に応じた "ステップアップ" が必要な段階に来ているのかもしれない...... (2010.09.11)
コメントする