"紙" 書籍をスキャニングして "PDF 変換" をしただけで、"PDF 電子書籍(eBook)" でござい! と言うのはやはりイージー過ぎるかと思われる。仮に、「検索可能なPDF」へと自動変換したとしてもである。
たとえば、その水準の仕上がりで視覚障害者が "読み上げ" を聴いて、その書籍の内容が了解できるのか、という一点を考えただけでも "不完全" だとしか言いようがないと思われる。
現在では、ウェブページの "読み上げ" も一般化しており、その要求度に応えられないウェブ作成が問題視されるほどである。
"PDF 電子書籍(eBook)" が、時代を一歩先んじたメディアだと言うのであれば、"かなり精度の高い"、そんな "読み上げ" を可能とする条件を備えて然るべきだと思えてならない。
また、書籍内 "検索" をする場合であっても、キーワード検索だけではなくて、やはり "全文検索" が可能であることが望まれるのではなかろうか。通り一遍の "読み" から一歩踏み込んで "深読み" してみたい、そんな読者にも応えられるためには、"全文" が検索対象になっている必要があろうかと......。
まあ、書籍にもいろいろと種類がある(漫画などもある)から一概に決めつけることもなかろうが、自分としてはどうしても"かなり精度の高い読み上げ" や "全文検索" が可能という水準を "PDF 電子書籍(eBook)" の必要条件に加えておきたいと思っている。
こんな "縛り(?)" があるため、ちょいと気になる "紙" 書籍をスキャニングすると、 "後工程" の作業が結構大変で、<"読んde!!ココ">を使っての "Text 文書起こし" に余念がない......。
ちなみに、その作業概要は以前にも書いたとおりである。
< このところ、蔵書のうちのとある一冊を素材にして、<① スキャニング> ⇒ <② "PDF電子書籍"化> ⇒ <③ "Text 文書起こし"=正確な "読み上げ"="全文検索" を可能とする前提作り> ⇒ <④ 複数ページを一ファイルの "透明テキスト付PDF"ファイルに再編>という一連の手順と方法をめぐって試行錯誤してきた。
<① スキャニング>~<② "PDF電子書籍"化>では、<"ScanSnap S1500">とその同梱付属ソフト "ScanSnap Organizer(ビューアー)" を使用している。
この段階でも「検索可能なPDFに変換」の機能を使って "とりあえず" の "Text 文書起こし" をすることは可能ではある。ほとんど "自動" 処理で行われるのはありがたいのだが、しかしそれはあくまでも「検索可能な」という達成水準でしかない。決して "読み上げ" とその聴き取りに耐えられるものとは言えない。......だからこそ "Text 文書起こし" という観点にこだわり始めたわけでもある。
そこで、<③ "Text 文書起こし"=正確な "読み上げ"="全文検索" を可能とする前提作り>という "やや手間のかかる" 作業が持ち上がってきたのである。そのソフトツールは、"OCR 機能" がコアとなったソフト<"読んde!!ココ">である。
ただこのソフトは、単独で "透明テキスト付PDF" を仕上げたり、その複数ページを統合して一ファイルにまとめたりする "エディティング" にまでを守備範囲とはしていない。
その代わり、ページ単位で "Text 文書起こし" したファイルを "Adobe Acrobat" に "転送" して、 "あとはヨロシクね!" という段取りまではする、という "協調性(?)" に長けているのである。
ということで、<④ 複数ページを一ファイルの "透明テキスト付PDF" ファイルに再編>という作業を担当するのが、PDF の統合ソフトである "Adobe Acrobat" ということになる。>(<厳密に"読み上げ"可能な"PDF 電子書籍"作りの隘路は、やはり"Text 文書起こし"!(当日誌 2010.09.20)>)
以下の関連日誌も参照してください。
◆<正確な"読み上げ"="全文検索"が可能な、自分なりの"透明テキスト付PDF"作成方法!(当日誌 2010.09.19)>
◆<"読んde!!ココ"×"Adobe Acrobat"で、"紙"書籍からの厳密な"Text 文書起こし"!(当日誌 2010.09.18)>
しかし、煩雑に思える作業工程も、同じ事を繰り返していると当然慣れてしまう。
とりあえずスキャニングしてキープした "PDF" のソース・ファイルを "小分け" にして<"読んde!!ココ">の作業画面に読み込む。次に、ページ単位でその画像を取り上げながら、"テキスト認識" のための "枠" を設定したりしながら、"認識" の "変換" を行う。そして、"認識結果の読み上げ" で再チェックをして一ページ分が "落着" する。
こうして "小分け" した数十ページが完了したならば、これを "Adobe Acrobat" に転送して "部分として保存" しておく。必要とあれば、これらの "PDF" を "結合" して一冊丸ごとの "PDF 電子書籍(eBook)" に仕立て上げることもできるというわけだ。
こういう作業自体を自分独自の "読書スタイル" だと思い込んだりすれば、案外、苦にならずに作業が捗(はかど)ったりもするというわけである...... (2010.10.05)
コメントする