このところ、蔵書のうちのとある一冊を素材にして、<① スキャニング> ⇒ <② "PDF電子書籍"化> ⇒ <③ "Text 文書起こし"=正確な "読み上げ"="全文検索" を可能とする前提作り> ⇒ <④ 複数ページを一ファイルの "透明テキスト付PDF"ファイルに再編>という一連の手順と方法をめぐって試行錯誤してきた。
<① スキャニング>~<② "PDF電子書籍"化>では、<"ScanSnap S1500">とその同梱付属ソフト "ScanSnap Organizer(ビューアー)" を使用している。
この段階でも「検索可能なPDFに変換」の機能を使って "とりあえず" の "Text 文書起こし" をすることは可能ではある。ほとんど "自動" 処理で行われるのはありがたいのだが、しかしそれはあくまでも「検索可能な」という達成水準でしかない。決して "読み上げ" とその聴き取りに耐えられるものとは言えない。この点については、この間に何度も書いてきたところだし、だからこそ "Text 文書起こし" という観点にこだわり始めたわけでもある。
そこで、<③ "Text 文書起こし"=正確な "読み上げ"="全文検索" を可能とする前提作り>という "やや手間のかかる" 作業が持ち上がってきたのである。そのソフトツールは、"OCR 機能" がコアとなったソフト<"読んde!!ココ">である。
ただこのソフトは、単独で "透明テキスト付PDF" を仕上げたり、その複数ページを統合して一ファイルにまとめたりする "エディティング" にまでを守備範囲とはしていない。
その代わり、ページ単位で "Text 文書起こし" したファイルを "Adobe Acrobat" に "転送" して、 "あとはヨロシクね!" という段取りまではする、という "協調性(?)" に長けているのである。
ということで、<④ 複数ページを一ファイルの "透明テキスト付PDF" ファイルに再編>という作業を担当するのが、PDF の統合ソフトである "Adobe Acrobat" ということになる。
<"読んde!!ココ">から "転送" されたファイル類は、ここで "スキャン画像" と "透明テキスト"とがピッタリと重ね合わせられて "透明テキスト付PDF" ファイルに再編されるわけだ。と同時に、複数ページが "一ファイル" へと再編統合される。
要するに、 "一本の透明テキスト付PDF" ファイルに仕上がるわけだ。見た目はスキャニング直後に作成された "画像のみの PDF" と何ら変わらない。が、重ねられている "透明テキスト" 部分には、画像としてのテキスト部分がほぼ完全なかたちで "Text データ" として内包されており、それらがより正確な "読み上げ" = "全文検索" を可能とする前提材料をなしているわけなのである。
振り返ってみると、こうした一連の "変換" 作業の "隘路(ボトルネック)" は、やはり<③ "Text 文書起こし"=正確な "読み上げ"="全文検索" を可能とする前提作り>ということになるのかなぁ、と痛感している。
この段階は、"OCR" 処理の精度にも関わっていようが、個々の文字判読の精度のみならず、ページの文書構造など単純ではない条件が含まれているため、"人間による総合判断" が必要となっているように思われるからだ。
したがって、この段階の作業支援に切り込もうとしているソフト<"読んde!!ココ">の操作が、ある意味ではまどろっこしいけれども、その分 "遣り甲斐" があると言えばそうも言えそうな気がしている。"人間による総合判断" が相応にウエイトを占めているからである。
そんなわけで、現時点では<"読んde!!ココ">の操作習熟に一段と熱が入っているところである...... (2010.09.20)
コメントする