厳密に"読み上げ"可能な"PDF 電子書籍"作りの隘路は､やはり"Text 文書起こし"！ ......

　このところ、蔵書のうちのとある一冊を素材にして、＜① スキャニング＞ ⇒ ＜② "PDF電子書籍"化＞ ⇒ ＜③ "Text 文書起こし"＝正確な "読み上げ"="全文検索" を可能とする前提作り＞ ⇒ ＜④ 複数ページを一ファイルの "透明テキスト付PDF"ファイルに再編＞という一連の手順と方法をめぐって試行錯誤してきた。
　＜① スキャニング＞～＜② "PDF電子書籍"化＞では、＜"ScanSnap S1500"＞とその同梱付属ソフト "ScanSnap Organizer(ビューアー)" を使用している。
　この段階でも「検索可能なPDFに変換」の機能を使って "とりあえず" の "Text 文書起こし" をすることは可能ではある。ほとんど "自動" 処理で行われるのはありがたいのだが、しかしそれはあくまでも「検索可能な」という達成水準でしかない。決して "読み上げ" とその聴き取りに耐えられるものとは言えない。この点については、この間に何度も書いてきたところだし、だからこそ "Text 文書起こし" という観点にこだわり始めたわけでもある。

　そこで、＜③ "Text 文書起こし"＝正確な "読み上げ"="全文検索" を可能とする前提作り＞という "やや手間のかかる" 作業が持ち上がってきたのである。そのソフトツールは、"OCR 機能" がコアとなったソフト＜"読んde!!ココ"＞である。
　ただこのソフトは、単独で "透明テキスト付PDF" を仕上げたり、その複数ページを統合して一ファイルにまとめたりする "エディティング" にまでを守備範囲とはしていない。
　その代わり、ページ単位で "Text 文書起こし" したファイルを "Adobe Acrobat" に "転送" して、 "あとはヨロシクね！" という段取りまではする、という "協調性(?)" に長けているのである。

　ということで、＜④ 複数ページを一ファイルの "透明テキスト付PDF" ファイルに再編＞という作業を担当するのが、PDF の統合ソフトである "Adobe Acrobat" ということになる。
　＜"読んde!!ココ"＞から "転送" されたファイル類は、ここで "スキャン画像" と "透明テキスト"とがピッタリと重ね合わせられて "透明テキスト付PDF" ファイルに再編されるわけだ。と同時に、複数ページが "一ファイル" へと再編統合される。
　要するに、 "一本の透明テキスト付PDF" ファイルに仕上がるわけだ。見た目はスキャニング直後に作成された "画像のみの PDF" と何ら変わらない。が、重ねられている "透明テキスト" 部分には、画像としてのテキスト部分がほぼ完全なかたちで "Text データ" として内包されており、それらがより正確な "読み上げ" = "全文検索" を可能とする前提材料をなしているわけなのである。

　振り返ってみると、こうした一連の "変換" 作業の "隘路（ボトルネック）" は、やはり＜③ "Text 文書起こし"＝正確な "読み上げ"="全文検索" を可能とする前提作り＞ということになるのかなぁ、と痛感している。
　この段階は、"OCR" 処理の精度にも関わっていようが、個々の文字判読の精度のみならず、ページの文書構造など単純ではない条件が含まれているため、"人間による総合判断" が必要となっているように思われるからだ。
　したがって、この段階の作業支援に切り込もうとしているソフト＜"読んde!!ココ"＞の操作が、ある意味ではまどろっこしいけれども、その分 "遣り甲斐" があると言えばそうも言えそうな気がしている。"人間による総合判断" が相応にウエイトを占めているからである。
　そんなわけで、現時点では＜"読んde!!ココ"＞の操作習熟に一段と熱が入っているところである......　(2010.09.20）

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

厳密に"読み上げ"可能な"PDF 電子書籍"作りの隘路は､やはり"Text 文書起こし"！ ......

トラックバック(0)

コメントする

2020年11月

ウェブページ

関連サイトへのリンク

QRcode for Smartphone

QRcode for Keitai

検索

このブログ記事について

カテゴリ別アーカイブ

最近のトラックバック

このブログの購読

厳密に"読み上げ"可能な"PDF 電子書籍"作りの隘路は､やはり"Text 文書起こし"！ ......

トラックバック(0)

コメントする

2020年11月

ウェブページ

関連サイトへのリンク

QRcode for Smartphone

QRcode for Keitai

検索

このブログ記事について

カテゴリ別アーカイブ

年月別アーカイブ

最近のトラックバック

このブログの購読