厳密に"読み上げ"可能な"PDF 電子書籍"作りの隘路は、やはり"Text 文書起こし"! ......

| | コメント(0) | トラックバック(0)

 このところ、蔵書のうちのとある一冊を素材にして、<① スキャニング> ⇒ <② "PDF電子書籍"化> ⇒ <③ "Text 文書起こし"=正確な "読み上げ"="全文検索" を可能とする前提作り> ⇒ <④ 複数ページを一ファイルの "透明テキスト付PDF"ファイルに再編>という一連の手順と方法をめぐって試行錯誤してきた。
 <① スキャニング>~<② "PDF電子書籍"化>では、<"ScanSnap S1500">とその同梱付属ソフト "ScanSnap Organizer(ビューアー)" を使用している。
 この段階でも「検索可能なPDFに変換」の機能を使って "とりあえず" の "Text 文書起こし" をすることは可能ではある。ほとんど "自動" 処理で行われるのはありがたいのだが、しかしそれはあくまでも「検索可能な」という達成水準でしかない。決して "読み上げ" とその聴き取りに耐えられるものとは言えない。この点については、この間に何度も書いてきたところだし、だからこそ "Text 文書起こし" という観点にこだわり始めたわけでもある。

 そこで、<③ "Text 文書起こし"=正確な "読み上げ"="全文検索" を可能とする前提作り>という "やや手間のかかる" 作業が持ち上がってきたのである。そのソフトツールは、"OCR 機能" がコアとなったソフト<"読んde!!ココ">である。
 ただこのソフトは、単独で "透明テキスト付PDF" を仕上げたり、その複数ページを統合して一ファイルにまとめたりする "エディティング" にまでを守備範囲とはしていない。
 その代わり、ページ単位で "Text 文書起こし" したファイルを "Adobe Acrobat" に "転送" して、 "あとはヨロシクね!" という段取りまではする、という "協調性(?)" に長けているのである。

 ということで、<④ 複数ページを一ファイルの "透明テキスト付PDF" ファイルに再編>という作業を担当するのが、PDF の統合ソフトである "Adobe Acrobat" ということになる。
 <"読んde!!ココ">から "転送" されたファイル類は、ここで "スキャン画像" と "透明テキスト"とがピッタリと重ね合わせられて "透明テキスト付PDF" ファイルに再編されるわけだ。と同時に、複数ページが "一ファイル" へと再編統合される。
 要するに、 "一本の透明テキスト付PDF" ファイルに仕上がるわけだ。見た目はスキャニング直後に作成された "画像のみの PDF" と何ら変わらない。が、重ねられている "透明テキスト" 部分には、画像としてのテキスト部分がほぼ完全なかたちで "Text データ" として内包されており、それらがより正確な "読み上げ" = "全文検索" を可能とする前提材料をなしているわけなのである。

 振り返ってみると、こうした一連の "変換" 作業の "隘路(ボトルネック)" は、やはり<③ "Text 文書起こし"=正確な "読み上げ"="全文検索" を可能とする前提作り>ということになるのかなぁ、と痛感している。
 この段階は、"OCR" 処理の精度にも関わっていようが、個々の文字判読の精度のみならず、ページの文書構造など単純ではない条件が含まれているため、"人間による総合判断" が必要となっているように思われるからだ。
 したがって、この段階の作業支援に切り込もうとしているソフト<"読んde!!ココ">の操作が、ある意味ではまどろっこしいけれども、その分 "遣り甲斐" があると言えばそうも言えそうな気がしている。"人間による総合判断" が相応にウエイトを占めているからである。
 そんなわけで、現時点では<"読んde!!ココ">の操作習熟に一段と熱が入っているところである...... (2010.09.20)













【 SE Assessment 】 【 プロジェクトα 再挑戦者たち 】








トラックバック(0)

このブログ記事を参照しているブログ一覧: 厳密に"読み上げ"可能な"PDF 電子書籍"作りの隘路は、やはり"Text 文書起こし"! ......

このブログ記事に対するトラックバックURL: http://adhocrat.net/mt/mt-tb.cgi/1258

コメントする

2020年11月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          














関連サイトへのリンク


  • 電子書籍(eBooks)制作にフォーカスしたサイト
  • 明けない夜はないことを確信するサイト
  • Green(地球環境改善)にフォーカスしたサイト
  • ソフトウェア技術者やSEのための評価と育成、人事考課制度を考えるサイト
  • さまざまな業種・業態でご利用可能なモバイル活用の予約システム!
  • 創作小説『海念と保兵衛』のサイト
  • 創作小説『かもめたちの行方』のサイト
  • 当ブログ推奨の商品を展示したAmazon ストアー!
  • 当AdhocBlogブログの過去のエントリー
  • 株式会社アドホクラット当時のサイト

★売れ筋! No.1!
家庭用"放射線測定器"

日本通信 bモバイルWiFi ルータ+1 ヶ月定額SIM BM-U300W-1M
価格:¥ 20,208
国内配送料無料 Amazon





このブログ記事について

このページは、yasuo hiroseが2010年9月20日 00:01に書いたブログ記事です。

ひとつ前のブログ記事は、
 「正確な"読み上げ"="全文検索"が可能な、自分なりの"透明テキスト付PDF"作成方法! ......
です。

次のブログ記事は、
 「"Kindle(キンドル)"が照らし出す、PDFと"フォント埋め込み"問題/「青空キンドル」 ......
です。

最近のコンテンツは、
 インデックスページ
で見られます。

過去に書かれたものは、
 アーカイブのページ
で見られます。

年月別アーカイブ

最近のトラックバック