正確な"読み上げ"と"全文検索可"という条件が備わって"PDF 電子書籍(eBook)"!? ......

| | コメント(0) | トラックバック(0)

 "紙" 書籍をスキャニングして "PDF 変換" をしただけで、"PDF 電子書籍(eBook)" でござい! と言うのはやはりイージー過ぎるかと思われる。仮に、「検索可能なPDF」へと自動変換したとしてもである。
 たとえば、その水準の仕上がりで視覚障害者が "読み上げ" を聴いて、その書籍の内容が了解できるのか、という一点を考えただけでも "不完全" だとしか言いようがないと思われる。
 現在では、ウェブページの "読み上げ" も一般化しており、その要求度に応えられないウェブ作成が問題視されるほどである。
 "PDF 電子書籍(eBook)" が、時代を一歩先んじたメディアだと言うのであれば、"かなり精度の高い"、そんな "読み上げ" を可能とする条件を備えて然るべきだと思えてならない。
 また、書籍内 "検索" をする場合であっても、キーワード検索だけではなくて、やはり "全文検索" が可能であることが望まれるのではなかろうか。通り一遍の "読み" から一歩踏み込んで "深読み" してみたい、そんな読者にも応えられるためには、"全文" が検索対象になっている必要があろうかと......。
 まあ、書籍にもいろいろと種類がある(漫画などもある)から一概に決めつけることもなかろうが、自分としてはどうしても"かなり精度の高い読み上げ" や "全文検索" が可能という水準を "PDF 電子書籍(eBook)" の必要条件に加えておきたいと思っている。

 こんな "縛り(?)" があるため、ちょいと気になる "紙" 書籍をスキャニングすると、 "後工程" の作業が結構大変で、<"読んde!!ココ">を使っての "Text 文書起こし" に余念がない......。
 ちなみに、その作業概要は以前にも書いたとおりである。

< このところ、蔵書のうちのとある一冊を素材にして、<① スキャニング> ⇒ <② "PDF電子書籍"化> ⇒ <③ "Text 文書起こし"=正確な "読み上げ"="全文検索" を可能とする前提作り> ⇒ <④ 複数ページを一ファイルの "透明テキスト付PDF"ファイルに再編>という一連の手順と方法をめぐって試行錯誤してきた。
 <① スキャニング>~<② "PDF電子書籍"化>では、<"ScanSnap S1500">とその同梱付属ソフト "ScanSnap Organizer(ビューアー)" を使用している。
 この段階でも「検索可能なPDFに変換」の機能を使って "とりあえず" の "Text 文書起こし" をすることは可能ではある。ほとんど "自動" 処理で行われるのはありがたいのだが、しかしそれはあくまでも「検索可能な」という達成水準でしかない。決して "読み上げ" とその聴き取りに耐えられるものとは言えない。......だからこそ "Text 文書起こし" という観点にこだわり始めたわけでもある。
 そこで、<③ "Text 文書起こし"=正確な "読み上げ"="全文検索" を可能とする前提作り>という "やや手間のかかる" 作業が持ち上がってきたのである。そのソフトツールは、"OCR 機能" がコアとなったソフト<"読んde!!ココ">である。
 ただこのソフトは、単独で "透明テキスト付PDF" を仕上げたり、その複数ページを統合して一ファイルにまとめたりする "エディティング" にまでを守備範囲とはしていない。
 その代わり、ページ単位で "Text 文書起こし" したファイルを "Adobe Acrobat" に "転送" して、 "あとはヨロシクね!" という段取りまではする、という "協調性(?)" に長けているのである。
 ということで、<④ 複数ページを一ファイルの "透明テキスト付PDF" ファイルに再編>という作業を担当するのが、PDF の統合ソフトである "Adobe Acrobat" ということになる。>(<厳密に"読み上げ"可能な"PDF 電子書籍"作りの隘路は、やはり"Text 文書起こし"!(当日誌 2010.09.20)>

 以下の関連日誌も参照してください。
<正確な"読み上げ"="全文検索"が可能な、自分なりの"透明テキスト付PDF"作成方法!(当日誌 2010.09.19)>
<"読んde!!ココ"×"Adobe Acrobat"で、"紙"書籍からの厳密な"Text 文書起こし"!(当日誌 2010.09.18)>

 しかし、煩雑に思える作業工程も、同じ事を繰り返していると当然慣れてしまう。
 とりあえずスキャニングしてキープした "PDF" のソース・ファイルを "小分け" にして<"読んde!!ココ">の作業画面に読み込む。次に、ページ単位でその画像を取り上げながら、"テキスト認識" のための "枠" を設定したりしながら、"認識" の "変換" を行う。そして、"認識結果の読み上げ" で再チェックをして一ページ分が "落着" する。
 こうして "小分け" した数十ページが完了したならば、これを "Adobe Acrobat" に転送して "部分として保存" しておく。必要とあれば、これらの "PDF" を "結合" して一冊丸ごとの "PDF 電子書籍(eBook)" に仕立て上げることもできるというわけだ。
 こういう作業自体を自分独自の "読書スタイル" だと思い込んだりすれば、案外、苦にならずに作業が捗(はかど)ったりもするというわけである...... (2010.10.05)













【 SE Assessment 】 【 プロジェクトα 再挑戦者たち 】








トラックバック(0)

このブログ記事を参照しているブログ一覧: 正確な"読み上げ"と"全文検索可"という条件が備わって"PDF 電子書籍(eBook)"!? ......

このブログ記事に対するトラックバックURL: http://adhocrat.net/mt/mt-tb.cgi/1273

コメントする

2020年11月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          














関連サイトへのリンク


  • 電子書籍(eBooks)制作にフォーカスしたサイト
  • 明けない夜はないことを確信するサイト
  • Green(地球環境改善)にフォーカスしたサイト
  • ソフトウェア技術者やSEのための評価と育成、人事考課制度を考えるサイト
  • さまざまな業種・業態でご利用可能なモバイル活用の予約システム!
  • 創作小説『海念と保兵衛』のサイト
  • 創作小説『かもめたちの行方』のサイト
  • 当ブログ推奨の商品を展示したAmazon ストアー!
  • 当AdhocBlogブログの過去のエントリー
  • 株式会社アドホクラット当時のサイト

★売れ筋! No.1!
家庭用"放射線測定器"

日本通信 bモバイルWiFi ルータ+1 ヶ月定額SIM BM-U300W-1M
価格:¥ 20,208
国内配送料無料 Amazon





このブログ記事について

このページは、yasuo hiroseが2010年10月 5日 00:01に書いたブログ記事です。

ひとつ前のブログ記事は、
 「久々の"HDDクローン・コピィ"/VersionUpされたFreeの"EASEUS Partition Master" ......
です。

次のブログ記事は、
 「秋の夜長、"iPod touch(⇒SkyBook)"にて"青空文庫"の"古典"にハマれば心安らぐ!? ......
です。

最近のコンテンツは、
 インデックスページ
で見られます。

過去に書かれたものは、
 アーカイブのページ
で見られます。

年月別アーカイブ

最近のトラックバック