"読んde!!ココ"×"Adobe Acrobat"で、"紙"書籍からの厳密な"Text 文書起こし"! ......

| | コメント(0) | トラックバック(0)

  "紙" 書籍を "PDF電子書籍" 化することによる、よりパーフェクトな "読み上げ" 達成を目指し、"凝る" ことひとしおである。
 もはや、スキャン付属ソフトや "Adobe Acrobat" 組込まれた "OCR" 機能ソフトでは "物足りない" ことがジワジワとわかってきたのである。
 いや、"物足りない" というよりは、それらによって処理された "誤読認識" や "歯抜け" 読み取りなどでは、まさに "聴くに耐えない" 読み上げしかままならないからだ。
 まあ、 "キーワード検索" くらいならば何とか可能ではあるが、いわゆる "全文検索" などはムリと言うべきかもしれない。

 ところで、 "紙" 書籍の文書などを"PDF電子書籍"化し、電子化された "Text" を "読み上げ" させる際の "難関" としては、もとより "漢字の読み" がどれだけ妥当であるかという問題も潜伏しているのである。こちらの方は、"読み上げ" ソフト側の "辞書" のあり方に関わっていて、 "OCR" 機能とは別問題である。
 ただ、こうした "難関" も潜んでいるだけに、 "Text 起こし" が "誤読認識" で頼りないものであれば、それこそ "シッチャカ、メッチャカ" な "読み上げ" 結果が生まれてしまい、とても "朗読" を聴かせてもらっている心境とはなれないわけだ。

 さらに、まだほかにも "難関" は控えている。
 大体、書籍というものには "段組" やらその他いろいろな "レイアウト" があるものだ。いや、それ以前に、 "縦書き"、"横書き" の別もあるし、加えて昨今では "縦書き" 文書の中に、 "横に寝かせたアルファベット" が混じることも珍しくはない。
 この辺が、総合的な能力を持つ人間では可能であっても、所詮プログラムである "OCR" 機能ソフトが躓くところなのである。
 つまり、 "Text" を "Text" として認識するだけでは足りず、各ページのこうした一連の "構造" をも認識しなければ、卒のない "読み上げ" には到達できないのである。

 この間、「自分は一体何をやっているんだろう? 」と悲観するような試行錯誤をくり返していたのも、こうしたナンダカンダの伏兵に悩まされて、まともな "読み上げ" になかなか近づけなかったからなのであった。
 で、やっと「この手順ならば何とか行けそうか」と思しき、そんな方法に到達できたかのようである。
 それを簡略に言うと次のようになる。
 先ず、スキャニングによって実現された "画像段階" の "PDF電子書籍" を、『読んde!!ココ Ver.13/エー・アイ・ソフト』 を使って "Text 文書起こし" を行う。
 そして、ここでの "Text 認識結果" を、<読んde!!ココ Ver.13>が "連携" する "Adobe Acrobat" へ "転送" して、 "Acrobat" によって "最終" の "PDF電子書籍" ファイルに仕上げる、というものである。

 手順のシナリオだけを見ると、ナルホドの一言で終わってしまうが、なぜこんな "回りくどい" ことをしなければならないか......。この詳細については、後日に回すことになるが、とりあえずこの方法によって "ほぼパーフェクト!" な "読み上げ" が実現できそうである。
 
 一時は、 "透明テキスト付PDF" ファイルとしての "PDF電子書籍" ファイルのメリットを諦めて、単に "読み上げ" だけが可能な "Text" ファイルで我慢しようかと譲歩する思いも生じた。が、どうにか、 "Text" と "Text 画像" とが一体化した正真正銘の "透明テキスト付PDF" ファイルとして仕上げることができそうなのである...... (2010.09.18)













【 SE Assessment 】 【 プロジェクトα 再挑戦者たち 】








トラックバック(0)

このブログ記事を参照しているブログ一覧: "読んde!!ココ"×"Adobe Acrobat"で、"紙"書籍からの厳密な"Text 文書起こし"! ......

このブログ記事に対するトラックバックURL: http://adhocrat.net/mt/mt-tb.cgi/1256

コメントする

2020年11月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          














関連サイトへのリンク


  • 電子書籍(eBooks)制作にフォーカスしたサイト
  • 明けない夜はないことを確信するサイト
  • Green(地球環境改善)にフォーカスしたサイト
  • ソフトウェア技術者やSEのための評価と育成、人事考課制度を考えるサイト
  • さまざまな業種・業態でご利用可能なモバイル活用の予約システム!
  • 創作小説『海念と保兵衛』のサイト
  • 創作小説『かもめたちの行方』のサイト
  • 当ブログ推奨の商品を展示したAmazon ストアー!
  • 当AdhocBlogブログの過去のエントリー
  • 株式会社アドホクラット当時のサイト

★売れ筋! No.1!
家庭用"放射線測定器"

日本通信 bモバイルWiFi ルータ+1 ヶ月定額SIM BM-U300W-1M
価格:¥ 20,208
国内配送料無料 Amazon





このブログ記事について

このページは、yasuo hiroseが2010年9月18日 00:01に書いたブログ記事です。

ひとつ前のブログ記事は、
 「"PDF電子書籍"化/蔵書のような"自身と密着した書籍"の"読み上げ"こそが妙味! ......
です。

次のブログ記事は、
 「正確な"読み上げ"="全文検索"が可能な、自分なりの"透明テキスト付PDF"作成方法! ......
です。

最近のコンテンツは、
 インデックスページ
で見られます。

過去に書かれたものは、
 アーカイブのページ
で見られます。

年月別アーカイブ

最近のトラックバック