"紙" 書籍を "PDF電子書籍" 化することによる、よりパーフェクトな "読み上げ" 達成を目指し、"凝る" ことひとしおである。
もはや、スキャン付属ソフトや "Adobe Acrobat" 組込まれた "OCR" 機能ソフトでは "物足りない" ことがジワジワとわかってきたのである。
いや、"物足りない" というよりは、それらによって処理された "誤読認識" や "歯抜け" 読み取りなどでは、まさに "聴くに耐えない" 読み上げしかままならないからだ。
まあ、 "キーワード検索" くらいならば何とか可能ではあるが、いわゆる "全文検索" などはムリと言うべきかもしれない。
ところで、 "紙" 書籍の文書などを"PDF電子書籍"化し、電子化された "Text" を "読み上げ" させる際の "難関" としては、もとより "漢字の読み" がどれだけ妥当であるかという問題も潜伏しているのである。こちらの方は、"読み上げ" ソフト側の "辞書" のあり方に関わっていて、 "OCR" 機能とは別問題である。
ただ、こうした "難関" も潜んでいるだけに、 "Text 起こし" が "誤読認識" で頼りないものであれば、それこそ "シッチャカ、メッチャカ" な "読み上げ" 結果が生まれてしまい、とても "朗読" を聴かせてもらっている心境とはなれないわけだ。
さらに、まだほかにも "難関" は控えている。
大体、書籍というものには "段組" やらその他いろいろな "レイアウト" があるものだ。いや、それ以前に、 "縦書き"、"横書き" の別もあるし、加えて昨今では "縦書き" 文書の中に、 "横に寝かせたアルファベット" が混じることも珍しくはない。
この辺が、総合的な能力を持つ人間では可能であっても、所詮プログラムである "OCR" 機能ソフトが躓くところなのである。
つまり、 "Text" を "Text" として認識するだけでは足りず、各ページのこうした一連の "構造" をも認識しなければ、卒のない "読み上げ" には到達できないのである。
この間、「自分は一体何をやっているんだろう? 」と悲観するような試行錯誤をくり返していたのも、こうしたナンダカンダの伏兵に悩まされて、まともな "読み上げ" になかなか近づけなかったからなのであった。
で、やっと「この手順ならば何とか行けそうか」と思しき、そんな方法に到達できたかのようである。
それを簡略に言うと次のようになる。
先ず、スキャニングによって実現された "画像段階" の "PDF電子書籍" を、『読んde!!ココ Ver.13/エー・アイ・ソフト』 を使って "Text 文書起こし" を行う。
そして、ここでの "Text 認識結果" を、<読んde!!ココ Ver.13>が "連携" する "Adobe Acrobat" へ "転送" して、 "Acrobat" によって "最終" の "PDF電子書籍" ファイルに仕上げる、というものである。
手順のシナリオだけを見ると、ナルホドの一言で終わってしまうが、なぜこんな "回りくどい" ことをしなければならないか......。この詳細については、後日に回すことになるが、とりあえずこの方法によって "ほぼパーフェクト!" な "読み上げ" が実現できそうである。
一時は、 "透明テキスト付PDF" ファイルとしての "PDF電子書籍" ファイルのメリットを諦めて、単に "読み上げ" だけが可能な "Text" ファイルで我慢しようかと譲歩する思いも生じた。が、どうにか、 "Text" と "Text 画像" とが一体化した正真正銘の "透明テキスト付PDF" ファイルとして仕上げることができそうなのである...... (2010.09.18)
コメントする