"紙"書籍の"PDF電子書籍"化での"OCR"機能の優劣は、"読み上げ"機能の質に直結! ......

| | コメント(0) | トラックバック(0)

 現時点での"電子書籍" 化への関心は、<蔵書や "紙" 書籍の "PDF電子書籍" 化作業>という "部分" 的テーマに集中している。要するに、スキャニングを媒介とした "PDF電子書籍" 化のことである。
 そして、その中でも "全文検索可能なPDF" あるいは "読み上げ可能なPDF" の作成に凝っている。
 <関連情報>
  ◆<PDF電子書籍化で"全文検索"や"読み上げ"を望む場合は、Scan解像度設定に要注意!(当日誌 2010.09.11)>
  ◆<小説などの"PDF 電子書籍"を、"合成音声"で読ませてみる( by "Adobe Acrobat" )(当日誌 2010.08.26)>
 で、この関心がさらに煮詰まっているポイントはと言うと、スキャニング画像から "Text 文書" を "起こす" 機能を果たす "OCR" 機能を担うソフトなのである。

 この "OCR" 機能については、 "Adobe Acrobat" にせよ、他の、スキャナー付属の "PDF 統合ソフト"( c.f. "ScanSnap Organizer")にせよ、アドオン方式で内部に組込まれた "OCR" 機能を担うソフトと連携を図っているはずなのである。いわば、"お抱えの下請け" である "OCR" 機能ソフトに "Text 起こし" 作業を肩代わりさせている、ということになりそうだ。
 そして、それぞれの "PDF 統合ソフト" による "Text 起こし" の成果水準のありようは、ひとえにその "お抱え下請け" である "OCR" 機能ソフトの仕事の良し悪しに掛かっているというわけなのである。
 ところで、今自分はこの "お抱え下請け" である "OCR" 機能ソフトの "質" に関心を寄せることになっている。

 と言うのも、どういうものか自分の目下の関心は、より精度の高い "全文検索" であり、より正確な "読み上げ" に向かっているからなのである。これらの関心が深まり始めると、とりあえず検索が可能であったり、まずまず聴けるといった水準から、よりパーフェクトな水準を期待するようになる。
 たとえば、より正確な "読み上げ" を望めば、処理済の "透明テキスト付PDF" から "テキスト" 部分を取り出して、原稿を見ながらの "補正" をするという作業が必要となるのだが、これが結構 "辛気臭い" 作業なのである。パンフレット程度の小規模な文書ならばともかく、2、3百ページの書籍ともなると、ふと、ナンデこんなことしてるのかなぁ......、と嘆かわしく感じたりもするのである。
 で、より "優れもの" の "お抱え下請け" = "OCR" 機能ソフトを待望せずにはいられないのである。

 ちなみに、同じスキャニング処理済みの "(透明テキストなし)PDF" を使って、 "Adobe Acrobat" やスキャナー付属の "PDF 統合ソフト" で幾通りかの処理をしてみると、やはり "Text 起こし" の実態に隠し切れない "差" があるのがわかった。一概には、どれがどうだとまでは言い切れないのであるが、それなりに "優劣" がありそうな感触だけは持ったものである。
 そして、今、使えそうかな、と思っているのは、『 読んde!!ココ Ver.13/エー・アイ・ソフト 』であろうか。かなり以前に購入、インストールしていながらもずっと使わずにいたものを、ここに来て思い出したように "評価(?)" している次第なのである...... (2010.09.15)













【 SE Assessment 】 【 プロジェクトα 再挑戦者たち 】








トラックバック(0)

このブログ記事を参照しているブログ一覧: "紙"書籍の"PDF電子書籍"化での"OCR"機能の優劣は、"読み上げ"機能の質に直結! ......

このブログ記事に対するトラックバックURL: http://adhocrat.net/mt/mt-tb.cgi/1253

コメントする

2020年11月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          














関連サイトへのリンク


  • 電子書籍(eBooks)制作にフォーカスしたサイト
  • 明けない夜はないことを確信するサイト
  • Green(地球環境改善)にフォーカスしたサイト
  • ソフトウェア技術者やSEのための評価と育成、人事考課制度を考えるサイト
  • さまざまな業種・業態でご利用可能なモバイル活用の予約システム!
  • 創作小説『海念と保兵衛』のサイト
  • 創作小説『かもめたちの行方』のサイト
  • 当ブログ推奨の商品を展示したAmazon ストアー!
  • 当AdhocBlogブログの過去のエントリー
  • 株式会社アドホクラット当時のサイト

★売れ筋! No.1!
家庭用"放射線測定器"

日本通信 bモバイルWiFi ルータ+1 ヶ月定額SIM BM-U300W-1M
価格:¥ 20,208
国内配送料無料 Amazon





このブログ記事について

このページは、yasuo hiroseが2010年9月15日 00:01に書いたブログ記事です。

ひとつ前のブログ記事は、
 「蔵書の"PDF電子書籍"化でも、書籍内移動の"リンク"機能の埋め込みを活用したい!
です。

次のブログ記事は、
 「<がん細胞を内部から破壊=「トロイの木馬」血液細胞-林原研究所>/「ホゾティ」! ......
です。

最近のコンテンツは、
 インデックスページ
で見られます。

過去に書かれたものは、
 アーカイブのページ
で見られます。

年月別アーカイブ

最近のトラックバック