"Text起こし"無しで"画像文字"だけの"自炊PDFファイル"は,"電子書籍"ではない! ......

| | コメント(0) | トラックバック(0)

 "紙の書籍" がデジタル・データ化されていさえすれば、"電子書籍" だと言って憚(はばか)らない誤った風潮は改められるべきかと思う。
 "紙の書籍" を、オートフィーダー付高速スキャナーでデジタル化して、"PDF ファイル" を瞬時に作成する方法のメリットは十分に評価できる。実に興味深い方法であり、"自炊" と呼ばれるこの方法には自分も随分と親しんでいる。
 ただ、この方法によってもたらされる成果については、もっと正確に認識されるべきであろう。結論から言えば、この成果は "電子書籍" への "前提作り" であるに過ぎず、決して額面通りの "電子書籍" にはなっていない! という点なのである。

 一体、"全文検索" や "読み上げ" が "不可能!" である単なる画像スキャニング・データが、"電子書籍" と呼ばれていいわけがない。
 そう呼ぶのは自由だとしても、通常の電子書籍( "ePub eBook" 水準 )と同等の期待感を抱かせるのはほとんど "詐欺(?)" に近いのかもしれない。
 よく、"ペーパレス化" というフレーズも飛び交っている。確かに、"ペーパレス" にはなるだろう。しかし、"書類を写真に撮ること" と本質的には変わらない "スキャニングによるPDF化" は、事業に携わっている側の期待に応えた "ペーパレス化" だと言えるのであろうか。
 事業者側には、既存書類の文面の "再利用!" という要望が必ずあるはずだと推測できる。テキストなどの "再入力" の手間を省いて、既存の "テキスト・データ" を活用したいという合理的な要望である。これが叶えられてこそ、有意味な事務所内 "ペーパレス化" だと言えよう。
 しかし、大半の "スキャニングによるPDF化" は、書類や書籍のページの画像イメージを(jpeg)画像記録するに過ぎない。確かに、この画像に含まれる "文字画像" を、付属の "OCR ソフト" によって "テキスト" へと変換する "付録" が付いてはいる。
 だが、こうした "付録" レベルの機能によっては、"全文検索" や "読み上げ" が可能となる程のまともな "Text起こし" は望めない。それが実情である。

 "ペーパレス化" と "電子書籍" とは、同じ評価水準で考えられていい。"全文検索" や "読み上げ" が不可能、もしくはそれに近い "PDF ファイル" を、通常の "電子書籍" だと見なして読み始めた人の失望感は計り知れないだろう。
 "キーワード検索" も不備・不可能なら、"辞書機能" とて同様。まして、"読み上げ" に至っては "何語" だかも判別し難いデタラメぶり......。こんな事ならば、インクの香りが残っていた "紙の書籍" の方が良かったと後悔する場合だってあるだろう......。

 昨今の自分は、専ら "ePub 電子書籍" に目を向けているが、"自炊" 方式で "PDFファイル" を作る際には、その可能性と "限界"、そして "電子書籍" に近づけるためには意外と "手間が掛かる!" という点を痛感せざるを得ないのである。


 以下、これらに関する過去のエントリーを列記しておく。

―――― < "紙" 書籍を "PDF電子書籍" 化することによる、よりパーフェクトな "読み上げ" 達成を目指し、"凝る" ことひとしおである。
 もはや、スキャン付属ソフトや "Adobe Acrobat" 組込まれた "OCR" 機能ソフトでは "物足りない" ことがジワジワとわかってきたのである。
 いや、"物足りない" というよりは、それらによって処理された "誤読認識" や "歯抜け" 読み取りなどでは、まさに "聴くに耐えない" 読み上げしかままならないからだ。
 まあ、 "キーワード検索" くらいならば何とか可能ではあるが、いわゆる "全文検索" などはムリと言うべきかもしれない。
 ところで、 "紙" 書籍の文書などを"PDF電子書籍"化し、電子化された "Text" を "読み上げ" させる際の "難関" としては、もとより "漢字の読み" がどれだけ妥当であるかという問題も潜伏しているのである。こちらの方は、"読み上げ" ソフト側の "辞書" のあり方に関わっていて、"OCR" 機能とは別問題である。
 ただ、こうした "難関" も潜んでいるだけに、 "Text 起こし" が "誤読認識" で頼りないものであれば、それこそ "シッチャカ、メッチャカ" な "読み上げ" 結果が生まれてしまい、とても "朗読" を聴かせてもらっている心境とはなれないわけだ。>
下記の (5) "読んde!!ココ"×"Adobe Acrobat"で、"紙"書籍からの厳密な"Text 文書起こし"!( 当誌 2010.09.18 )


 なお、以下の関連する過去エントリーについても参考にしていただきたい。

■参照 (0) キーワード "PDF" による "AdhocBlog" の検索結果!( 当誌 )

◆〃 (1) 「青空キンドル」が出力する"フォント埋め込み"済み"PDF"は、"iPodなど"でもOK!( 当誌 2010.09.22 )
◆〃 (2) "Kindle(キンドル)"が照らし出す、PDFと"フォント埋め込み"問題/「青空キンドル」 ( 当誌 2010.09.21 )
◆〃 (3) 厳密に"読み上げ"可能な"PDF 電子書籍"作りの隘路は、やはり"Text 文書起こし"!( 当誌 2010.09.20 )
◆〃 (4) 正確な"読み上げ"="全文検索"が可能な、自分なりの"透明テキスト付PDF"作成方法! ( 当誌 2010.09.19 )
◆〃 (5) "読んde!!ココ"×"Adobe Acrobat"で、"紙"書籍からの厳密な"Text 文書起こし"!( 当誌 2010.09.18 )
◆〃 (6) "PDF電子書籍"化/蔵書のような"自身と密着した書籍"の"読み上げ"こそが妙味!( 当誌 2010.09.17 )
◆〃 (7) "紙"書籍の"PDF電子書籍"化での"OCR"機能の優劣は,"読み上げ"機能の質に直結!( 当誌 2010.09.15 )
◆〃 (8) PDF電子書籍化で"全文検索"や"読み上げ"を望む場合は,Scan解像度設定に要注意!( 当誌 2011.09.11 )
◆〃 (9) 自前"Webページ(スクリプト)"の "PDF 電子書籍" 化/この種の作業は"職人仕事"! ( 当誌 2010.09.01 )
◆〃 (10) "Text 文書"のスマートな"PDF変換"方法!/"iBooks"の"本棚/PDF"でも実に快適に! ( 当誌 2010.08.28 )


 口幅ったい事を言うつもりはないが、IT関連のアウトプットについては、"何が可能で、何は不能!" という常識的な定義の表明は不可欠ではないかと思う...... (2011.07.04)













【 SE Assessment 】 【 プロジェクトα 再挑戦者たち 】








トラックバック(0)

このブログ記事を参照しているブログ一覧: "Text起こし"無しで"画像文字"だけの"自炊PDFファイル"は,"電子書籍"ではない! ......

このブログ記事に対するトラックバックURL: http://adhocrat.net/mt/mt-tb.cgi/1564

コメントする

2020年11月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          














関連サイトへのリンク


  • 電子書籍(eBooks)制作にフォーカスしたサイト
  • 明けない夜はないことを確信するサイト
  • Green(地球環境改善)にフォーカスしたサイト
  • ソフトウェア技術者やSEのための評価と育成、人事考課制度を考えるサイト
  • さまざまな業種・業態でご利用可能なモバイル活用の予約システム!
  • 創作小説『海念と保兵衛』のサイト
  • 創作小説『かもめたちの行方』のサイト
  • 当ブログ推奨の商品を展示したAmazon ストアー!
  • 当AdhocBlogブログの過去のエントリー
  • 株式会社アドホクラット当時のサイト

★売れ筋! No.1!
家庭用"放射線測定器"

日本通信 bモバイルWiFi ルータ+1 ヶ月定額SIM BM-U300W-1M
価格:¥ 20,208
国内配送料無料 Amazon





このブログ記事について

このページは、yasuo hiroseが2011年7月 4日 00:01に書いたブログ記事です。

ひとつ前のブログ記事は、
 「Android機器は毎日50万台!/"Androidとつながる腕時計型デバイス/LiveView" ?......
です。

次のブログ記事は、
 「今のところ"ePub"では不可能な"縦書き,ルビふり"が鮮やかな "SkyBook,i文庫HD"! ......
です。

最近のコンテンツは、
 インデックスページ
で見られます。

過去に書かれたものは、
 アーカイブのページ
で見られます。

年月別アーカイブ

最近のトラックバック