正確な"読み上げ"="全文検索"が可能な、自分なりの"透明テキスト付PDF"作成方法! ......

| | コメント(0) | トラックバック(0)

 昨日書いた<"読んde!!ココ"×"Adobe Acrobat"で、"紙"書籍からの厳密な"Text 文書起こし"!>の詳細をついでに書いておきたい。
 まあ、この辺まで来ると、手順が幾分煩雑になるので、よほどこの種のテーマに関心を持っている方とか、いわゆる "マニア" 的な方にしか響かないような気もしている。
 しかし、逆に、ここまで "凝る" のでなければ、"透明テキスト付PDF" の真価であるところの<正確な "読み上げ" = "全文検索" >という可能性を丸ごと享受することはできないのではないかと思っている。
  "舌足らず" の説明に終わっている懸念がありそうだが、"凝り性" なあなた向けに下記のとおり記述します。前提となるアプリケーション・ソフトは、"読んde!!ココ" と "Adobe Acrobat" となります。どうぞ参考にしていただくとともに、もしほかに良い方法があれば教えていただきたいと思います......。

① "読んde!!ココ" のメニューバーから「ファイル」⇒「PDFファイルから取り込む」で、スキャン完了で作成した "画像のみのPDF" ファイルを選択する。
 すると、画面左側に "取り込んだPDF画像" のページがサムネールで列記される。

② サムネールの "任意のページ" をクリック。画面中央に "任意のページ" が表示される。これは、"画像のみのPDF" の "画像" である。

③ ツールバーから「領域抽出」をクリック。表示されているページに、 "領域枠" が "赤線" の枠で表示される。 "画像" ページのどの部分を "(Text)変換" するのかが定められたのである。
 同時に、 "領域枠" のそれぞれには "4種類の条件が盛り込まれたアイコン" が併記される。(1)「認識パラメータ」(読み上げ順序)の数字、(2)枠種別(文字、表、イメージの別)のアイコン、(3)モード(日本語、英語、日英混在の別)を表示する旗のアイコン、(4)スタイル(自動判別、横書き、縦書きの別)を表示する矢印アイコンなどの意味。
※ なお、この "領域枠" は差し当たって "自動" でなされるわけだが、それを "消去" して、ユーザーが自由度をもって独自に設定することができる。むしろ、そうした方が良さそうである。

④ ツールバーから「認識」をクリック。画面右側に「認識結果」という "Text 変換" された文章が表示される。上記の "領域枠" のそれぞれに見合った "Text" が、 "OCR" 処理がなされて表示される。ちなみに、この "文面" こそが、いわゆる "透明テキスト" に相当するものなのである。
 これに、 "修正" を加えられる点が、"読んde!!ココ" の "セールスポイント" かと思われる。
※ なお、この "文面" は、 "画像レイアウト・位置" と対応しているため、テキストの "誤読" のほかに大きく変容させると、 "透明テキスト付PDF" を "全文検索" した時に、 "画像" としてのテキストを正確に "反転表示" しないでズレることになる......。

⑤ 「認識結果」が出たところで、そのページの左側サムネールをクリックして、"アプリケーションへの転送" の手順に入る。なお、"アプリケーション" とは差し当たり "Adobe Acrobat" としておく。

⑥ この設定のために、 "読んde!!ココ" のメニューバーから「オプション」⇒「転送先アプリケーション設定」で「Acrobat」のチェックボックスにチェックを入れておく。すると、ツールバーに「Acrobat」のボタンが追加表示されることになる。

⑦ そして次に、上記⑤での左側サムネールの選択がなされた状態で、「Acrobat」のボタンの右側の「下向き矢印」ボタンをクリックする。下段に「pdf(透明テキスト)」、「pdf(標準)」の別が表示されているので、「pdf(透明テキスト)」の方をクリックする。
※ ここで「pdf(標準)」の方をクリックして転送すると、「Acrobat」側には、「認識結果」の "文面" のみが転送されて、スキャン時に作成された "画像" が無視されてしまうので不本意な結果に終わることになる。

⑧ 「アプリケーションに転送しました。」というメッセージが表示され、「Acrobat」が起動されて "転送" された "PDFページ" が表示されている。

⑨ ここで、「Acrobat」の方に移動するのだが、これで、「Acrobat」のメニューバーから「表示」⇒「読み上げ」をクリックすれば、転送されて来た "PDFページ" の "透明テキスト" が "読み上げ" られることになる。だが、その前に、 "読み上げ" に関する「Acrobat」側の "環境設定" をしておかなければならない。

⑩ 「Acrobat」のメニューバーから「編集」⇒「環境設定」をクリックし、そのウィザード画面の「分類」から最後尾の「読み方」をクリックする。
 そして、最上段の「読み上げ順序オプション」-「読み上げ順序」で、「印刷ストリーミングの読み上げ順序を使用」を選択しておく。
 これで、"読んde!!ココ" で、「認識パラメータ」(読み上げ順序)の "数字順" に "認識" させたとおりに "読み上げ" が実行されることになる。

⑪ で、「Acrobat」のメニューバーから「表示」⇒「読み上げ」をクリックすれば、ほぼ正確な "読み上げ" がなされるはずであり、同時にほぼ正確な"全文検索" が可能な "透明テキスト付PDF" が完成したことになる。
 「Acrobat」のメニューバーから「ファイル」⇒「名前を付けて保存」へと進み、任意のフォルダーに任意の名前を付した "PDF" ファイルを保存することができる。

 ふと思うことは、"紙" 書籍というものは、"画像" データだけで存立し、"Text" データが "取り出しにくく埋没" していることによって、"著作権" 侵害の風潮に対して自然に防波堤を築いているのかなぁ......、ということ。
 そうしてみると、"紙" 書籍からの "Text データ起こし" というテーマは、かなり "ビミョー" な色彩で彩られているのかもしれない...... (2010.09.19)













【 SE Assessment 】 【 プロジェクトα 再挑戦者たち 】








トラックバック(0)

このブログ記事を参照しているブログ一覧: 正確な"読み上げ"="全文検索"が可能な、自分なりの"透明テキスト付PDF"作成方法! ......

このブログ記事に対するトラックバックURL: http://adhocrat.net/mt/mt-tb.cgi/1257

コメントする

2020年11月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          














関連サイトへのリンク


  • 電子書籍(eBooks)制作にフォーカスしたサイト
  • 明けない夜はないことを確信するサイト
  • Green(地球環境改善)にフォーカスしたサイト
  • ソフトウェア技術者やSEのための評価と育成、人事考課制度を考えるサイト
  • さまざまな業種・業態でご利用可能なモバイル活用の予約システム!
  • 創作小説『海念と保兵衛』のサイト
  • 創作小説『かもめたちの行方』のサイト
  • 当ブログ推奨の商品を展示したAmazon ストアー!
  • 当AdhocBlogブログの過去のエントリー
  • 株式会社アドホクラット当時のサイト

★売れ筋! No.1!
家庭用"放射線測定器"

日本通信 bモバイルWiFi ルータ+1 ヶ月定額SIM BM-U300W-1M
価格:¥ 20,208
国内配送料無料 Amazon





このブログ記事について

このページは、yasuo hiroseが2010年9月19日 00:01に書いたブログ記事です。

ひとつ前のブログ記事は、
 「"読んde!!ココ"×"Adobe Acrobat"で、"紙"書籍からの厳密な"Text 文書起こし"! ......
です。

次のブログ記事は、
 「厳密に"読み上げ"可能な"PDF 電子書籍"作りの隘路は、やはり"Text 文書起こし"! ......
です。

最近のコンテンツは、
 インデックスページ
で見られます。

過去に書かれたものは、
 アーカイブのページ
で見られます。

年月別アーカイブ

最近のトラックバック