"自炊 PDF"から"OCR"機能で"テキスト"を起こした後の"透明テキスト"を編集する! ......

| | コメント(0) | トラックバック(0)

 "PDF 電子書籍(eBook)" における<正確な"読み上げ">にこだわるあまり、スキャナー付属の "OCR" 機能では満足できず、"OCR 専用ソフト" である<"読んde!!ココ">を利用している。
 その結果、ほぼ "全文" のテキストをカバーすることができ、"読み上げ" 音声を "mp3" ファイルに仕上げ、"朗読風メディア" にして活用している。( c.f. <"読み上げ"を可能にした"PDF 電子書籍"の音声を、"mp3"に変換の上"iPod touch"へ(当日誌 22010.10.07)>
 正直言って手間の掛かる作業ではあるのだが、仕上がったメディアの小さくない利用価値を改めて実感させられる。聴いているだけで思考が促進させられるので、ウォーキングの際などには有意義な時間を過ごせるというわけである。

 ところで、前から関心を持っていたのだが、"PDF" のあの "透明テキスト(付 PDF)" というものの技術面での構造はどうなっているのだろうか......。未だ、ビジュアルな解説に出会ったことがないので、疑問が残り続けていた。そこで、ちょいと "面白半分" の小手先遊びをしてみた。
 ちなみに、"Adobe Acrobat" においては、 "透明テキスト(付 PDF)" 部分を "TouchUp テキストツール" (メニューバーの「ツール」⇒「高度な編集」)で "なぞる" ことや "消去" ができる。あるいは、"加筆" することも場合によっては可能なのである。
 しかし、なんせ "画像テキスト一字一字" の上に被(かぶ)せられている "透明な状態" な文字にアプローチするのは結構厄介なこととなる。
 そこで、何か "良い手(?)" はなかろうかと "裏口(?)" に回って "変則技(?)" に及んだのである......。

 上記の "TouchUp テキストツール" をアクティブにして、ページ全体の "透明テキスト" 部分を選択し、その部分で "右クリック" して「プロパティ」から「TouchUp のプロパティ」ウィザード画面に入る。
 そして、フォントに関する「塗りつぶし」の "カラーなし" を、たとえば目立つ "赤" あたりの色に変えてしまうのである。
 すると、笑っちゃうのだが、"画像テキスト一字一字" の上(多少はズレている)に "赤文字" が "被(かぶ)さって" 表示されるのである。言ってみればこれは、"透明人間" に "赤ペンキ" をぶっ掛けた格好であり、その "姿がありあり" となるのである。こうなると、修正編集は俄然し易くなるというものである。
 そして、編集作業が終わったならば、再度、 "透明テキスト" 部分、いや "赤字部分" 全体を選択し、「TouchUp のプロパティ」ウィザード画面に戻り、「塗りつぶし」の部分を "カラーなし" に戻してやれば、再び "透明人間" に舞い戻ってくれるのである。
 この "変則技(?)" を使えば、程度の悪い "OCR" の誤認識部分を、原文どおりの文字に "修正編集" をすることも可能となるはずである。

 ところで、ついでだから、ページ全体が、"赤ペンキ" の "透明人間" になっている段階で、そのページ中の何らかの単語を "検索" を試してみるのもおもしろい。"検索" 結果として "反転表示" される単語は、"画像テキスト" の単語にあらず、まさに "赤字" の単語なのであり、"検索" が対象としていたのが、"透明テキスト" 部分であったことが一目瞭然なのである。"検索" をした場合に、しばしば多少の "位置ズレ" が認められる原因はコレだったのである。
 また、この "透明テキスト" 部分は "独特の書式" でもあるのか、いささか "ナーバス" であるようだ。"文頭" の入力や、"改行" などは意外と思うようにならなかったりする。だから、なおさらのこと "透明人間" に "赤ペンキ" なりをぶっ掛けてかかり、確認しながら手探りで進めなければならないのである。
 また、"透明テキスト" 部分の "フォント" と異なる "フォント" がシステム・フォントとして代用されている場合は、修正編集が拒絶されるということもあり得る...... (2010.10.29)













【 SE Assessment 】 【 プロジェクトα 再挑戦者たち 】








トラックバック(0)

このブログ記事を参照しているブログ一覧: "自炊 PDF"から"OCR"機能で"テキスト"を起こした後の"透明テキスト"を編集する! ......

このブログ記事に対するトラックバックURL: http://adhocrat.net/mt/mt-tb.cgi/1297

コメントする

2020年11月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          














関連サイトへのリンク


  • 電子書籍(eBooks)制作にフォーカスしたサイト
  • 明けない夜はないことを確信するサイト
  • Green(地球環境改善)にフォーカスしたサイト
  • ソフトウェア技術者やSEのための評価と育成、人事考課制度を考えるサイト
  • さまざまな業種・業態でご利用可能なモバイル活用の予約システム!
  • 創作小説『海念と保兵衛』のサイト
  • 創作小説『かもめたちの行方』のサイト
  • 当ブログ推奨の商品を展示したAmazon ストアー!
  • 当AdhocBlogブログの過去のエントリー
  • 株式会社アドホクラット当時のサイト

★売れ筋! No.1!
家庭用"放射線測定器"

日本通信 bモバイルWiFi ルータ+1 ヶ月定額SIM BM-U300W-1M
価格:¥ 20,208
国内配送料無料 Amazon





このブログ記事について

このページは、yasuo hiroseが2010年10月29日 00:07に書いたブログ記事です。

ひとつ前のブログ記事は、
 「"ePub 電子書籍"制作でも、書籍内ジャンプ移動を配慮した"リンク"機能は装備必須 ......
です。

次のブログ記事は、
 「"鳥瞰"と"微細"の両視点(遠近両用メガネ?)を可能とする"PDF ファイル"の良さ!? ......
です。

最近のコンテンツは、
 インデックスページ
で見られます。

過去に書かれたものは、
 アーカイブのページ
で見られます。

年月別アーカイブ

最近のトラックバック