"PDF 電子書籍(eBook)" における<正確な"読み上げ">にこだわるあまり、スキャナー付属の "OCR" 機能では満足できず、"OCR 専用ソフト" である<"読んde!!ココ">を利用している。
その結果、ほぼ "全文" のテキストをカバーすることができ、"読み上げ" 音声を "mp3" ファイルに仕上げ、"朗読風メディア" にして活用している。( c.f. <"読み上げ"を可能にした"PDF 電子書籍"の音声を、"mp3"に変換の上"iPod touch"へ(当日誌 22010.10.07)>)
正直言って手間の掛かる作業ではあるのだが、仕上がったメディアの小さくない利用価値を改めて実感させられる。聴いているだけで思考が促進させられるので、ウォーキングの際などには有意義な時間を過ごせるというわけである。
ところで、前から関心を持っていたのだが、"PDF" のあの "透明テキスト(付 PDF)" というものの技術面での構造はどうなっているのだろうか......。未だ、ビジュアルな解説に出会ったことがないので、疑問が残り続けていた。そこで、ちょいと "面白半分" の小手先遊びをしてみた。
ちなみに、"Adobe Acrobat" においては、 "透明テキスト(付 PDF)" 部分を "TouchUp テキストツール" (メニューバーの「ツール」⇒「高度な編集」)で "なぞる" ことや "消去" ができる。あるいは、"加筆" することも場合によっては可能なのである。
しかし、なんせ "画像テキスト一字一字" の上に被(かぶ)せられている "透明な状態" な文字にアプローチするのは結構厄介なこととなる。
そこで、何か "良い手(?)" はなかろうかと "裏口(?)" に回って "変則技(?)" に及んだのである......。
上記の "TouchUp テキストツール" をアクティブにして、ページ全体の "透明テキスト" 部分を選択し、その部分で "右クリック" して「プロパティ」から「TouchUp のプロパティ」ウィザード画面に入る。
そして、フォントに関する「塗りつぶし」の "カラーなし" を、たとえば目立つ "赤" あたりの色に変えてしまうのである。
すると、笑っちゃうのだが、"画像テキスト一字一字" の上(多少はズレている)に "赤文字" が "被(かぶ)さって" 表示されるのである。言ってみればこれは、"透明人間" に "赤ペンキ" をぶっ掛けた格好であり、その "姿がありあり" となるのである。こうなると、修正編集は俄然し易くなるというものである。
そして、編集作業が終わったならば、再度、 "透明テキスト" 部分、いや "赤字部分" 全体を選択し、「TouchUp のプロパティ」ウィザード画面に戻り、「塗りつぶし」の部分を "カラーなし" に戻してやれば、再び "透明人間" に舞い戻ってくれるのである。
この "変則技(?)" を使えば、程度の悪い "OCR" の誤認識部分を、原文どおりの文字に "修正編集" をすることも可能となるはずである。
ところで、ついでだから、ページ全体が、"赤ペンキ" の "透明人間" になっている段階で、そのページ中の何らかの単語を "検索" を試してみるのもおもしろい。"検索" 結果として "反転表示" される単語は、"画像テキスト" の単語にあらず、まさに "赤字" の単語なのであり、"検索" が対象としていたのが、"透明テキスト" 部分であったことが一目瞭然なのである。"検索" をした場合に、しばしば多少の "位置ズレ" が認められる原因はコレだったのである。
また、この "透明テキスト" 部分は "独特の書式" でもあるのか、いささか "ナーバス" であるようだ。"文頭" の入力や、"改行" などは意外と思うようにならなかったりする。だから、なおさらのこと "透明人間" に "赤ペンキ" なりをぶっ掛けてかかり、確認しながら手探りで進めなければならないのである。
また、"透明テキスト" 部分の "フォント" と異なる "フォント" がシステム・フォントとして代用されている場合は、修正編集が拒絶されるということもあり得る...... (2010.10.29)
コメントする