"透明テキスト付き"の"自炊 PDF"での、"フォント埋め込み"を"裏技"でやっつける? ......

| | コメント(0) | トラックバック(0)

 "PDF ファイルや電子書籍" に "フォント埋め込み" をするための最も "イージーな方法" は、"仮想プリンタ方法" であることは良く知られている。

<アプリケーション(ここでは "ブラウザ" になる)の「メニューバー」から、「ファイル」⇒「印刷」へと進み、"仮想プリンタ" としての "Adobe Acrobat" なり "PrimoPDF" なりを選択して、"PDF 作成" を実行させる方法、つまり "仮想プリンタ方法" >(<"Webページ"の"ePub"化(再)/"フォント埋め込み"ならば、"仮想プリンタ方法"か?! (当日誌 2010.10.15)>

 この方法を利用するならば、 "ブラウザ" を通した "Web ページ(Web スクリプト)" でも、"Text エディタ" を通した "Text 文書" でも、とにかく印刷可能なあらゆるアプリケーションから "PDF ファイルや電子書籍" を作ることができるばかりか、そこに "Text" が盛り込んでいたならば、"フォント埋め込み" がほぼ同時に達成できるのだから便利である。自分で作成した文章、盛り込んだ "Text" ならば間違いなくその "フォント" は "埋め込まれる" ことになる。
 しかし、やっかいなのは、"自炊 PDF"、つまりスキャニングを通して作成した "PDF" の場合である。
 スキャニングした活字、画像文字の "PDF" を読むだけならば、そもそも "画像" を見るのだから "フォント" 自体が問題になりようがない。
 ところが、その "画像" に、"OCR" を通じて、"PDF" ならではの "透明テキスト" を加えた場合、それはそれで "検索" や "読み上げ" が可能となる "透明テキスト付きPDF" としての付加価値が増すのは良いのだが、 "フォント埋め込み" のかたちにはなっていないのである。この点は、ちなみに "Adobe Acrobat" では、<"フォント埋め込み" の指標、すなわち、「メニューバー」から「ファイル」⇒「文書のプロパティ」⇒「フォント」タブのフォント一覧で "......(埋め込みサブセット)" という表示が出てこない>(同上)ことでわかるわけだ。

 そもそも、"自炊 PDF" に "透明テキスト" という "例外オプション" まで加えておいて、おまけにその "透明テキスト" の "フォント(サブセット)" まで "埋め込む" というのが欲張りと言えばそう言えないこともない......。
 が、何らかの理由があって何とかしたい場合、その方法はないものか?
 そこで、その "透明テキスト付きPDF" を、再度、"仮想プリンタ方法" のプロセスを通過させてみたらどうなるか......。そうすると、"透明テキスト" 部分自体が消されてしまい、 "OCR" をかける前の単なる "画像 PDF" に戻されてしまうのだ。
 そこで、"やっつけ仕事" の "裏技"(?) が登場することになる......。
 ここで、一昨日の記述をおさらいしておく。

< ところで、前から関心を持っていたのだが、"PDF" のあの "透明テキスト(付 PDF)" というものの技術面での構造はどうなっているのだろうか......。未だ、ビジュアルな解説に出会ったことがないので、疑問が残り続けていた。そこで、ちょいと "面白半分" の小手先遊びをしてみた。
 ちなみに、"Adobe Acrobat" においては、 "透明テキスト(付 PDF)" 部分を "TouchUp テキストツール" (メニューバーの「ツール」⇒「高度な編集」)で "なぞる" ことや "消去" ができる。あるいは、"加筆" することも場合によっては可能なのである。
 しかし、なんせ "画像テキスト一字一字" の上に被(かぶ)せられている "透明な状態" な文字にアプローチするのは結構厄介なこととなる。
 そこで、何か "良い手(?)" はなかろうかと "裏口(?)" に回って "変則技(?)" に及んだのである......。

 上記の "TouchUp テキストツール" をアクティブにして、ページ全体の "透明テキスト" 部分を選択し、その部分で "右クリック" して「プロパティ」から「TouchUp のプロパティ」ウィザード画面に入る。
 そして、フォントに関する「塗りつぶし」の "カラーなし" を、たとえば目立つ "赤" あたりの色に変えてしまうのである。
 すると、笑っちゃうのだが、"画像テキスト一字一字" の上(多少はズレている)に "赤文字" が "被(かぶ)さって" 表示されるのである。言ってみればこれは、"透明人間" に "赤ペンキ" をぶっ掛けた格好であり、その "姿がありあり" となるのである。こうなると、修正編集は俄然し易くなるというものである。
 そして、編集作業が終わったならば、再度、 "透明テキスト" 部分、いや "赤字部分" 全体を選択し、「TouchUp のプロパティ」ウィザード画面に戻り、「塗りつぶし」の部分を "カラーなし" に戻してやれば、再び "透明人間" に舞い戻ってくれるのである。
 この "変則技(?)" を使えば、程度の悪い "OCR" の誤認識部分を、原文どおりの文字に "修正編集" をすることも可能となるはずである。>(<"自炊 PDF"から"OCR"機能で"テキスト"を起こした後の"透明テキスト"を編集する! (当日誌 2010.10.29)>

  "裏技"(?) の手順はというと、(言うまでもなく、"Adobe Acrobat" 上での作業。)
 ① 上記の "透明テキスト" 部分の "赤字" 化(?)と元の黒字とが "ダブった外見" のまま(この時点では、初期のフォントが "赤字化部分" のフォントに変わっている。まだ "埋め込み" はなされていない)で、冒頭の "仮想プリンタ方法" を通して、再度 "PDF" 作成のプロセスに乗せてしまう。(この時点になって、"フォント埋め込み" 自体が達成されている!)
 ② これで、"フォント埋め込み" 自体は達成されているのだが、 "ダブった外見" ではいかにもマズイので、画像テキストの上に重なった "赤字部分" を、 "変色" させたプロセスの逆を実行して "カラーなし" に戻して、名前を付けて保存すれば完了。
 こうして出来上がった "苦節一時間" の結果の最新 "PDF" には、"......(埋め込みサブセット)" ! という表示が発見できることになる。また、 "検索" も可能なら、 "読み上げ" もOKなのである。
 で、それがなんなの? と言われてしまえば、いやそれだけのことです、としか言いようがないわけではあるが "自炊 PDF" において "フォント埋め込み" にこだわる者にとっては、「できるんだぁ!」ということになる。

 実は、こんな "実験" をしてみたのは、 "とあること" を確認してみるためだったが、それについては日を改めることとする...... (2010.10.31)













【 SE Assessment 】 【 プロジェクトα 再挑戦者たち 】








トラックバック(0)

このブログ記事を参照しているブログ一覧: "透明テキスト付き"の"自炊 PDF"での、"フォント埋め込み"を"裏技"でやっつける? ......

このブログ記事に対するトラックバックURL: http://adhocrat.net/mt/mt-tb.cgi/1299

コメントする

2020年11月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          














関連サイトへのリンク


  • 電子書籍(eBooks)制作にフォーカスしたサイト
  • 明けない夜はないことを確信するサイト
  • Green(地球環境改善)にフォーカスしたサイト
  • ソフトウェア技術者やSEのための評価と育成、人事考課制度を考えるサイト
  • さまざまな業種・業態でご利用可能なモバイル活用の予約システム!
  • 創作小説『海念と保兵衛』のサイト
  • 創作小説『かもめたちの行方』のサイト
  • 当ブログ推奨の商品を展示したAmazon ストアー!
  • 当AdhocBlogブログの過去のエントリー
  • 株式会社アドホクラット当時のサイト

★売れ筋! No.1!
家庭用"放射線測定器"

日本通信 bモバイルWiFi ルータ+1 ヶ月定額SIM BM-U300W-1M
価格:¥ 20,208
国内配送料無料 Amazon





このブログ記事について

このページは、yasuo hiroseが2010年10月31日 01:29に書いたブログ記事です。

ひとつ前のブログ記事は、
 「"鳥瞰"と"微細"の両視点(遠近両用メガネ?)を可能とする"PDF ファイル"の良さ!? ......
です。

次のブログ記事は、
 「"ePub 変換"では、"自炊PDF"をValueUPさせたはずの"透明テキスト"部分は消える! ......
です。

最近のコンテンツは、
 インデックスページ
で見られます。

過去に書かれたものは、
 アーカイブのページ
で見られます。

年月別アーカイブ

最近のトラックバック