"自炊PDF"で起こされた"Text"をキープしつつ"ePub 変換"することも可能は可能! ......

| | コメント(0) | トラックバック(0)

 "Text" 入力の工程から作成した "PDF" ではなくとも、"文字画像" をスキャニングして作成したいわゆる "自炊PDF" は、"PDF 電子書籍(eBook)" として活用するのであるならば、"OCR" 機能に基づいた、いわゆる "透明テキスト" を組込むことで "快適に" 運用することができる。
 が、もしこの "快適に" という必須条件を度外視しても良い(?)というのであれば、"自炊PDF"から "起こした Text" をキープしつつ "ePub 変換" を実行することも、可能かと言えば可能である。今日は、この点を補足しておこうかと思う。
 ただし、自分の場合は、"電子書籍(eBook)" は "PDF" であろうと "ePub" であろうと、"快適に" 運用したいがために "この方法" を採用はしていない。

 "この方法" というのは、二つ。
 その一つは、言わずと知れた方法であり、せっかく "起こした Text" なのであるからという視点に立ち、これだけを "独立の Text" ファイルに仕立て直して "ePub 変換" を図る、という方法だ。もちろん、スキャニングされて出力された "画像データ" のすべてが廃棄されることになる。そこまでして、"ePub 変換" をしなければならない理由があるのならば別だが、どうであろうか......。
 もう一つの方法が、多少なりとも選択の余地があるかもしれない。
 ただ、"この方法" の難点は、外見上 "ひどく見っともない表示画面" となることだ。だから、"快適に" 運用したいという当たり前の感性は踏みにじられる......。

 ツールとしては、 "透明テキスト付き PDF" の本家本元の "Adobe Acrobat" を使わざるを得ない。以下のように進めることになる。
 先ず、メニューバーから「文書」→「OCR を使用してテキストとして認識」→「開始」へと進むと、「テキスト認識」というウィザード画面が表示される。
 「ページ」の指定はともかく、「設定」の「編集(E)」で "とある選択" をするのである。「PDF の出力形式」には、三つの選択肢、つまり<検索可能な画像(非圧縮)><検索可能な画像(圧縮)><テキストとグラフィック>というものが用意されている。そこで、この、<テキストとグラフィック>を選択するのである。
 なお、これらに関する "Adobe Acrobat" の "ヘルプ" による「スキャンしたページの PDF への変換」の説明は以下のようになっている。

<「PDF の出力形式」では、「検索可能な画像」または「テキストとグラフィック」を指定できます。「検索可能な画像」を選択すると、前面にページのビットマップ画像が配置され、その下の非表示レイヤーにスキャンしたテキストが配置されます。ページの外観は変わりませんが、テキストを選択して読み取ることができます。「テキストとグラフィック」を選択すると、認識されたテキスト、フォント、ピクチャおよびその他のグラフィック要素を使用してページが再構築されます。>( "Adobe Acrobat" の "ヘルプ" より)

 補足的に説明しておくと、<「検索可能な画像」>とはスキャニングによって出力された "画像(純粋な画像や文字画像)" のことであり、<その下の非表示レイヤーにスキャンしたテキストが配置されます。>というのが、いわゆる "透明テキスト" のことであり、 "OCR" 機能によるスキャンで "テキスト" 化されるというわけである。
 注目したいのは、<「テキストとグラフィック」を選択すると、認識されたテキスト、フォント、ピクチャおよびその他のグラフィック要素を使用してページが再構築されます。>という箇所である。
 ここでは、もはや "透明テキスト" という "レイヤー" 絡みの話ではなくなっていて、 "可視的" な単一次元のページの話に替わっている。つまり、スキャニングによって<認識されたテキスト>が、他の画像とともに<再構成>(再配置)されるというのである。
 要するに、 "透明テキスト" というような "日陰者"(?) ではない、まともな "テキスト" に "格上げ"(?) します! という意味なのである。
 ならばいいじゃん、となりそうでもある。確かに、このアプローチ線上で出来上がった "PDF" ファイルを "Calibre" で "ePub 変換" してみると、"Text" がしっかりとキープされつつ "ePub 変換" が達成されたことがわかる。"Sigil" で確認できる "Web スクリプト" 面を見ても、その点に間違いはない。
 だから、念願の望みはまさに叶ったかのようではある。

 ところが、問題は<ページが再構築されます。>ならではの結果だということになる。スキャニング直後の "文字画像" が無くなり、"OCR" で認識された "テキスト" に置き換えられている点、そしてそれらと元の "グラフィック画像" とが素材となって再レイアウトされてしまう点などによって、元の書籍各ページとはかなり異なったレイアウトへと変容してしまうからなのである。もちろん、元の書籍が "縦書き" であっても、無頓着に "横書き" に変わってしまう......。
 こうなったとしても、それでもなお "ePub 変換" がいい! と言うのであればそれはそれである。しかし、自分ならば "願い下げ" 以外ではない。
 別に、決して "ePub 変換" の "あら探し" をしているわけでは毛頭なくて、昨日の末尾で書いたように<こうした点が、"電子書籍(eBook)" 作りで、 "ePub" が適切か、"PDF" が適切かは "活用目的" で決めるべきだと思う理由なのである>を再度強調するだけのことなのである...... (2010.11.02)













【 SE Assessment 】 【 プロジェクトα 再挑戦者たち 】








トラックバック(0)

このブログ記事を参照しているブログ一覧: "自炊PDF"で起こされた"Text"をキープしつつ"ePub 変換"することも可能は可能! ......

このブログ記事に対するトラックバックURL: http://adhocrat.net/mt/mt-tb.cgi/1301

コメントする

2020年11月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          














関連サイトへのリンク


  • 電子書籍(eBooks)制作にフォーカスしたサイト
  • 明けない夜はないことを確信するサイト
  • Green(地球環境改善)にフォーカスしたサイト
  • ソフトウェア技術者やSEのための評価と育成、人事考課制度を考えるサイト
  • さまざまな業種・業態でご利用可能なモバイル活用の予約システム!
  • 創作小説『海念と保兵衛』のサイト
  • 創作小説『かもめたちの行方』のサイト
  • 当ブログ推奨の商品を展示したAmazon ストアー!
  • 当AdhocBlogブログの過去のエントリー
  • 株式会社アドホクラット当時のサイト

★売れ筋! No.1!
家庭用"放射線測定器"

日本通信 bモバイルWiFi ルータ+1 ヶ月定額SIM BM-U300W-1M
価格:¥ 20,208
国内配送料無料 Amazon





このブログ記事について

このページは、yasuo hiroseが2010年11月 2日 00:01に書いたブログ記事です。

ひとつ前のブログ記事は、
 「"ePub 変換"では、"自炊PDF"をValueUPさせたはずの"透明テキスト"部分は消える! ......
です。

次のブログ記事は、
 「"ePub 変換"の最適ツール"Sigil"活用のためにも、"Web スクリプト"に精通すべき! ......
です。

最近のコンテンツは、
 インデックスページ
で見られます。

過去に書かれたものは、
 アーカイブのページ
で見られます。

年月別アーカイブ

最近のトラックバック