電子書籍の"検索可能PDF文書"を首尾よく作る/"300 dpi"以上/"ScanSnap S1500" ......

| | コメント(0) | トラックバック(0)

 現在、暇を見つけて進めている作業は、ここ何日か続けている "ePub 変換" の電子書籍作りと同時に、もともと関心を向けてきた "紙の書籍" の "PDF" 電子書籍化がある。その都度着手している。オートフィーダー付スキャナー "ScanSnap S1500" を使っての、① "スキャニング" ⇒ ② "PDF 文書" 化 ⇒ ③ "検索可能 PDF 文書化" という手順の作業なのである。
  "ScanSnap S1500" を利用するならば、紙書籍を手作業でバラし、何十(何百)ページかの紙原稿の束を用意することだけで、作業 ① ~ 作業 ③ までをすべて "ScanSnap S1500" に任せることができる。
 その使用法については、付属でインストールされる『オペレーターガイド』という "PDF" 文書を読めば大体のことは了解できるはずだ。
 ちなみに、ちょいとバカにて読むことを省略して、いきなり作業に着手したら、バチが当たったか原稿が "ジャム" ってしまった。それで、その対処法を知るためにようやく前記の『オペレーターガイド』を読むに至り、フムフムと大筋了解をしたのであった。
  "本体内部へのカバー" を開けるには、 "カバーオープンレバー" というものが備わっており、無理矢理力づくで開けてはならないとあった。知って助かった。
 ノートPCなども "本体内部" をいじろうとする際に気をつけるべきは、 "ケースの開け方・閉じ方" でなのであり、メーカーごとの特殊な方式を了解しなければ、単に "壊す" ことにつながってしまう。

 それはそうとして、この間に、手作業で雑誌をバラして、ちょっとまとまったページ数のある記事(39ページ、72ページなど)を、"検索可能 PDF 文書" に仕立て上げた。
 もちろん、これらはそのうちに<calibre>を使って "PDF 文書" から "ePub" の電子書籍に変換しようとしている。(圧縮ファイルのため "容量" 節約ができそうだ......)だが、すでに書いた覚えがあるが、ものによっては "PDF 文書" という電子書籍のままで活用してもよさそうなものもあるため、一時保留にしてある。
 また、熟読しながら "マーカー・ハイライト" などを記すには、デスクトップPC上の "Adobe Acrobat" を使った方がよい場合もある。その上で "ePub" の電子書籍に変換するならば、後日読む際にも要点がわかりやすいというメリットもあるからである。

 ところで、これも以前に書いたが、"PDF 文書" を徹底的に活用するためには、"検索可能 PDF 文書" に仕立て上げておくのがベストチョイスだろう。
 <"透明テキスト付きPDF" ファイル>(参照。<スキャナー"ScanSnap S1500"を使った雑誌記事のポータブルな"PDF 文書(書籍)"化( 当日誌 2010.08.12 )>)としておくということである。
 というのも、通常、"PDF 文書" とは "画像" 方式の文書のことなのであり、ページ内の文字表示部分も、 "テキスト" ではなくて "テキストもどき画像" なのである。
 だから、 "テキスト検索" は不可能なのが当然であり、それを可能とするためには、"画像" 方式の文字を "OCR" 処理を施して、"テキスト" として "起こしておく" 手順がなくてはならないわけなのだ。それが "透明テキスト付きPDF" ということだ。
 また、そうした "OCR" 処理を介した "テキスト起こし" が可能となる "PDF 文書" を作るためには、スキャニング時の "解像度" を "300 dpi" 以上の設定にしておかなければならない点も要注意であろう。つまり、一定程度高解像度にしておかないと文字が潰れて文字として解読できないからなのだ。

  "Adobe Acrobat" などの統合ソフトでも、開いている "PDF 文書" に "OCR" 処理を施して "テキスト起こし" をしてくれる。
 その手順は、ツールバーの「文書」⇒「OCRを使用してテキストとして認識」⇒「開始」となる。知っている人は知っているはずだ。
 が、もし、開かれている "PDF 文書" の "解像度" が "300 dpi" 未満の場合は、「申し訳ありませんが、できましぇ~ん!」ということになる。また、もちろん "PDF 文書" そのものが "セキュリティ" 設定でブロックされている場合には、読むだけが許されていて、"検索" も "コピー" も "お預け" という場合もあり得る。(ただ、最近、知った事実だけれど、 "PDF 文書" の "セキュリティ" 設定を外してしまう、そんなソフトがあるんですね。試してみたら、"有効" でした......。道義上、公開しませんが......)

 ところで、 "ScanSnap S1500" の場合は、 ③ "検索可能 PDF 文書化" という作業をオプション的に後で行う(相応の時間がかかるため)ことになっている。また、これを "想定" しているユーザーに対しては、スキャニングの解像度設定を "300 dpi" 以上とするように薦めている。
 これらの "お勧めルール" にしたがって作業を行ってみた自分だが、完成した "検索可能 PDF 文書" にキーワード検索をかけてみると、実にサクサクと検索結果を次々と列挙したものであった。これなら使える! という手応えであった...... (2010.08.19)













【 SE Assessment 】 【 プロジェクトα 再挑戦者たち 】








トラックバック(0)

このブログ記事を参照しているブログ一覧: 電子書籍の"検索可能PDF文書"を首尾よく作る/"300 dpi"以上/"ScanSnap S1500" ......

このブログ記事に対するトラックバックURL: http://adhocrat.net/mt/mt-tb.cgi/1226

コメントする

2020年11月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          














関連サイトへのリンク


  • 電子書籍(eBooks)制作にフォーカスしたサイト
  • 明けない夜はないことを確信するサイト
  • Green(地球環境改善)にフォーカスしたサイト
  • ソフトウェア技術者やSEのための評価と育成、人事考課制度を考えるサイト
  • さまざまな業種・業態でご利用可能なモバイル活用の予約システム!
  • 創作小説『海念と保兵衛』のサイト
  • 創作小説『かもめたちの行方』のサイト
  • 当ブログ推奨の商品を展示したAmazon ストアー!
  • 当AdhocBlogブログの過去のエントリー
  • 株式会社アドホクラット当時のサイト

★売れ筋! No.1!
家庭用"放射線測定器"

日本通信 bモバイルWiFi ルータ+1 ヶ月定額SIM BM-U300W-1M
価格:¥ 20,208
国内配送料無料 Amazon





このブログ記事について

このページは、yasuo hiroseが2010年8月19日 00:01に書いたブログ記事です。

ひとつ前のブログ記事は、
 「"Sigil"を活用したePub電子書籍作りでの、日本語表示上の注意点/"UTF-8 format" ......
です。

次のブログ記事は、
 「猛暑の犠牲/熱中症で死亡/何とか自立している低所得者層が猛暑対策の盲点に! ......
です。

最近のコンテンツは、
 インデックスページ
で見られます。

過去に書かれたものは、
 アーカイブのページ
で見られます。

年月別アーカイブ

最近のトラックバック