現在、暇を見つけて進めている作業は、ここ何日か続けている "ePub 変換" の電子書籍作りと同時に、もともと関心を向けてきた "紙の書籍" の "PDF" 電子書籍化がある。その都度着手している。オートフィーダー付スキャナー "ScanSnap S1500" を使っての、① "スキャニング" ⇒ ② "PDF 文書" 化 ⇒ ③ "検索可能 PDF 文書化" という手順の作業なのである。
"ScanSnap S1500" を利用するならば、紙書籍を手作業でバラし、何十(何百)ページかの紙原稿の束を用意することだけで、作業 ① ~ 作業 ③ までをすべて "ScanSnap S1500" に任せることができる。
その使用法については、付属でインストールされる『オペレーターガイド』という "PDF" 文書を読めば大体のことは了解できるはずだ。
ちなみに、ちょいとバカにて読むことを省略して、いきなり作業に着手したら、バチが当たったか原稿が "ジャム" ってしまった。それで、その対処法を知るためにようやく前記の『オペレーターガイド』を読むに至り、フムフムと大筋了解をしたのであった。
"本体内部へのカバー" を開けるには、 "カバーオープンレバー" というものが備わっており、無理矢理力づくで開けてはならないとあった。知って助かった。
ノートPCなども "本体内部" をいじろうとする際に気をつけるべきは、 "ケースの開け方・閉じ方" でなのであり、メーカーごとの特殊な方式を了解しなければ、単に "壊す" ことにつながってしまう。
それはそうとして、この間に、手作業で雑誌をバラして、ちょっとまとまったページ数のある記事(39ページ、72ページなど)を、"検索可能 PDF 文書" に仕立て上げた。
もちろん、これらはそのうちに<calibre>を使って "PDF 文書" から "ePub" の電子書籍に変換しようとしている。(圧縮ファイルのため "容量" 節約ができそうだ......)だが、すでに書いた覚えがあるが、ものによっては "PDF 文書" という電子書籍のままで活用してもよさそうなものもあるため、一時保留にしてある。
また、熟読しながら "マーカー・ハイライト" などを記すには、デスクトップPC上の "Adobe Acrobat" を使った方がよい場合もある。その上で "ePub" の電子書籍に変換するならば、後日読む際にも要点がわかりやすいというメリットもあるからである。
ところで、これも以前に書いたが、"PDF 文書" を徹底的に活用するためには、"検索可能 PDF 文書" に仕立て上げておくのがベストチョイスだろう。
<"透明テキスト付きPDF" ファイル>(参照。<スキャナー"ScanSnap S1500"を使った雑誌記事のポータブルな"PDF 文書(書籍)"化( 当日誌 2010.08.12 )>)としておくということである。
というのも、通常、"PDF 文書" とは "画像" 方式の文書のことなのであり、ページ内の文字表示部分も、 "テキスト" ではなくて "テキストもどき画像" なのである。
だから、 "テキスト検索" は不可能なのが当然であり、それを可能とするためには、"画像" 方式の文字を "OCR" 処理を施して、"テキスト" として "起こしておく" 手順がなくてはならないわけなのだ。それが "透明テキスト付きPDF" ということだ。
また、そうした "OCR" 処理を介した "テキスト起こし" が可能となる "PDF 文書" を作るためには、スキャニング時の "解像度" を "300 dpi" 以上の設定にしておかなければならない点も要注意であろう。つまり、一定程度高解像度にしておかないと文字が潰れて文字として解読できないからなのだ。
"Adobe Acrobat" などの統合ソフトでも、開いている "PDF 文書" に "OCR" 処理を施して "テキスト起こし" をしてくれる。
その手順は、ツールバーの「文書」⇒「OCRを使用してテキストとして認識」⇒「開始」となる。知っている人は知っているはずだ。
が、もし、開かれている "PDF 文書" の "解像度" が "300 dpi" 未満の場合は、「申し訳ありませんが、できましぇ~ん!」ということになる。また、もちろん "PDF 文書" そのものが "セキュリティ" 設定でブロックされている場合には、読むだけが許されていて、"検索" も "コピー" も "お預け" という場合もあり得る。(ただ、最近、知った事実だけれど、 "PDF 文書" の "セキュリティ" 設定を外してしまう、そんなソフトがあるんですね。試してみたら、"有効" でした......。道義上、公開しませんが......)
ところで、 "ScanSnap S1500" の場合は、 ③ "検索可能 PDF 文書化" という作業をオプション的に後で行う(相応の時間がかかるため)ことになっている。また、これを "想定" しているユーザーに対しては、スキャニングの解像度設定を "300 dpi" 以上とするように薦めている。
これらの "お勧めルール" にしたがって作業を行ってみた自分だが、完成した "検索可能 PDF 文書" にキーワード検索をかけてみると、実にサクサクと検索結果を次々と列挙したものであった。これなら使える! という手応えであった...... (2010.08.19)
コメントする