電子書籍の自炊〜我が家の場合 その3(スキャンおよびテキスト認識編)

さて、裁断が終わったらいよいよスキャンである。


導入編で述べたように、スキャンのモードは少しだけ試行錯誤して、適当に決めた(おい)。


カラーモード(カラー・グレー・白黒)は自動認識、解像度はスーパーファイン(本のサイズによって変わるが、普通のサイズ?ならカラー300dpi、グレー・白黒600dpi)、白紙ページスキップをオン、傾き補正・向き補正・文字くっきり機能はオフ。


傾き補正をオフにしているわけは、マンガなど図版が主体だと、時に大きくページを傾けてしまう場合があるからである。向き補正をオフにしているのは、ページが90度もしくは180度回転してしまうことがあるから。紙を正しくセットすれば向きの問題は発生しない。文字くっきりをオフにしているのは、テキスト認識精度が落ちるという情報をネットで見つけたからである (ここ)。
出力は透明テキスト付きPDFで、PDF圧縮をかける(圧縮率3)。


スキャンするときのコツとしては、やはり欲張らないこと。ScanSnapは同時に50枚セットできることになっているが、ぎりぎりまで突っ込むと重送や紙詰まりの頻度が上がる。いままでの経験では、40枚程度にとどめておいたほうが無難だと思う。


一度にセットできる枚数は紙の厚さや紙質によっても変わる。
文庫本のような薄い紙の場合、50枚以上セットできるが、やはりミスフィードが発生する可能性が高くなる。薄い紙だと、紙詰まりを起こしたとき、給紙ローラーが紙を噛みこんでくしゃくしゃにしまう場合があるので、やはり欲張らないほうが身のため。


また、スキャナの自動給紙機構と相性の悪い紙質があるのでご注意を。最悪なのはNumberである(あ、雑誌が最悪なんじゃなくて、紙質ですよ、紙質)。ああいう、カラー印刷された薄いつるぺたつるつるぺらぺらの紙は、給紙ローラーの大敵である。ローラーに噛みこんだうえに、紙を引きちぎりながら回転してしまうので、そのページはぼろぼろになるし、取り除くのにひどく手間がかかる。
こういう紙質の雑誌には自動給紙タイプのスキャナを使わないほうが無難なのだが、どうしても、というときは、面倒でも数枚ずつ小分けしてスキャンすること。私の場合、30枚ぐらいを一気にスキャンしようとすると、まず確実に給紙ミスが発生した。一方、4、5枚ずつ行った場合は給紙ミスの頻度が減った(それでも起こるときは起こる)。
ま、Numberはスポーツ美女特集とフィギュアスケート特集を除いて捨てたけどね。


上記の点に注意すれば、きちんと裁断された本ならほぼノーミスでスキャンできる。


糊が一部残ってページの端がくっついたままだと重送されてしまうが、ScanSnapの重送検知機能はいまのところ100%の確率で機能している(二つ折りにして読ませようとするとエラーがでるのでめんどくさいぐらいw)。
重送されたページは、そのまま残してスキャンを続行するか、削除してそのページをスキャンしなおすかを選択できる。私は後者を選んでいるが、二枚でなく三枚同時に重なってきたりすることがあるので、再スキャンするページを選ぶときに注意する必要がある。ミスってページが欠落することを恐れる人はデータを残したままのほうがいいかもしれない(後で、Acrobatで余計なページを削除すればいい)。
重送が発生したページをメモっておいて、PDFが出来上がったときにチェックするのもひとつの対策である。スキャンした紙を捨ててしまってからでは遅い。


約40枚毎に次の原稿セットをしなければならないため、読み取り中はスキャナに張り付きとなる。加えて、私のようにスキャンと同時にPDF圧縮をかけていると、圧縮処理が読み取り速度に追いつかないので、次の読み取りを再開するまでしばらく待たねばならない。もっとも、よほど厚い本でない限り10分程度でスキャンは終わる。待ち時間には本でも読んでいよう。


スキャンが終わったあと、OCRをかけて透明テキストPDFを作成する。OCRは添付ソフトScanSnap Managerで行う派と、Acrobatを使う派に分かれてるようだが、私は前者。一度、認識速度を比べてみたが、AcrobatScanSnap Managerに比べて2倍以上の時間がかかった(認識率自体はAcrobatのほうが少々高かったように思う)。


私の環境だと(Mac Book Pro 17”)、ScanSnap ManagerでのOCR処理に1冊あたり10〜20分かかる。ネットを見ると、OCRは夜中にバッチ処理で、という方が見受けられるが、私はスキャン後すぐにOCRをかけている(Win版のScanSnapは複数ファイルを後でまとめてテキスト認識をかけられるようだが、Mac版はできない・・・)。待ち時間には、次の本を裁断したり(ちょうど1冊裁断できるぐらい)、出来上がった電子書籍を読んだり、風呂に入ったり、皿を洗ったり、掃除をしたり、と細事をこなしている。


テキスト認識精度だが、検索のインデックスとしては使えるレベルになっていると思う。誤認識は点在するけどね。問題なのは、テキスト認識モードを日本語にしておくとアルファベットの識字率が極端に低下すること。これはAcrobatも同様である。専門の(高価な)OCRソフトなら少しはましなのかしらん?
アルファベットがキーワードになっている文章はちょっとつらいものがあるが、一冊や二冊ならともかく、数百冊となると手では修正しきれない。ここはOCRソフトの能力向上を待つしかない。


テキスト認識が終了すると自動的にAcrobatが立ち上がり、PDFが作成される。
ここで、ページの抜けがないかどうか、順番どおりにスキャンされたかどうかをチェックする。抜けがある場合は当該ページを再スキャンする。また表紙、折込図面なども別にスキャンしておく。それらを挿入もしくは結合し(なんかやらしいなw)、重複するページは削除する。出来栄えに凝りたい場合は、トリミングをかけても良い。


ここで大事なのは、綴じの方向を設定しておくこと。Acrobatのデフォルトは左綴じだが、日本語の本は右綴じが多数派。
右綴じの本を左綴じのままにしておくと、当然ながら見開きにしたとき読みにくいことこの上ない。i文庫HDには綴じの方向を変更できる機能があるが、本を読むたびにいちいち設定するのもめんどくさいので、元のPDFの綴じ方向を正しく設定しておくにこしたことはない。
プロパティから<詳細設定>タブを開くと、一番下に<読み込みオプション>という欄があり、そこで綴じ方を選べる。


PDFの編集・設定が終わったら、セーブして電子書籍の作成終了。あとは自分で分かるようにファイルネームを付けておしまいである。PDFのプロパティに、本のタイトル・サブタイトルやキーワードを入力しておくとかっこいいかもしれない。俺はめんどくさいからやってないけど。


スキャンし終わった本(というか紙束)は、資源ゴミ回収に出そう。


さらに続く。