電子書籍の自炊〜我が家の場合 その1(導入編)

私は、本好きといえば本好きである。ただし、転勤族であるため、蔵書の管理には前から苦労していた。以前、東京に住んでいたときは、蔵書を本棚2つ分に制限し、本棚があふれかえったら、優先順位の低いものからブックオフに売って、蔵書の総量をコントロールしていた。幸いにも、最寄り駅の駅前にブックオフがあったので、こまめに持っていったのである。


しかし、新潟転居後は事情が変わった。車社会の新潟では、ブックオフは駅前ではなく主要道路沿いに出店している。最寄りのブックオフは、歩いて20分以上かかる場所にあったが(転居当時)、俺は自家用車を持ってない。本を詰めこんだ紙袋もって20分も歩く気しないし、部屋もまあ広めのところを借りられたし(地方だからね)、というわけで、引っ越してから3年間、一度も本の処分をしなかった(雑誌類は資源ごみに出していたが)。


私の場合、マンガ単行本も含めれば、年間150冊以上の本を購入する。当然、蔵書は本棚に収まりきらなくなる。本が床の上にうずたかく堆積し、夜中に蹴つまずいて足の小指にダメージを負うなど、生活にいろいろと支障がでてきたため、さすがになんとかしようという気になった。


そんな折にiPadが発売され、国内での予約開始日にアップルストアでポチッとしてしまった。iPad入手後、i文庫HDという書籍リーダーアプリを購入、これで青空文庫を読んでみたら超快適、電子書籍は素晴らしい、と思ってしまった。


そんなこんなで、最近流行している?電子書籍の「自炊」というやつをやってみることに相成った。


まず、蔵書を区分する。
1.紙の本として所有しておきたいもの、2.読み返す可能性のあるもの、3.二度と読まないと思われるもの、の三つである。


1.に該当するのは、思い入れのある本や、コレクターズ・アイテムになりそうなもの、イラスト集・写真集などきれいな大判図版が主体のもの。なお、なにをコレクションしているかは秘密だ。アイドル写真集を持っているかどうかも秘密だ。

2.は、後で一部なりとも読み返したいと思ったが、紙の本そのものにはさしてこだわりがないもの(内容はそれなりによかったが、愛着を抱くまでではない)。名鑑・年鑑などデータ系の書物も該当する。

3.は、あたりまえだが、つまらなかったもの、価値なしと思った本である。


電子書籍化の対象となるのは?。ハードカバー、新書、文庫、ムック、雑誌など。加えて、サッカーの公式プログラム類も電子化することにしたので、総数400冊ほどになった。さらに、電気製品の取り扱い説明書もかなりの分量になっていたので、この際全部スキャンして紙は捨ててしまうことにした。


また、3.はブックオフに売り飛ばして、小遣いの足しにする。幸いにも、このほど歩いて10分の新潟駅駅ビル内にブックオフが出店した。売却の対象となるのはマンガ、文庫、ノベルスを主体に250冊ほど。いくらになるかなー、東京行きの新幹線代ぐらいにはなるかなー?


三年で400〜500冊増えて、そのうち約400冊を電子化し、残り250冊を売り飛ばす。なんか計算があってないような気がするが、まあ気にするなw。


フラットヘッドスキャナは持っていたが、これで400冊もの本をスキャンする根性は無いので、ドキュメントスキャナ・ScanSnap S1500Mをアマゾンで購入した。


S1500MはScanSnapMac対応版。Windows版に比べて添付ソフトの機能が落ちるとか、付属しているAcrobatもver.8だとかで、いつものように少数民族の悲哀を味わったが、ハード自体の性能が変わるわけではない。原稿をセットすると、自動フィードで両面同時に毎分20ページのスピードでスキャンしてくれる。


少々試行錯誤した結果、あまり考えずに読み取りモードを決め(あれ?)、本をPDFで出力することにした。データにはPDF圧縮およびOCRをかけ、透明テキスト付きPDFとして電子書籍を作成した。
自動認識モードを使ったので、紙が黄ばんでいるとカラーページと認識されてしまうことがあるがそれも一興。古ぼけた本が古ぼけた感じで出来上がるのも悪くない。


ファイルサイズはテキスト主体の本で20〜40MB(ページ数の多いものは50から60MBになる)、図版・写真などが多く挿入されているものは100MBを超えるが、ファイルサイズについてはあまり気にしていない。一冊100MBとしても、10冊で1GB、100冊で10GB、とりあえずの目標である400冊をPDF化してもデータ量は40GBである。私のiPadは64GBモデルなので、本には10〜20GBを割り当てられる。バックアップは今のところ手持ちの外付けHDで間に合うし、将来、電子書籍の量が増えたとしても、1TBの外付けHD(一冊100MBとしてなんと一万冊分!)が2万円を切っている現状では、大きな問題にはならない。


むしろ、問題は溜め込んだデータをどうやって活用するかである。ScanSnapOCRを掛けたテキストは、誤認識が点在するものの、検索時のインデックスとしては十分使える程度のものにはなっている。いまのところ、SpotLightで全文検索をかけて、トピックを拾い出すなどの使い方をしている。例えば、「羽生直剛」で検索すると、簡単なプロフィールや、昔の筑波大のチームメイト、全日本大学選抜の試合結果が出てくる(エジルとの関係を示すデータはいまのところないなw)。


データ活用法については、今後も模索していくが、とりあえず、iPadにデータを入れてゴロ寝しながらサッカー本を読んでいる(ああ、ダメ人間・・・)。


つづく。