山田祥平のRe:config.sys


	■山田祥平のRe:config.sys■ 世の中に紙の書類のなかりせば

　毎日の生活の中で得られる情報の多くは、デジタルデータになったが、それでもまだまだ紙によるものが多い。でかけるときにはポストに投函された朝刊を手に取り、駅の売店で雑誌を買い、発表会や記者会見に出れば、プレゼンの資料が配付される。あとでWebなどで入手できることがわかっている紙情報であれば迷わず捨てるが、その保証がないものは持ち帰る。かくして、机の上の書類の山はちっとも低くならない。

●探せない書類はないのと同じ

　紙の書類の難点は、検索が難しい点だ。ファイリングとはよくいったもので、時系列、項目名順など、自分で決めたルールにしたがって整理しておかないと、いざ、そこに書かれた情報が必要になったときにも探し出すことができない。探し出せないのであれば、保管しておく意味がない。

　デジタルデータでも同じことがいえる。テキスト情報が含まれているのなら検索ができるが、イメージデータではそうはいかない。デジタルカメラを使い始めたときに困ったなと思ったのは、フォルダ名などを使ってきちんと整理しておかないと、紙と同じように、目的の写真を探し出せなくなってしまう点だった。

　今、数えてみたら、デジカメデータを保存してあるフォルダ内には77,865個のファイルがあった。RAWとJPEGなど、ショットが重複しているファイルもあるだろうから、実際のショット数はもっと少ないはずだが、すでに300GBに達しようとしている。この中から、特定の写真を探し出すのは至難の業だ。ただ、デジカメデータはEXIFデータに撮影日が記録されている。だから、先に過去のスケジュールを検索して日付を特定し、その付近の写真を探し出せばいい。

　紙の書類も、スキャンしてデジタルデータにしてしまえば、少なくとも保管のためのスペースはいらなくなる。デジカメ写真と同様に、EXIFのようなデータが付加されていれば検索もできるはずだ。ただ、オリジナルはあくまでも紙なので、それをスキャンした日付や時間と、実際に紙に書かれた内容とは無関係だ。これらのデータをいちいち手で入力するのはつらい。

　ぼくは、紙の書類のスキャンに関しては、株式会社PFUのドキュメントスキャナ「ScanSnap」を使っている。用紙の両面を高速にスキャンし、PDFにしてくれる優れた機器で、紙書類の整理には欠かせない存在となっている。

　新モデル「ScanSnap S500」が発表されたが、今回は、ハードウェアはもちろん、ソフトウェアの使い勝手が大幅に高まった点に注目したい。従来機種では、作成したPDFを文字認識させるために、アドビのAcrobatにビルトインされたOCRを使っていたのだが、それを富士通研究所が開発したカラー文書認識技術を使ったモジュールで実行するようにし、認識率を向上させている。

　この技術に関しては、製品の発表前の1月27日に同研究所から発表されているが、色むらをテキストと誤って認識したり、白抜き文字に対して背景をテキストと勘違いするようなことがなくなると同時に、図表パターンを認識し、表組み部分の区切り線などを考慮するといった処理によって、文書に含まれるテキスト領域を高精度に抽出するというものだ。

●探すときにはファイルの種類を意識したくない

　ScanSnapでは、本体に書類をセットし、本体側のボタンを押すと、自動的にパソコンにインストールされたユーティリティが起動し、数十枚の書類をアッという間に連続スキャンしてくれる。表裏同時にスキャンし、白紙ページは自動削除されるので本当に手間がかからない。

　新しいユーティリティでは、OCR処理をするように指定しておくと、PDFが作成されたあと、パソコンがアイドル状態になるのを待って処理を始めるようになった。処理中はファイルがロックされ、処理が終わると、専用エクスプローラScanSnap Organizerのサムネイルに処理済みのマークがつく。

　既定値では150dpiでの高速スキャンだが、ファイン(200dpi)、スーパーファイン(300dpi)、エクセレント(600dpi)といった段階で解像度をあげられる。もちろん解像度を上げれば読み取りは時間がかかるし、OCR処理にも時間がかかるようになる。ノーマルとファインを比べてみても、それほど認識の結果に差があるようには感じないので、ぼくは、割り切ってノーマルでスキャンしている。

　OCR処理がすんだPDFでは、イメージとしての画像の上に透明なテキストがのっかった形になり、通常の方法で検索ができる。認識に完全を求めるつもりはない。思いついたフレーズがひっかかる程度でいいと割り切っていた。だから、これまでは、生成されたPDFファイルに対して、書類の内容を表す適切なファイル名に変更していたのだが、日時によって自動生成されたファイル名そのままにしておいてもいいかなと思うようになった。ファイル名が何であっても、適当な単語で検索すれば、たいていうまくひっかかってくれるからだ。となれば、ファイル名など、何だってかまわない。

　検索には「Windowsデスクトップサーチ」を使っている。アドインファイルを追加でインストールすることで、さまざまなファイル形式に対応できるのだが、アドビも「Adobe PDF IFilter v6.0」としてアドインを提供している。これをインストールしておけば、各種のデータファイルと横並びでスキャンした書類を検索できるようになる。検索をしようとするときに、それがワードの文書ファイルだったのか、ダウンロードしたPDFだったのか、紙の書類をスキャンしたPDFだったのかを意識する必要がないというのはうれしい。

●読み終わった本の後始末

　ScanSnapの性能にはおおむね満足しているのだが、さらに進化を期待したい部分もある。たとえば、今回の新モデルでは、紙送りの精度も向上しているのだが、やっぱり完全ではない。2枚重なって送るようなケースもないわけではない。スキャンしたからと安心し、紙の書類を捨ててしまって、あとで見たら、特定のページが欠けていたということにならないように、たとえば、書類中のページ番号らしきものを抽出して誤フィードを警告するといったことはできないものだろうか。白紙ページの削除等をしていると、ページ数だけではチェック漏れがわかりにくいのだ。

　また、OCR後に、その書類のタイトルらしきものを抽出してファイル名をつけてくれるというのも便利そうだ。ファイル名はどうでもいいといっても、自動でそれなりのものがつくのなら、その方がいい。

　あるいは、所定の書式の用紙を書類の間に挟み込み、それを認識したら、そこでファイルを分割するというのもいい。これなら、異なる書類を一度にスキャンさせても、別のファイルになってくれるので、整理するときにラクができそうだ。コントロールバナーシートとでもいうべきだろうか。

　とまあ、いろいろ文句はあっても、実に便利な周辺機器だと思う。手元の書籍などもPDFにしてしまいたいとも思うようになった。ただ、製本された書籍の前には、ADF方式のドキュメントスキャナは無力だ。裁断して書籍をバラバラにすればいいのだろうが、その時間もないし、それ以前に勇気がないのは、やっぱり古い人間だという証拠なのだろう。

「Windowsデスクトップサーチ」
http://desktop.msn.co.jp/
「Adobe PDF IFilter v6.0」
http://addins.msn.co.jp/
□関連記事
【2月2日】PFU、ドキュメントスキャナ「ScanSnap」をモデルチェンジ
http://pc.watch.impress.co.jp/docs/2006/0202/pfu.htm

バックナンバー

(2006年2月3日)

[Reported by 山田祥平]

【PC Watchホームページ】

PC Watch編集部 pc-watch-info@impress.co.jp ご質問に対して、個別にご回答はいたしません

■山田祥平のRe:config.sys■

世の中に紙の書類のなかりせば

【PC Watchホームページ】