第162回:持ち歩きデータの検索活用と悩み



 インターネットを介した同期やストレージ技術の将来に関して、意外に読者の反応が良いので驚いた。将来、固定IPアドレスによる高速な常時接続が当たり前になってくると、自宅に万能型のネットワークストレージを置くといった運用も可能になるだろうが、当面は信頼性などの面を考えてもアウトソースする方向が(特に個人ユースでは)いいだろう。

 また一部に「ジャストシステムに限らず、アプリケーションとネットワークストレージを対にして機能を実現すると、契約するネットワークストレージのプロバイダによって利用するアプリケーションが制限される」との指摘もあった。

 確かにその通りで、本来は標準プロトコルのWebDAVを用いた大容量かつ安価でハイパフォーマンスなストレージサービスがあり、WebDAVを通じて様々なアプリケーションが動作すればいいとは思う。ただ、今のところ個人向けにそうしたサービスが提供されていない。なかなか個人向けサービスではビジネスが成立しないためだろう。便利だ、便利だと言うだけでなく、多くの人がお金を支払ってもいいと思う、何か異なるアプローチが必要なのかもしれない。

 PCを道具に仕事をしている人の多くが悩んでいるはずなのに、ビジネスとしてはうまく成立しないが故に、なかなか良いものが生まれてこないという構図は、たとえばローカルのハードディスクに蓄積した情報の検索ツールにも当てはまる。

 以前、様々な資料を電子化しハードディスクに詰め込んで持ち歩いているという話を書いたが、そのときにも「どんな検索ツールを使っているのか」という質問をいただいたことがあった。近いうちに紹介しますと応えて、すでに1年以上が経過してしまったが、今回はせっかくハードディスクに詰まっている情報を有効に活用するための道具を紹介したい。


●信頼性が高くオプションも豊富だが、使いこなしが難しいNamazu

 UNIX系OSの利用者にはおなじみの日本語全文検索エンジンがNamazuである。GPLに基づいて配布されるフリーソフトウェアで、フロントエンドとして検索時に使用するTkNamazuなどと組み合わせて利用する。

 僕も一時はこれをずっと使っていたし、今でもおすすめの道具の1つだ。Namazuとその周辺ソフトウェアがモバイルPCで使いやすいと思うのは、高速全文検索のために作成したインデックスデータがファイルとして見えやすいところに作成されるため、ファイルサーバーやデスクトップPCで管理している文書をデスクトップPCでインデックス作成しておけば、ファイルとインデックスを一緒に同期するだけでノートPC側ではインデックス作成をさせなくとも全文検索できることだ。

 またPDFをはじめとする文書の検索をサポートするオプションのフィルタも豊富に存在する。ネット上で常にメンテナンスが行なわれているため、個人ツールとしてはマイナーな「全文検索」という分野でも、きちんと不具合修正や追加機能などが提供されるのはとても良いことだ。

 一方で、元々がUNIX系のOSで開発されたシステムだけに、Windowsしか利用したことがないユーザーには使える環境に持ち込むまでが大変で、複雑な検索を行なう際には正規表現を使いこなす必要があるなど、一般ユーザーにはあまり向いていない道具ではある。しかし、使いこなしさえすれば、非常に強力かつ柔軟性のある道具になるので、時間があるならば一度は使いこなしに挑戦してみて欲しい。NamazuユーザーはWindowsユーザーよりもLinuxユーザーの方が多いため、意外に苦労するかもしれないが、かけた手間分のリターンは得られると思う。

 NamazuのWindows用バイナリに関する情報はこちら( http://www.namazu.org/windows/ )にある。


●優れた機能を持つ市販ツールもあるが……

 一方、インストーラで簡単にセットアップできる市販ツールの中にも、優れた製品はある。シャープのDataHunterとジャストシステムのインターネットブーメランは、その中でも特に有用な製品だ。

シャープのDataHunterは検索後の分析機能に優れる。ここではRDRAMとSDRAMについて検索してみた。平均的にどの時期にも類似文書が見つかるが、RDRAMというキーワードの出現頻度や類似度の高さが'99年末に集中している。ちょうどこのころ、初のRDRAM対応チップセットIntel 820の話題が多かったためだ

 DataHunterはテキストファイルやOffice文書、PDFのほか、定期的にWebを巡回させたり、電子メールのメッセージデータベースにアクセスし、全文検索用のインデックスを作成できる。検索方法も検索文を分析し、単語の現れる頻度などから内容が近い文書を探す類似検索を行なうため、正規表現などのテクニックを使わなくとも、比較的簡単に検索操作を行なえる。

 もっともDataHunter最大の特徴は、数多く現れる検索結果を分析して目的の情報にたどり着くためのユーザーインターフェイスにある。類似文書を時系列でヒストグラム化し、時間の流れに対して類似文書がどの程度現れるか、その中で特に類似度の高い文書はどの程度の割合存在しているかなどをビジュアル化できる。このほか、時間と類似度の高さで文書の分布マップを作ることもできる。

 ビジュアル化した類似文書の分布に対して、マウスでクリックしたり範囲を選択したりすると、そこに含まれる文書が類似度の高い順にリストアップされる。さらにリストアップされた文書の中から特定の文書を選び、その文書に含まれる単語の出現頻度をグラフ化して見ることも可能だ。

 類似度による全文検索そのものも便利だが、検索後に探したい文書を判別したり、時系列での傾向を分析することができるわけだ。たとえば「アクティベート」を検索すると、昨年の前半と年末に集中的に類似度の高い文書が現れる。最初の山はOffice XPで、2番目の山はWindows XPだ。

 DataHunterは体験版がシャープのWebサイトからダウンロードできるので、興味がある人は試してみるといい。試用期間中の機能制限もない。


過去の資料から情報を掘り起こすには、自然文検索が得意なインターネットブーメランがいい。探し当てた文書全体と似た文書を探すといったサイクリック検索を行うことで、有益な情報を掘り起こせる。またCBサマライザは文書の内容をわかりやすく要約してくれる インターネットブーメラン

 もう1つ紹介したいのは、ジャストシステムのインターネットブーメランだ。名前からするとインターネットの自動巡回ツールにように見えるが(実際、自動巡回も可能だが)、その核になっているのは自然文による類似検索エンジンとして評価の高いConceptBaseである。インターネットブーメランではConceptBaseで使われている、検索文との類似度による全文検索や日本語文要約を行なうCBサマライザが利用できる。

 検索対象はテキストファイル、マイクロソフトOffice文書、一太郎・花子・三四郎文書、ロータスSuperOffice文書、PDF、Webページ、電子メールなどを指定可能だ。一見、類似検索という面ではDataHunterと同じように感じるが、検索文の分析はこちらの方が的確で、たとえば長文をコピー&ペーストして似た文書を探すといった使い方もこなせる。またCBサマライザは非常に的確な要約文を生成するので、探し出した文書が本当に目的のものなのか手早く確認できるのもインターネットブーメランの長所だ。実用度の高いツールだが、ネーミングと機能のギャップが大きく、少し損をしているように思う。


 いずれも非常に有益なツールで、手元にあるデータから素早く情報を取り出すことが可能なのだが、DataHunterは'99年、インターネットブーメランは2001年2月以降は新しいバージョンが登場しておらず、必ずしも最新のWindows環境にマッチしていない。最大の問題はここにある。


●個人で使う仕事の道具は流行らない?

 いずれの製品も筆者のWindows XP環境で動作はしているが、完璧に動作しているわけではない。しかし、いずれもサポートしているメールの種類や対応するWebブラウザなどが古く、想定する動作が期待できない場合がある。テキストファイルやOffice文書、PDFなどの検索は問題ないため、そうしたファイル検索するために使うには問題はないのだが、これだけ長期に渡ってメンテナンスや次期バージョンが登場しないと、いつかは互換性で使えなくなるかもしれない。いずれも次期バージョンの予定は、現在のところないとか。

 こうした情報検索や分析ツールは、企業向けにはナレッジマネージメントツールの一種としてビジネスが成立し、1つのカテゴリを生成するにまで至っているが、個人向けツールとしてはビジネスになっていないのが原因だろう。その点が、企業で開発されているわけではないNamazuとは異なる。

 両製品とも、僕のような仕事をする人はもちろん、教育関係や研究開発を行なっている人たちには、非常に役立つ情報ツールなのだが、一般コンシューマ向けのソフトウェアとしては、あまりにも実用一辺倒の製品なのかもしれない。いずれもWebページやメールデータベースも情報リポジトリの1つとして活用できるのだが、やはり製品の本質は大量の情報を効率よく活用し、知的生産活動を支援するもの。楽しいことには結びつかないため、自分から積極的に購入しようという話にならないのだろうか。

 「エンドユーザーコンピューティング」という言葉は、すでに死語だとあるパッケージソフトウェアベンダーの開発者に言われたことがある。個人で仕事をしている僕のような人間しか、こうした道具を求めていないのだろうか?


□Namazu Projectのホームページ
http://www.namazu.org/
□シャープ DataHunter製品情報
http://www.sharp.co.jp/datahunter/
□ジャストシステム インターネットブーメラン製品ページ
http://www.justsystem.co.jp/software/dt/ib/
□関連記事
【2001年5月8日】【本田】今さらながら、持ち歩きのススメ
http://pc.watch.impress.co.jp/docs/article/20010508/mobile100.htm

バックナンバー

(2002年7月18日)

[Text by 本田雅一]


【PC Watchホームページ】


PC Watch編集部 pc-watch-info@impress.co.jp
個別にご回答することはいたしかねます。
Copyright (c) 2002 Impress Corporation All rights reserved.