山田祥平のRe:config.sys

毒を喰らわば皿まで




 PCを使うようになって、新たに身につけた作法は、重要な情報は、ただ、放り込んでおけばそれでよく、探すことはあとで考えればいいということだ。どんな情報の宝庫であっても、未整理では、文字通り宝の持ち腐れにすぎなかった過去を思えば、このことは、画期的な展開だ。

●フォルダ分類は気休めにすぎない

 雑誌の図書館として知られる東京・世田谷の大宅壮一文庫は、「本は読むものではなく、引くものだよ」という名言を残した故・大宅壮一氏の資料室を原型として設立された。この文庫では、現在刊行されている雑誌約1,000種類のバックナンバーを所蔵、それが毎年2万冊ずつ増えているという。

 増えていく雑誌を収集するだけが文庫の仕事ではない。担当者が雑誌を1ページずつめくり、それぞれの記事のための索引を作っているのだ。本を分類する項目といえば、日本十進分類法が有名で、図書館などで一般的に使われているが、雑誌ではあまり役にたたないという判断で、この文庫では、独自に件名項目体系を定めている。大中小の階層構造を持つ項目体系だが、たとえば、その大項目には、「おんな」、「サラリーマン」といった項目が用意されているのが目をひく。図書館ではありえない大項目だ。

 PCを使い始めたころ、データベースソフトを使って、手持ちの本を整理しようと試みて、この大宅式分類法を真似ようと試みたことがある。でも無理だった。当時は、カード型データベースというカテゴリのソフトがあり、ぼくは、アスキーの「The Card」という製品を愛用していた。すでに持っている本のデータをゼロから入力するのは、はなから無理とあきらめ、新たに入手する本だけでもと思って始めたのだが、途中で挫折してしまった。当たり前のことだが、自分ではなく、人が索引作りをしてくれたものを利用する方が圧倒的にラクなのだ。

 コンピュータを駆使できる現場では、索引を作るポリシーにも変化が出てきている。たとえば、Yahoo! JapanのYahoo!カテゴリでは同じサイトが複数の項目下に分類されている。紙の索引カードでそのようなことをしていたらカードそのものが増えすぎてしまうだろう。何よりも、多くのユーザーは、こうしたカテゴリの階層構造をたどって目的のサイトにたどりつくよりも、さっさと検索窓に特定のキーワードを入れた方がてっとりばやいことを経験的に知っている。

 検索サイトでは、検索対象が機械可読のWebページであること、そして、コンピュータの処理能力が、その対象となる膨大な量のページから全文検索のための索引を作ることを可能にした。だから、誰かが苦労して分類しなくても、コンピュータはせっせと索引を作り、キーワードを入れるだけで目的のページを見つけることができるのだ。

 MS-DOSの時代には、いかに、フォルダをきちんと作り、作成後のデータを整理して保存しておくかが重要だった。紙の書類の整理と変わりがなかったのだ。しかも、フロッピーディスク1枚約1.25MBという空間は、単にデータを放り込んでおくだけでは、重要なデータを見失ってしまうほど広大だ。なんといっても、文字にして400字詰め原稿用紙1,000枚以上の情報を詰め込むことができる空間なのだから。

 当時は、フォルダではなく、ディレクトリと呼ばれていたが、その分類方法に関しては、いろいろなノウハウがあったように思う。ぼく自身は、クライアント別の分類をしていた。依頼されて原稿を書くというのが主な仕事なので、クライアントごとにフォルダを作り、1つのクライアントに複数の発注元があれば、それぞれにサブフォルダを用意した。出版社が大項目なら雑誌名が中項目になり、小項目として特集名や連載名を持つフォルダを作って分類していたのだ。今も、基本的にはその方法でフォルダツリーを作っているが、あまり、それを気にしなくもなってきている。

 たとえば、取材にでかけたり、インタビューをしたりするときには、ノートPCでメモをとるのだが、そのファイルは、logsという名前のフォルダに保存している。ファイルは平面的に入れるだけで、特にフォルダ分類などはしていない。昔だったら、こんな放り込むだけの整理法ではファイル数が100を超えるあたりで破綻していただろう。でも、各種項目で並び替えることも簡単だし、全文検索もできる。しかも、索引は、OSが自動的に作成しておいてくれるからこそ、こうした脱・整理がかなえられたのだ。

●タンスとしてのメディアプレーヤー

 元データが機械可読という点ではiTunesのようなメディアプレーヤーも画期的だ。この手のソフトは、音楽をリッピングしておき、それを再生するためのものと理解されがちだが、ソフトの領分のうち、音楽そのものを放り込むためのタンスとしての意味合いは、そのすべてではない。メディアプレーヤーは自分が所有している音楽に関する周辺情報データベースなのだ。

 ぼくは、CDショップにでかけるときには、できるだけiPodを持って行くようにしている。iPodには、手持ちのCDのほぼすべてが収録され、アルバム名、アーティスト名から調べることができるので、ショップの店頭で手に取ったCDをすでに持っているかどうかがすぐにわかる。だから、つい、2枚買ってしまうCDも少なくなった。余談だが、Amazonのようなサイトは、過去の履歴を保存しておいて、「そのCDはx年x月に購入済みです。2枚目を買いますか?」くらいのコメントを出してほしいものだ。そうしてくれれば、わざわざ自分で調べる必要もないし、だからこそ、同じサイトで購入する動機付けにもなるだろう。

 ぼくは自分が持っている本の冊数を把握していないけれど、少なくともCDは1,809アルバム、21,470曲あるということはすぐにわかるし、うろ覚えのアーティスト名からも、即座に聴きたい曲にたどりつける。何の役にたつのかわからないけれど、曲名に「Summer」または「夏」を含むものが198曲あることもすぐにわかる。しかも、見つかった曲は、確実に手元にあるという点で、検索エンジンでの検索結果と性格を大きく異にする。

 今にして思えば、CDをリッピングするときに、連番をつけておき、それを記録しておけばよかったと思う。CDはジャンルや購入順などを気にせず、連番順に並べておく。そうすれば、iTunesがオリジナルのCDを見つけるための索引として機能するようになるからだ。

 iTunesのようなメディアプレーヤーをデータベースソフトと呼ぶにはちょっと抵抗があるかもしれないが、基本的に、データはデータベースに入れるというのが基本だ。過去において、文字データの全文検索が可能になったように、そのうち、音楽データの全文検索のようなこともできるようになるかもしれない。たとえば、音階を入れるとか、歌詞を文字で入れるとか、鼻歌でメロディを口ずさむような方法で曲を特定できるようになるかもしれない。

●日本語軽視のVistaが腹立たしい

 データベースを管理するという明確な意識がなくても、すでにOSのファイルシステムはデータベースとして機能し、さまざまな機能を提供している。いいかげんにデータをつっこんでおくだけで、求めるビューでその一覧を見せ、目的のデータを探しやすくしてくれる。

 たとえば、Windows Vistaのファイルリストでは、名前や更新日時、サイズや種類で一覧をフィルタすることができるようになった。これによって、フォルダ内にどれだけたくさんのファイルがあっても、項目値によるフィルタリングで絞り込みができるのだ。それどころか、フォルダ分類を無視して、平面的に並べた上でのフィルタリングもできる。つまり、人間のフォルダ分類は気休めにすぎなくなってきている。

 たとえば、更新日時の場合なら、カレンダーが表示され、そこで範囲や特定日付を指定することで、それに該当するファイルだけを一覧できる。更新日時で並び替えて、該当部分をスクロールすればそれでもよさそうなものだが、100や200ならともかく、1,000を超えるようなファイル数ではこちらの方法が圧倒的に簡単だ。

 Vistaで画期的なのは、項目値で重ねて表示ができるようになった点だ。と同時に、この機能はあまりにも日本語が軽視されている点で腹立たしい機能でもある。

 たとえば、ファイルを名前で重ねて表示するように指定すると、

その他 0-9
A-H
I-P
Q-Z
かな
漢字

という仮想フォルダが表示され、それを開くことで該当するファイルをまとめたビューが得られる。英数字だけを使っているなら、これはとても便利な機能だろう。でも、見ればわかるように、日本語のファイル名は「かな」と「漢字」に分類されるだけだ。これでは使い物にならない。IMEは、かなを漢字仮名交じりに変換するための辞書を持っているのだから、完璧とはいわないまでも、読みで日本語のファイル名を並び替えることくらいはできてもよさそうだ。あるはずのファイルがこの方法で見つからなければ、別の方法で探すまでのことだ。ローカライゼーションするなら、せめてこの領域くらいには踏み込んでほしい。一覧取得で負荷が重いなら、それこそ索引作成のときに調べておけばすむことだ。

 あらかじめ、データを先頭から末尾まで舐めておき、索引を作っておくことで、後日の検索を合理的なものにする。これは、コンピュータの力技であると同時に、ある種の偶然さえ誘引する。これは大事なことだ。文字だけではなく、音声もイメージも動画も、すべて舐めて索引を作ることができれば、コンピュータの使い方はまた1つ大きく変わっていくだろう。

 色や構図などが類似した写真をまとめるのは当たり前で、さらには、写真データから顔が写っているものだけを抽出する。おそらくは同じ顔であるだろうものだけをグループ化する。音楽を1分間あたりのビート数でグループ化する。それをもとに、ウキウキ、ノリノリ、癒しといった印象グループに分類する。録画済みのTV番組にしても、動画中のテロップをOCR処理して検索に使うようなことも現実にできているのだから、地デジのようにメタデータを含めて記録ができるフォーマットなら、もっといろいろなことができてもよさそうだ。

 アイディアはたくさんあるのに、こうしたことがなかなか現実のものにならないことがもどかしい。もっとも、近い将来、自分で作ったデータ以外は手元に置かないことが新しい当たり前になるかもしれない。そうなればコンピュータのローカルHDDを検索すること自体の重みは極端に軽減される。さて、この先どうなりますことやら。

□関連記事
【3月23日】【山田】記録と記憶と、時々、解像度
http://pc.watch.impress.co.jp/docs/2007/0323/config151.htm
【2006年9月22日】【山田】脱ビットレート
http://pc.watch.impress.co.jp/docs/2006/0922/config124.htm
【2006年8月4日】【山田】これでいいのかVistaの検索機能
http://pc.watch.impress.co.jp/docs/2006/0804/config117.htm

バックナンバー

(2007年7月20日)

[Reported by 山田祥平]


【PC Watchホームページ】


PC Watch編集部 pc-watch-info@impress.co.jp ご質問に対して、個別にご回答はいたしません

Copyright (c) 2007 Impress Watch Corporation, an Impress Group company. All rights reserved.