山田祥平のRe:config.sys

命令はお願いに、そして対話へ

 コンピュータとの対話は、けっこうな長い時間をかけて文字によるものからグラフィカルな操作が主流になった。そして今、スマートスピーカーの登場で、音声が当たり前のように使われるようになってきている。このまま、コンピュータ操作は音声が主流になっていけば、インターネットの勢力図にどんな影響を与えることになるのだろうか。

コマンドラインからGUIに

 グラフィカルな操作、いわゆるGUI(グラフィカルユーザーインターフェイス)が登場したころ、そんなまどろっこしいことが流行るのだろうかとも思った。

 なにしろ、扱う情報が文字ばかりだったから、キーボードから手を離すことがほとんどなく、操作のためにキーボードから手を離してマウスに手をやることが効率につながるとは思わなかったからだ。だからコマンドラインでの操作が手っ取り早いと思っていた。

 それでもPCで扱える情報の種類は次第に増えていった。一般的なビジネス利用においても文字に加えて静止画が使われるようになり、そのうちアニメーションや動画なども欠かせなくなってきた。

 情報を生み出すだけではなく、情報を消費するという観点でコンピュータを使うことを考えれば、むしろGUIが求められるようになっていった。今のように情報の消費よりも、情報の体験に注目されるようになったのはずっとあとだ。

 コマンドラインとGUIでは大きな考え方の違いがある。コンピュータになにかを伝えるときの目的語が先にくるか後にくるかだ。

 たとえば、ある文書ファイルを削除したいと思ったとしよう。MS-DOSのコマンドではdelで、abc.docxというファイルを削除するには、

C:¥>del abc.docx

と入力してエンターキーを叩く。

 ところが、GUIでは削除ボタンを先に押してもなにも起こらない。前もって削除したいファイルを選択しておく必要がある。

 このことにすんなりと慣れ親しむことができなかった層は、徹底的にGUIを嫌った。その一方で、目的語が最初に登場することの多い日本語的な面もあり、とくにGUIで最初のコンピュータを体験した層は、すんなりと慣れ親しめた人も多かったようだ。

音声認識がより身近な存在に

 音声認識はどうか。発声する音声を認識して文字に置き換える機能を個人的に使ったのは、IBMのViaVoiceが登場したころではないかと思う。Windows XPのころだったと記憶しているが、日本語版もあった。

 また、NECのSmartVoiceなどもよくできていた。音声認識はそれなりに賢かったし、カーソル移動なども音声でできた。かなりの優れものだったと思う。スクロール操作を音声でこなせれば、ポテトチップスを食べながらベタベタになった手でも問題ない。当時は、すべての処理がローカルで完結していたのも今から考えると驚きだ。

 ただ、個人的には口述筆記という行為に慣れ親しんでいなかったため、考えながらしゃべるよりも、考えながら叩くほうが自分には向いていると思い込み、そのまま縁遠くなってしまった。

 さらに歳月は過ぎた。今やスマートフォンはもちろん、Google HomeやAmazon Alexaなどのスマートスピーカー、そして、iPhoneのSiri、さらにはWindowsのCortanaなどが登場し、音声によるコンピュータとの対話シーンは賑やかになってきている。

 個人的にも、スマートフォンでちょっとしたことをやりたいときには音声を使うことが少なくない。ただ、人前で発声するのは電話をしているようなものであまり抵抗がないのだが、その回答が大きな音で「明日の東京は最高気温6度……」などとスピーカーから大音量で発声されるのはやっかいだ。

 なぜ、電話での通話のように耳元でささやいてくれるモードがないのだろうかと思ったりもする。だから音声出力は「ハンズフリーのみ」として禁止している。

 GUIでは目の前に見えているものしか操作ができない。そこはコマンドラインから退化した部分だ。コマンドは、その呪文のような文字列さえ記憶していれば、いきなり作業を指示することができる。

 音声による操作もそうだ。唐突になにかを頼めるからだ。そういう意味では音声によるコンピュータ操作はコマンドラインの時代に戻ったと考えることもできる。実際、音声は自然語だし、コマンドのような呪文を覚える必要もない点では進化と先祖返りを両方かなえたコンピュータとの対話方法だと言えるかもしれない。

 語りかけは適当でいい。そこが大きな進化だ。

Echo Showで表現力を得たAlexa

 最近、愛用しているのはAmazonのEcho Showだ。10型ディスプレイという大きな画面に、パワフルなスピーカーを持つこのデバイスは、Alexaにいろんなことを頼める。まさに話しかける感覚だ。

 そして、その依頼結果は音声だけではなく、画面にも表示されるのが便利だしうれしい。映像出力ができるAlexaには小型のEcho Spotもあるが、画面はやっぱり丸いより四角いほうが情報の一覧性は高いと思う。

 使っていないときのEcho Showは、ずっと画面を点灯したままで、話題のトピックスを表示し続けている。ちょうど、電車のドアの上のニュースサイネージみたいなイメージだ。欲をいえばもう少し頻繁に更新されてもいいんじゃないかと思ったりもする。

 丸1日原稿を書いているときなど、目をやるたびにトピックスが表示されているのを目にするわけだが、その話はもう知っているよと言いたくなることが多い。また、人がいようがいまいが完全に画面がオフになることはないので、液晶バックライトがどのくらいでダメになるのかがちょっと心配でもある。

 Echo Showは、単独で音声を認識して的確な回答を音声と映像で返すのみならず、スマートフォンで操作して見つけたコンテンツのキャストを受けることもできる。スマートスピーカーとしてのEchoは出力が音声のみだが、Echo Showには四角い画面がある。そこは大きなアドバンテージだ。

 ただ、YouTubeが見られない。スマートフォンの画面で検索したYouTube動画は、同じAmazonのFireTVにならキャストができるのに、Echo Showにはキャストができないのだ。

 Echo ShowにはFireFoxブラウザも実装されていて、YouTubeを開くことはできるのだが、スマートフォンとの連携ができないし、操作もスマートじゃないのは惜しい。いろいろと大人の事情があるのだろうけれど、早期に正式対応してほしいものだ。

 Googleには日本では未発売のGoogle Home Hubもある。こうしてスマートスピーカーは、いろんな意味で饒舌になっていく。

呪文化するアプリ

 こうして、コンピュータを使うことがアプリを使うことではなくなりつつあることに気がつく。

 たいていの場合、ぼくらはYouTubeを見たいのではなく、再生回数3億回を超えたという米津玄師のLemonのムービーを見たいから、ヒカキンの新作を見たいからYouTubeを開く。

 確かにそれらはYouTubeにあるのだが、あらかじめYouTubeを開いてそれを探すのではなく、いきなりコンピュータに「米津玄師のLemonのムービーを見たい」と頼みたいわけだ。コンピュータがYouTubeからコンテンツを探すのはプロセスに過ぎない。

 多くの場面で、そんな願いがかなうようになってきている。コンピュータを使うために守らなければならなかった作法が、ちょっとずつ有名無実になってきていることを実感できる。

 今ぼくらは買い物がしたければAmazonを開き、動画を見たければYouTubeを開き、ニュースが知りたければYahoo!ニュースを開く。それ以外のことを知りたければGoogleを開く。たいていのことはそれで用が足りる。それぞれのサービスが得意としている分野を知っているからだ。かつてはやりたいことに応じて、それができるアプリを知っている必要があった。そのアプリはクラウドサービスに変わった。

 でも、そこをすっとばして、いきなり、買いたいもの、見たいもの、聴きたいもの、知りたいものをコンピュータに伝えることができる世界はすぐそこにやってきている。その入り口という一等地を支配するのは誰か。

 少なくとも今はWebブラウザのアドレスバーがその覇権を握っているが、それをAIが奪うかもしれない。スマートスピーカーへの語りかけによって、これからのぼくらはどこに連れて行かれるのか。今はその陣取りの前哨戦が水面下で行なわれているのだろう。