山田祥平のRe:config.sys

スマートスピーカーが示すコンピュータとの対話のミライ

 コンピュータとの対話は、スマートライフの永遠のテーマだと言ってもいい。そして、その鍵を握る存在がAIだ。風が吹けば……的な言い方をすると、近頃都に流行るAIとのチャットによる検索エンジンとの会話を思いつく。もっと身近にはスマートスピーカーが、ぼくらの暮らしのインフラになりつつもある。

スマートスピーカーも日本でのデビューから5年が経過

 Amazonが新しいEcho Dotと、Echo Dot with clockの日本での販売を開始した。どちらも第5世代となる最新のEcho Dotで、口径が大きくなったスピーカーで音質が向上したほか、温度センサーやモーションセンサーを実装し、環境によるスマートホーム体験を提供できるようになった。

 イメージ的には耳しかなかったデバイスに目や鼻がついたと言える。また、デバイス上部をタップすることで、音楽再生の一時停止や再開、タイマーの停止、通話終了といったアクションができるようにもなった。これは触覚といった感じだろうか。

 「Alexa」のウェイクワードの呼びかけで対話が始まるAmazonのEchoシリーズだが、日本での発売は米国から数年遅れ、2017年秋の第2世代製品からだった。

 そして、スマートスピーカーとしてのEchoの存在は、コンピュータに音声で何かを尋ねる、頼むという行為を新しい当たり前として、ぼくらの暮らしの中に浸透させていった。

 競合と言ってもいいGoogle Homeの日本デビューも2017年秋だったので、スマートライフを支えるインフラとしてのスマートスピーカーは、日本では5年目を迎えたことになる。そして、そのうち3年間はコロナ禍にあって、人々の暮らしは大きく変わってしまっている。

 多くの場合、スマートスピーカーに期待するのは、事実を問い合わせることだ。そして、スピーカーが応える検索結果は1つだけ。Webブラウザを使った検索のように、らしい結果が複数個並び、それらを順に見ていけるわけじゃない。答えは1つ。それが正しい答えだと信じるしかない。

 これは近頃流行のチャットAIを相手にした検索でも言えることだ。新しいBingのように、根拠を注釈として提示するものもあるが、概ね、AIの回答を信じる。

 AIはインターネット中を駆け巡り、それらしい回答を見つけてきたのだから、その労をねぎらわなければいけない。たぶんそれが礼儀だ。その回答を見つけるために、いつインターネットを調べたのか、それは、どのくらいたいへんだったのかを知る由はない。

 だからこそ、あまり深追いは求められなかったかもしれない。「時間を聞く」「目覚ましやタイマーのセット」「天気を聞く」「音楽を再生する」以外のコミュニケーションなどが主な使い方だった。チャットとのAI的ソリューションではカーナビが簡単だと聞いたことがある。シチュエーションが限定的だからだ。暮らしの中に溶け込むスマートスピーカーは違うが、あまり多くを求めすぎないというのも使い方の見識だ。

単語を組み合わせるより、意味のあるセンテンスでリッチな対話

 しゃべるのが得意な人と、そうでもない人がいる。たとえば、電話をかけて相手が出ずに、留守番電話サービスにつながったとしよう。そこで、しどろもどろにならずに要点をスラスラと口頭でしゃべれる人は限られている。

 それは文章でも同じだ。ブラウザによる検索では、スペースで区切って複数のキーワードを入れれば、それらしき検索結果が得られる。少なくとも、1単語しか入れないよりは、求めているものに近い結果が得られるはずだ。ただ1単語だけを入れ、最初に出てきたサイトを開いておしまいにするというユーザーはかなりの数いるようだ。

 検索エンジンは賢い。チャットAIはさらに賢い。こちらが知りたいことをきちんとしたコンテキストで伝えれば、より分かりみの深い結果が戻ってくる。これは音声による検索ではなかなか難しい。試してみれば分かるが、AlexaやGoogleアシスタントに独立した単語を複数与えても、ちんぷんかんぷんな答えしか戻ってこない。でも、ちゃんとした会話のフレーズとして尋ねれば、それなりの答えが返ってくる。

 ちなみに日本は表示画面を持つEcho端末、いわゆるEcho show製品の割合がほかの国よりも高いそうだ。明日の天気を聞いたときにも画面にインフォグラフィックで天気や気温が表示されるといったレスポンス、日本人はどうやらそれを好むらしい。回答を音声でもらう、文章でもらう、インフォグラフィックスでもらうといった複数のパターンを組み合わせてうまく機能させてくれる端末が好みのようだ。

 質問を単一の単語として与えても、望みの答えが返ってくることは少ない。だから複数の単語を組み合わせるし、相手が賢くなれば、助詞や動詞を組み合わせて、依頼や命令に近いセンテンスを作って投げてみる。単語だけよりも、そのほうがずっと的確な答えを得ることができるだろう。

 相手が分かるように質問したほうがいいのは、人間相手と同じだ。「~とは」「~の作り方」「~の美味しい店」「~の起源」と、検索ワードを変えるだけで、結果はまったく異なるものになる。

コンピュータとの対話はコミュニケーションロマン

 多くの人々気がついていない、あるいは気がつかないふりをしていることがある。スマートスピーカーやブラウザが稼働するパソコンと対話するときに自分が話しかけているのはコンピュータだということだ。

 それらがインターネットにつながっている単なる通信機であることには目をつぶり、目の前に人間の言葉を理解するコンピュータがいて、ローカルでコミュニケーションが成立しているのだと思いこんでいる。いや、思いこみたいのだ。

 でも、そのコミュニケーションの相手はインターネットを介したクラウドで稼働する巨大なサーバー群なのだ。分かっているけれども、見て見ぬふりをするといったところだろうか。それがロマンだ。そして、クラウドが進化すれば、目の前のデバイスが数世代を経た旧製品であっても、それなりに満足のできる結果が得られる。

 スマートスピーカーやチャットAIと、親しげに会話ができるようになり、相手のクセもなんとなく分かってくると、この先、こいつはどうやってカネを稼ぐのだろう、エコシステムはどうなっていくのだろうと余計な心配をするようになる。

 なにしろ、音声やチャットAIでは広告展開が難しい。スマートスピーカーが、いきなりラジオCMのように宣材コンテンツを再生するようになったら違和感を感じるようになるだろう。

 これは、文章で回答するチャットAIでも同様だ。AIとの対話でも、誰かが何らかのロジックで儲からなければ、ぼくらが便利を無償で享受し続けることは難しい。このことは、スマートスピーカーを使うようになった5年前から考えていたのだが、今なお、ぼく自身の中での明確な回答は得られていない。それでも各社がビジネスを続けているのは、何らかのビジネスモデルが成立することを目論見済みなんだろう。

 ぼくらの周辺で今起ころうとしているのは、インターネットを使ったビジネスが広告で支えられているという事実の解消への第一歩なのかもしれない。

コンピュータ、見てきたようなウソを言い

 少なくとも、コンピュータがパーソナルな存在として、ぼくらの暮らしに浸透していった中で、人間の願望として、コンピュータはパートナーであってほしいという気持ちがずっとあったんじゃないだろうか。

 コマンドラインのキャラクターユーザーインターフェイスは、片言のコミュニケーションだ。GUIはそれをより直感的なものにしたし、さらに音声での対話は、コミュニケーションを人間同士で交わされているのに近いものにした。そして、チャットAIは、それらのやりとりのさらに斜め上を行く。

 スマホでAlexaやGoogleアシスタントを使うには、ずっと前から、音声だけではなく、文字入力で対話することもできている。もっとも、そのコミュニケーション力は、昨今のチャットAIとは比較にならないほど低い。でも、そんなことは時間の問題で、瞬殺的に解決されるだろう。

 チャットAIとのコミュニケーションと、スマートスピーカーとのコミュニケーションでは、もともと目指すところが違っていたのだろうか。別物だったのだろうか。でも、将来交わるのは明らかだとも思う。

 この先、きっとぼくらのコンピュータとの対話は、人間同士で交わされるものに近いものになっていく。そして、その前提は、コンピュータは何でも知っていて、何でもできるという幻想だ。息をするようにウソをつくAIも怖いが、望んだ答えを返さないAIも苛立たしい。

 コンピュータが何でも知っているというのが幻想であることは分かっている。でも、そうあってほしいと願い続けていれば、きっと幻想は現実に変わる。少なくとも知識に溢れたインターネットを、隅から隅までクロールしたやつらに知識の量ではかなわない。良きにつけ悪しきにつけ……。だからこそ、ぼくらは人間にしかできないことを見つける必要がある。