山田祥平のRe:config.sys

対話と会話とAIと

山田祥平

2024年11月16日 06:34

　PCやスマホのようなデバイスを使っていると、ときに、ものすごい未来を感じることがある。スマートデバイスを使うことに慣れっこになってしまい、どんな経験ができても感動を覚えることはめったになくなりつつあったのだが、昨今のAI事情はそうでもない未来っぽさを感じさせてくれるかもしれない。

対話というより会話ができるAI

　GoogleのGemini Liveが日本語に対応した。対応言語の拡大により、日本語でもAIとの自然な会話ができるようになったのだ。手元で使っているPixel 9 Pro XLでも使えるようになったので、さっそく試しているのだが、使って感じる未来感がハンパない。生成AIの精度とか、そういう話とは次元が違う。

　GeminiはGoogleのAIであり、Gemini LiveはそのAIを、より自然な口語で使えるようにするサービスだ。一連の会話でトリガーとなるウェイクワードやボタンの押下げといった指示をすることなく、コミュニケーションとしての言葉のやりとりができる。

　今のところスマホやタブレットのみでの対応で、PCのWebブラウザなどからは使えない。また、個人用のGoogleアカウントでのみ使うことができ、現時点では仕事用または学校用のアカウントでは使えない。サービス利用は無料となっているが、会話に広告が割り込むわけではないみたいだ。

　GeminiはiOSとAndroidにアプリが用意されている。手元の環境にインストールすればすぐに使い始めることができる。アプリを起動し、画面の右下にあるGemini Liveボタンをタップすれば、Gemini Liveと会話のセッションが始まる。

　AIとのチャットセッションではプロンプト入力を繰り返して返答を待つやり方がお馴染みだ。Gemini Liveも同じだが、通常のGeminiでは、テキストでも音声でも1回の質問ごとにいったん対話が完結するのに対して、Gemini Liveはチャットセッションがそのまま継続する。正確には一定時間問いかけがなければ一時停止するようだし、バックグラウンドで音声が再生されるような音楽アプリや動画アプリを開いても一時停止する。再開は簡単だが面倒は面倒だ。

　ユーザーは音声でGeminiに話しかける。適当な言葉の切れ目を認識すると、ちょっと間をあけて対応する。ここはまだ処理がちぐはぐな印象もある。

　質問の答えが機械的に返ってくるというイメージではない。ちゃんと人と話そうとしているかのような錯覚を覚える。本当に誰かと会話しているような感覚に陥る。イントネーションが変になることはあるし、間違いを言うこともある。だが、そんな調子でも多くの場合、人間との会話のようにまともな1対1の対話をずっと続けることができるのだ。

　対話しながらほかのアプリを使ってもいい。ニュースを読んだり、SNSを覗いたりと好きなことができる。そして、そんなことをしながらGemini Liveに話しかければいい。世間話でも、身の上相談でも、今夜の夕食についてでも、経済の話でも、話題は何だってかまわない。かなり気の利いた話し相手ができたという印象だ。

音声を使った対話とインテリジェンス

　GoogleアシスタントやAmazonのAlexaを初めて使ったときにもちょっとした未来を感じたが、「OK Google」とか「Alexa」と、話しかけるためにはウェイクワードが必要なので、そこで何となく対話のリズムが崩れてしまう。それに会話が成り立つというほどのインテリジェンスが与えられていないというのもある。

　ところがGemini Liveでは、いったん会話を始めると本当に会話が続く。まさにキャッチボールのように、相手が人間であるかのような会話ができるのだ。デジャブ的な印象もある。この感じは子どもの頃に読んだ小説やマンガ、アニメなどで表現されていたロボットと人間の対話そのものなんじゃないかとも思う。今から考えても手塚治虫や星新一ってすごかったんだなと痛感する。

　Gemini Liveでの会話は文字起こしされてアクティビティとして残る。そしてそれはWebブラウザを使って別の環境からでも参照できる。どんな内容の対話だったのかが文字として残り、その再利用もできるのだ。

　たとえば、Gemini Liveで対話しながら、新しい企画を考えるといったブレインストーミングができる。会話の中で生じた疑問も、その場で聞けばGeminiが答えてくれる。自分の頭の中にあるアイデアをまとめるような使い方もできそうだ。そして、そのやりとりがテキストになれば、さらにそれを要約するなどして、誰かにメールで送ったり、プレゼンテーションスライドにまとめるようなこともできる。

　もっとも、そのメールを宛先の相手が人間として読むとは限らない。AIが読んでさらにそれを要約して人間に伝えるかもしれない。それが未来というものだ。

新しい当たり前がまた1つ

　どうにもアシスタントを音声で使うのをためらってきた。人目が気になってしまう。なので電話で話をしているふりをして問いかけるといったあざといことをやったりもした。最近は、完全ワイヤレスイヤフォンを耳に着けてそれで会話するスタイルも浸透してきたので、電話をかけるふりをわざわざしなくてもよくなってはいる。ブツブツと独り言を言っているような様子がいぶかしげに見られることもない。

　Androidスマホでは電源ボタンの長押しでアシスタントを呼び出せる。Geminiアプリをアシスタントに指定しておけば、Geminiをその場で使い始められる。また、Pixel Buds Pro 2のようなイヤフォンでは、左右どちらかのイヤフォンの長押しジェスチャーでデジタルアシスタントに話しかけることができる。

　ただ、現時点では、Gemini Liveをダイレクトにオンにするようなことはできないようで、いったん通常のGeminiが相手になるため、継続的に会話するような使い方が難しい。発声のたびにイヤフォンの長押しが必要で、しかも相手はGemini Liveじゃない。Gemini Liveで会話をスタートしても、しばらく黙れば一時停止してしまう。そのうちもっと自然な方法で会話ができるようになるといいのだが。

　四六時中環境音を傍受させておいて、話しかけられたことを検知したら、それをVoice Matchで認証して回答するといったスタイルを容認するのはプライバシーやセキュリティの点で十分な注意が必要だ。GoogleアシスタントやAlexaなどが使われ始めた頃にも、その危険性が大きな問題になったことを覚えている。

　あれから10年近い時間が過ぎた今、会話の相手としてのAIの能力は飛躍的に高まった。AIにいろんな役割を与えることができるようにもなった。孤独な独居生活の結果、身体の不調を訴えることもできずに悲しい結果となるようなことも、こうしたテクノロジーが多少は少なくしてくれるのだろうと期待したい。

　1人で運転していて眠くなりそうな渋滞の中、Gemini Liveのようなアシスタントと無駄話を始めるといった使い方だっていい。用もないのにAIを呼び出す。そういうところから新しい当たり前がスタートする。