山田祥平のRe:config.sys

AI不在のAIスピーカー

 スマートアシスタントが注目を集めている。Googleやアマゾンもスマートスピーカーの日本語化を完了して製品を投入、また、スピーカーのようなデバイスを使わずにスマートフォンでパーソナルデジタルアシスタント的にふるまうSiriやCortanaのようなキャラクタも定着してきている。

「ねえドラえもん」

 昔から機械に命令するための1つの方便として将来のコンピューティングに欠かせないものとされてきたのが音声入力だった。SFのシーンにもよく出てくるお馴染みのものだ。将来はキーボードがいらなくなって、文字入力もすべて音声で済むとも言われていたりした。

 個人的には、頭の中で思いついたフレーズを口にするとそれが文字になっていくディクテーションというのはどうにもしっくりくることがなく、キーボードから文字を打ち込んだ方がよほど手っ取り早いのだが、それでも音声認識の精度があがってきたことにより意外に頻繁に使うようになってきている。

 とはいえ頻繁に使うのはタイマーと目覚ましだ。タイマーはパスタのゆで時間やカップ麺のできあがり時間を知らせてもらうのに使う。たいてい両手がふさがっているので、声で「5分たったら教えて」などと指示できるのは便利だ。その点、ロックしたままでも会話を受け付けるSiriの方が好きだったりもする。

 目覚ましも同様だ。普段は目覚ましを使うことはほとんどないが、取材のための出張中にはよく使う。ところが宿泊するホテルごとにベッドサイドの時計のインターフェイスが異なっている。万が一間違ってセットしてしまったら、翌日の大切な取材ができなくなってしまう。だから、使い慣れたスマートフォンに対して目覚ましをセットする。「明日6時に起こして」と、それを音声でセットするわけだ。

 デジタルアシスタントというわりには、たいした使い方をしていないなと自分でも思う。だが、本当に確実に、自分で意図した結果が得られるという点では現時点ではこのくらいのことしかできないのだ。

 先日も、知り合いから連絡があって、暮れの忘年会のビンゴでGoogle Homeが当たったものの、なかなか望み通りの曲を再生してくれないがどうしたらいいのかという相談を受けた。Google Play Musicの無料サービスを申し込んだようなのだが、どうにもうまく選曲してくれないらしい。

 曲のデータが何千万曲あろうとも、ピンポイントで自分が聞きたい曲が聞けなければ、その曲のデータはないに等しい。単純なことを複雑な処理でこなすことの難しさを痛感する。今のAIは「ロマンチックな曲をかけて」といって曲を選ばせるような指示の仕方の方がうまく期待に応えてくれそうだ。

AIという言葉

 スマートスピーカーはこの1年でいきなりトレンドになった存在だが、2つの点で憂鬱な気分になっている。

 1つはこのデバイスを「AIスピーカー」と呼びたがる層が一定数いる点だ。まさか数千円で購入できるこうしたデバイスにAI処理ができると本気で思っているのだろうか。今のスマートスピーカーはAIへのゲートウェイにすぎない。AIそのものはクラウドにいることを忘れてしまうくらいにエッジ側にインテリジェンスが感じられるなら、それはそれで優れたスマートスピーカーだとは思うが、やはり、AIスピーカーというのは言い過ぎだ。

 もう1つの憂鬱は、このカテゴリのデバイスがスピーカーというかたちでデビューしたことから、「AI+スピーカー」という図式で使いかたを限定してしまっている点だ。将来的に、冷蔵庫や洗濯機、エアコンなどがIoTデバイスとしてインターネットにつながったとき、どう考えたってこれらのデバイスがAIに依存するのは確実だ。あるいは、壁やドアがしゃべる可能性だって高い。そのときにもAIスピーカーと呼ぶのだろうか。まだ、この呼び方が一般的な層に浸透しないうちに、ちゃんとした名称を考えておいたほうがよいと思う。

 そういう意味ではパーソナルコンピューターをパソコンと呼ばせたのはすごい。余談だが、Windows 3.1の日本における発表のとき、当時のマイクロソフト株式会社社長だった成毛眞氏は冒頭の挨拶で、「これからはパソコンと呼ばずにPCと呼んでほしい」と言ったことを覚えている。たぶん、世界標準のステージに移行することを示唆していたのだと思う。それから四半世紀たった今も「パソコン」という呼び方は健在だし、「PC」という呼び方の方がどちらかといえばマニアックだったりもする。最近の若い子たちはどっちの呼び方がしっくりくるのだろうか。

 いずれにしても、これから何十年かあとになって、「しまったAIスピーカーなんて呼び方にするんじゃなかった」と後悔しないためにも再考を提案したい。

音声とAI

 「AIスピーカー」じゃなければなんと呼べばいいのかと必ず聞かれる。個人的には「スマートボイス」だと思うが、AI処理の結果が音声アクションになるとは限らないとしたらこれもまずいんじゃないかとも思う。そもそも「AI」という言葉自体がものすごく曖昧で、いたるところで使われていること自体に懸念を覚える。AIというのは魔法の言葉で、それをつけるだけでなんだかとてつもない人工知能を想像し、それが豊かな暮らしに貢献しているのかといった錯覚に陥ってしまう。

 AIについて議論したり、会話したりするときに、互いの中でのAIの定義が食い違っていたとしたらまずいんじゃないか。それはコンピュータとは何なのかといった議論にまで発展するだろうし、電卓はコンピュータか、スマートフォンはコンピュータではないのかと、もうキリがないくらいにやっかいなことになってしまう。

エッジはますますインテリジェントに

 先日、QualcommのRaj Talluri氏(IoT担当SVP)が来日、同社のIoTへの取り組みについて説明した。Talluri氏によれば、たとえば、どんなことがあっても事故を起こしてはならないクルマの運転1つとってもわかるように、今後ますますエッジ側の処理能力は重要になっていくらしい。

 今の時点でも、掃除機、カメラ、ドローンなど、さまざまな機器がよりインテリジェントなものになってきているが、さらに、認識、推論、行動という要素がそのインテリジェントさを加速する。

 「かつてIoTのインテリジェンスはクラウドにあった。だが、今は、デバイス側、つまりエッジに移ってきている。もちろんクラウド依存は残るが、遅延や通信コスト削減などの課題がある。だからそれをハイブリッド型で解決というアーキテクチャに移行している。エッジ側のインテリジェンスはプライバシー保護、セキュリティ、通信断、通信帯域の有効利用などに適切に対処できる。これからますますエッジ側の処理能力は重要になっていく」(Talluri氏)。

 同氏の示唆が正しいとすれば、今の「AIスピーカー」という呼び方がふさわしくなかったとしても、将来的にはそれがしっくりするほどのインテリジェンスを装備するようになる可能性もある。そこまで想定しての「AIスピーカー」ならそれもありだ。

 個人的には、これからますます増えるであろう固定インターネット回線をもたない世帯に、こうしたエッジデバイスがどう浸透していくかも気になるところだ。