ニュース

Alexa、LLMによる生成AI実装へ。作曲機能も

 Amazonは21日、音声アシスタント「Alexa」に、生成AIを実装していくことを明らかにした。無料プレビューとして米国のユーザーに間もなく提供予定としている。

 実装される生成AIは特に音声対話用に最適化された新しい大規模言語モデル(LLM)に基づいており、リアルタイム情報の取得、効率的なスマートホーム制御、ホームエンターテイメントへの最適化を施している。

 会話においてはボディランゲージ、話している相手の知識やアイコンタクトなどがあるが、Echoのカメラ、マイク、存在検知機能などのセンサー入力を、非言語的な合図として理解できるAIモデルと融合。また、会話が途切れず自然に、応答が音声に適した長さになるよう、遅延の短縮にも重点を置いて開発。たとえば話題のニュース記事や最新情報について尋ねると、もっとも関連性の高い情報を簡潔な応答で行なうとしている。

 実用性を高める意味で、複雑なルーチンを音声でプログラムできるようになる。たとえば、「Alexa、毎週夜9時に子供たちに就寝時間であることを知らせ、2階の照明を暗くして部屋とポーチライトをつけて、寝室の扇風機のスイッチを入れてください」と言うだけで、一連の操作を自動的にプログラムして実行する。

 パーソナライゼーションにおいては、これまで共有した設定や操作、環境情報に基づくようになり、人間と同様に会話全体を通じて関連するコンテキストを引き継ぐようになる。たとえば特定の博物館に行くことをスケジュールしている場合、名前や行く日を再度伝えることなく、開館時間や展示物、場所などについて一連のフォローアップを聞くことが可能。

 また、Alexa自身も性格のようなものを持つようになり、独自の視点で「オスカー賞を受賞すべき映画」を教えてくれたり、クイズに正解すると一緒に祝ってくれるようになったりするという。

 その一方で、ユーザーのプライバシーとセキュリティを保護し、制御性や透明性を提供するとしている。

 この機能の開発は、Visual IDへ登録したユーザーが、Alexaとの会話においてウェークワード(冒頭でAlexaと呼びかけること)を不要とし、画面に向かうだけでAlexaとの会話を開始できるようにしたことから始まったといい、これによりこれまででもっとも自然な会話体験を実現したという。

 そして、次に大規模モデルを利用し、新しい会話型音声認識(CSR)エンジンを開発。人間が考えをまとめたり、ある点を強調したりするための会話中のためらいや一時停止を調整/認識し、自然な会話を可能にした。最後に大規模なトランスフォーマーモデルを使用した生成AIでAlexaの表現力を高め、会話の意図に合わせた音声合成技術の強化を実現した。

 このほか、AIまたは生成AIを活用した機能としては、運動障害または聴覚/言語障害があるユーザーが視線でAlexaを操作できる「視線モード」機能(Fire Max 11から実装)、25を超えるキャラクターとの会話、作成したい音楽の種類を声で伝えるだけで音楽が生成できる「Splash」、子どもたち向けに動物や自然の質問に答える「Explore with Alexa」などが今後順次実装されるとしている。