ニュース

NTT、自分の分身AIを低コストで作る技術。自分の合成音声を簡単に作れる技術も

個人性再現対話技術

 日本電信電話株式会社(NTT)は、同社の大規模言語モデル(LLM)「tsuzumi」の拡張技術として、少量の対話データから個人の口調や発話内容の特徴を反映して対話を生成する「個人性再現対話技術」を発表した。

 同社は、少量の音声データから個人の声色を反映した音声を合成できる「Zero/Few-shot音声合成技術」も発表した。いずれも、本人のように行動し本人と経験を共有するデジタル分身「Another Me」の研究の一環として開発され、これらの技術により、少量の学習用データからデジタル分身の作成が可能となる。

Another Me
研究成果
個人性再現対話技術

 個人性再現対話技術は、LLMをベースに少量のデータからでも本人のように話すAIチャットボットを作成できる技術。従来の技術では個人の特長を再現するには大量の学習用データが必要だったが、本技術では同社の「アダプタ技術」と「ペルソナ対話技術」を組み合わせることで、少量のデータからでも個人の特性を高精度で再現したAIを作成できるという。

 アダプタ技術は、事前学習済みモデルの外部に比較的小規模のモデル(アダプタ)を追加することで、LLMを効率的に追加学習できる技術。また、ペルソナ対話技術は、LLMに対話データとプロフィールをセットで学習させることで、対象となる個人の居住地や趣味などの大まかなプロフィール情報をパラメータ指定すると、対象の分身のように発話内容を再現できる技術。

 アダプタ技術のみでは、少量データでは学習が不十分で他人のような発話が生成されてしまうが、ペルソナ対話技術を組み合わせることで、プロフィール情報の入力により学習の初期状態がより本人に近づくため、学習データが少量で済むという。本技術により、従来よりデジタル空間内に自身の分身を簡単に作成できるようになる。

Zero/Few-shot音声合成技術

 Zero-shotおよびFew-shot音声合成技術は、少量の音声データからでも個人の声色を反映した合成音声を作成できる技術。Zero-shot音声合成技術は、数秒程度の音声データから声色の特徴を抽出し、音声合成モデルの学習なしで特徴を再現した音声を生成できる技術。声を失った方など極少量の音声しか得られない方を含む万人の音声の簡易な再現を図っている。

 Few-shot音声合成技術は、数分から10分程度の音声データから音声合成モデルを学習し、著名人や有名キャラクターの声色や口調を高精度で再現した音声を生成できる技術。どちらも従来に比べて必要な音声データ量を大幅に削減しているほか、演算処理の高速化により一般的なスペックのCPUで動作させることに成功しており、本技術の音声合成サービスの運用コストを低く抑えることを実現したという。

 同社は今後、本研究成果の実用化に向けたAnother Meによる人間関係構築の実証実験をMetaMe上で行なうほか、tsuzumiの精度向上を目指すとしている。また、これらの技術を適用したプロトタイプとして、アニメキャラ「邪神ちゃん」のAIなどをdocomo Open House '24にて18日まで展示している。