ニュース

「不気味の谷」を越えたデジタルヒューマン「SUSU」、中国発のAI技術

会話に合わせて自然な動きを見せるSUSU

 AIのベンチャー企業SentiPulseおよび中国人民大学のAI研究チームは4月8日(現地時間)、デジタルヒューマンのしゃべりに応じて自然な動きを与える統合技術フレームワーク「SentiAvatar」に基づいたバーチャルアバター「SUSU」を発表した。

 デジタルヒューマンや3Dアバターと会話する際に「口は動いているけど表情が硬く、身振り手振りはするけど、話とまったく関連性がなく動きも不自然なため、デジタルヒューマンが“不気味の谷”にいることを感じる」ことが多々ある。これは、デジタルヒューマンの動作の生成が、ジェネリックな動きをつなぎ合わせているために発生している問題だという。

 しかし、人間がデジタルヒューマンとの間で信頼関係を築いたり、ロボットが人間と協働したり、ゲーム内でキャラクターをよりリアルに表現するためには、自然で一貫した、かつ感情豊かな表現力が欠かせない。そこで研究チームは今回のモデルの開発に至った。

 SentiAvatarを開発する上での課題は3つあった。

 1つ目は既存のデータセットが主に英語のコーパスで構成されており、なおかつ動きと連動した表情が欠けていたこと。特に、中国語の対話シナリオにおける高品質な全身動作データはほとんどなかった。

 2つ目は「手を振る」という簡単な動作の記述から、「しようがなさそうに肩をすくめる」、「同意するように頷く」という複雑な複合語に変化しただけで、モデルの理解能力が急激に低下すること。

 3つ目は、モデルが生成した動作そのものが、ロボットのように均一の速度のものか、発話の強弱やタイミングと完全にズレが生じたものであったことだった。

 これらの課題は、「言葉の意味」と「言葉のリズム」が異なる時間スケールで発生するために生じる。言葉の意味は1つの文から生まれるが、言葉のリズムはフレーム単位で生じるため、同一のモデルに“兼任”させることが難しいからだという。たとえば既存のジェスチャー生成のEMAGEやTalkShowなどは音声を起点としているため文の解釈に欠け、文を起点としているT2M-GPTやMoMaskは完全に音声処理を落としているため、発音リズムに合わせて時系列にチューニングしていない。

 今回研究チームはまず、光学モーションキャプチャを用いて、同一のキャラクターに対して、同期音声、動作注釈付きテキスト、全身の動作および表情などを網羅した合計21,000のセグメント、37時間分のマルチモーダル対話コーパスが含まれた「SuSuInterActsデータセット」を構築。

 その次に、20万以上のアクションシーケンス(約676時間)でモーション基盤モデルを事前学習。基本モデルはQwen-0.5Bをバックボーンとして使用し、語彙を拡張して2,048個のアクショントークンと音声トークンを含めた。なお、言語の一貫性を保つために、すべてのテキスト記述は中国語に翻訳されている。

 一方、会話の中のアクション生成において、SentiAvatarは身体の動きと体の表情を別々に処理するプランニング・インフィル方式のデュアルチャネル並列アーキテクチャを採用した。これらの工夫の結果、ほかの主流AIモデルと比較して、もっとも自然な動きを生成できたとしている。

プランニング・インフィル方式のデュアルチャネル並列アーキテクチャの採用
ほかのモデルと比較して、もっとも自然な動きの生成が可能

 SentiAvatarフレームワークおよびSuSuInterActsデータセット、事前学習済みモデルは既にGitHub上でオープンソースとして公開されており、3Dモーション生成に関心がある世界中の研究機関や開発者に対して、3Dデジタルヒューマン技術とその応用分野の可能性を広げていくよう呼びかけている。