ニュース

Alibaba、1枚の写真/絵と音声から、歌ったりしゃべったりする動画を生成するAI

 Alibabaは、1枚の写真や絵と音声を基に、歌ったりしゃべったりする動画を生成できるAI技術「EMO(Emote Portrait Alive)」を発表した。

 EMOは、1枚のリファレンス画像と音声を入力することで、その音声にあわせた合成映像を出力できるというAI技術。表情豊かでさまざまな頭の動きを表現できるとしており、入力に応じてあらゆる長さの映像を生成できるという。

 入力する画像は、写真や絵画、イラストなどに対応しており、AIで生成した画像なども利用できる。音声については、人の歌声や話し声に対応しており、ラップのようなスピードの速いものにも動きをあわせられるとしている。