ニュース

NVIDIA、Web会議でアバターをリアルタイム合成し帯域を最大10倍削減できる技術

Vid2Vid Cameo紹介ビデオより

 NVIDIAは、学会「Conference on Computer Vision and Pattern Recognition」(CVPR)において、AI技術を利用したWeb会議向けの画像技術「Vid2Vid Cameo」を発表した。

 Vid2Vido Cameoは、GTC Fall 2020で発表されたビデオ会議用システムの開発キット「Maxine SDK」のディープラーニングモデルの1つ。敵対的生成ネットワーク(GAN)を利用し、18万の高品質な会話画面のビデオのデータセットを駆使しトレーニングされ、それによって実現した。

 顔の動きをモデル化するため、GANは主要ポイントを20カ所特定すれば良いことを学んだ。具体的には、目、口、鼻といった、顔を特徴づける位置のキーポイントをエンコード。そして、画面に映る人の参照画像からキーポイントを抽出。こうしたキーポイントは以前に開催したミーティングから再利用したり、ほかのビデオ会議の参加者にあらかじめ送信しておけるため、ポイントがどのように動いているか最小限のデータを送信するだけで済む仕組み。

 これによって、正装姿の自分の写真を1枚アップロードしておけば、常にそれをリアルタイムで自分の顔にマッピングしてWeb会議に参加できる。髪の毛がボサボサであったり、パジャマ姿であっても、オフィススタイルで会話画面に映し出される。被写体が左を向いても、技術により視線が補正され、常にWebカメラに向いているように見せられるという。

 また、この技術を活用することで、頭の位置とキーポイントだけを圧縮して相互送信できるため、ビデオ会議に必要なネットワーク帯域幅を10分の1に減らせる。さらに、カメラの高低を自由に調整できるとしている。