やじうまPC Watch

たった1枚の人物写真から会話している映像を作れる技術

 たった1枚の顔写真から高精度なフェイスアニメーションを作成する技術が、YouTubeで紹介されている。モスクワの Samsung AI Centerに勤めているというEgor Zakharov氏がアップロードしたこの動画では、写真/絵画の人物があたかも誰かに話しかけているように表情だけでなく頭まで動かしており、教科書などで見るドストエフスキーやモナリザの誰もが見たことのある1枚から、そのシーンが作られていることがわかる。

Few-Shot Adversarial Learning of Realistic Neural Talking Head Models

 この技術は、畳み込みニューラルネットワーク(Convolutional Neural Network)で実現されているが、そのデータとして、VoxCelebというYouTubeにアップロードされた7,000人以上もの著名人らの動画から抽出した画像データベースが使われており、これらをもとに人物の眉、眼、鼻、口、輪郭を“ランドマーク(目印)”として学習することで、話者の顔モデルを作り上げている。

 動画では、話者のモデルとなる写真を32枚用意したパターンも作られており、枚数が増すほど精度が高まっていくことが見て取れるが、1枚だけの場合でもかなり高精度な話者のモデルが作れていることがわかる。