ニュース

単眼カメラ映像から手のリアルタイム3Dトラッキングを行なえる技術

~ニューラルネットワークを活用

GANerated Hands for Real-Time 3D Hand Tracking

 独マックス・プランク研究所、米スタンフォード大学の研究者らが、深度情報の存在しない、単眼のRGBカメラの映像から、リアルタイムで3Dハンドトラッキングを行なえるという技術を発表した。

 論文著者はFranziska Mueller氏、Florian Bernard氏、Oleksandr Sotnychenko氏、Dushyant Mehta氏、Srinath Sridhar氏、Dan Casas氏、Christian Theobalt氏で、米ソルトレイクシティで6月に開催予定の「Conference on Computer Vision and Pattern Recognition (CVPR 2018)」にて詳細発表が行なわれる予定。

 デモ映像を見ると、何かを持っていたり、手にオブジェクトが被っている場合でも正確にトラッキングが行なえている様子がわかるが、このトラッキング手法は、畳み込みニューラルネットワーク(CNN)と運動学的3Dハンドモデルを組み合わせたもので、オクルージョンやカメラ視点の変化に強く、解剖学的に正しく、時間的に滑らかな手の動きを実現している。

 CNNの訓練データを生成するためにもニューラルネットワークを活用しており、生成画像が実際の手の写真と同じ統計分布に従うような、合成画像を「実写画像」に変換するために、敵対的生成ネットワーク(GAN)を使っているという。