やじうまPC Watch

NVIDIAのAI、“実在しない”セレブ写真の生成技術を獲得

Progressive Growing of GANs for Improved Quality, Stability, and Variation

 NVIDIAの研究者らは27日(米国時間)、偽の有名人の写真を生成する「Generative Adversarial Network (GAN、敵対的生成ネットワーク)」についての論文を発表しました。

 現在、深層学習において大きな話題の1つがGANで、GANは人間のアシストが少なくても多くを学習できるシステムを作り出す可能性があるとされている。

 たとえば、写真を認識するために1つのニューラルネットワークを訓練するのではなく、競合する2つのネットワークを訓練させ、ネットワークにスパーリングを行わせることで相互に学習が可能となる。画像認識で言えば、一方のネットワークが偽の画像を見つけるのが難しくなると、もう一方は本物と区別のつかない偽物を生成できていることになる。

 研究者らによれば、今回の研究では、ジェネレータとディスクリミネータそれぞれを徐々に成長させる、つまり「低解像度から開始し、訓練の進行にともない細かいディテールをモデル化する新しいレイヤーを追加していく」のが鍵となるアイデアで、それらが学習の速度向上と大幅な安定化につながり、これまでにない画質の画像を作り出すことができたという。実際、デモ動画をみると、非常に"それっぽい"写真が生成されている。

 今回のネットワークは、Tesla P100 GPUとCUDA、cuDNN(Theano、Lasagneを利用)を使用して20日間訓練されている。

NVIDIAのAI、“実在しない”セレブ写真の生成技術を獲得 学習に使われた「CelebA-HQ」データセットの作成は、「CelebA in-the-wild」データセットのJPEG画像(a)を基に、JPEGアーティファクト除去(b、中段)と4倍の超解像処理(b、下段)で品質(b、上段)を向上させ、画像をミラーパディング(c)およびガウシアンフィルタ処理(d)で拡大して、被写界深度効果を生成。最後に、顔の特徴点位置から適切な切り取り領域(e)を選択し、高解像度リサンプリングを実行して1,024×1,024ピクセル(f)の最終画像としている
学習に使われた「CelebA-HQ」データセットの作成は、「CelebA in-the-wild」データセットのJPEG画像(a)を基に、JPEGアーティファクト除去(b、中段)と4倍の超解像処理(b、下段)で品質(b、上段)を向上させ、画像をミラーパディング(c)およびガウシアンフィルタ処理(d)で拡大して、被写界深度効果を生成。最後に、顔の特徴点位置から適切な切り取り領域(e)を選択し、高解像度リサンプリングを実行して1,024×1,024ピクセル(f)の最終画像としている