ニュース

Microsoft、文章から本物のような画像を生成する人工知能を開発

~人の「注意する」概念をモデル化し「常識」も学ぶ

「黄色の体と黒い羽を持った、嘴の短い鳥」の写真

 米Microsoftは18日(米国時間)、文章から画像を生成する人工知能技術を開発したことを発表した。

 Microsoft Researchが開発しているこの能力を備えたBotは、シンプルに“Drawing Bot”と呼ばれており、文章から画像を生成することができるというもの。

 たとえば、「黄色の体と黒い羽を持ち、くちばしの短い鳥の写真」という文章を人間が絵に起こすとき、まず鳥の大まかな輪郭を描き、黄色のペンで塗りつぶし、黒いペンで翼を描き、短いくちばしを描くというプロセスを経て、人によっては、完成度を上げるために鳥の止まる木の枝も描く。ボットはそれと同様に画像を生成できるという。

 完成度を向上させるためには、文章に含まれていない詳細を描く必要があるため、「画像から説明文(キャプション)を生成する」よりも「キャプションから画像を生成する」ほうが難しい。研究チームのPengchuan Zhang氏は、そのために画像生成には、人工知能を実行している機械学習アルゴリズムが、画像の欠落部分を“想像”する必要があると説明している。

 Botのキモとなるのが「Generative Adversarial Network (GAN: 敵対的生成ネットワーク)」で、文章から画像を生成するジェネレータと、画像が文章に合っているかを判定するディスクリミネータの2つの機械学習モデルを組み合わせて、より高度な学習を行なう。

 NVIDIAも、2017年10月に、GANを利用して実在しないセレブの写真を生成できるAIの開発を行なっている。

 Microsoftは、画像とキャプションが対になったデータセットで訓練を行なっており、GANによって、キャプションに「鳥」と書いてあるときに、鳥の画像を生成することを学ぶと同時に、「鳥の画像がどのように見えるべきか」も学習する。

 GANでは、「青い鳥」や「常緑樹」など短文の説明から画像を生成するときは、正常に動作するが、「緑色のとさかと黄色の羽、赤い腹を持つ鳥」のように、複雑なキャプションになると品質が低下してしまう。これは文全体がジェネレータに1つの入力として投げられるためで、「緑色を帯びた黄色がかった赤い鳥」を生成してしまうという。

 同社では、人間が絵を描くときには、繰り返しキャプションを読んで、描く対象の部分を説明している単語に注意を払うという動作を行なっていることに注目し、その特性を持たせるために、人間が「注意する」という概念を数学的に表した「Attentional GAN (AttnGAN)」を作成した。

 AttnGANでは、入力されたキャプションを個々の単語に分割し、それらの単語を画像の特定の領域とマッチングさせることで、人間のような描画を実現できたという。

 また、訓練用のデータセットから人間にとっての「常識」も学習しており、画像の詳細を想像で補完するさいに、学習した常識の概念を用いているという。例えば、データセットの画像の鳥は、多くが枝に止まっていることから、AttnGANは、「通常、鳥は枝に止まっている」という概念から木の枝を補完して描画する。

 テストとして、研究チームは「赤い2階建てバスが湖に浮いている」というキャプションから画像を生成させたところ、不鮮明ながら、2つのデッキを持つボートと、2階建てバスが山々に囲まれた湖畔に浮かんでいるような画像を生成したという。

 Zhang氏は、これが「ボートは湖に浮かぶ」という知識と、バスというキャプションの指定との間で、学習モデル上で葛藤があったことを示していると語っている。

 現状、まだ技術は不完全で、黒い代わりに青いくちばしが付いた鳥や、変形したバナナで立った果物といったバグが、ほとんどの生成画像で見受けられるものの、研究論文に記載された業界標準テストの結果によると、以前の最高クラスのGANと比較して、ほぼ3倍の精度まで向上しているという。

 同社では、将来的に、文章からの画像生成技術によって、画家やインテリアデザイナーのためのスケッチアシスタントのような実用的アプリケーションや、音声認識による写真編集ツールなどが実現できると考えており、より強力なコンピューティング性能があれば、映画監督が脚本に基づいたアニメーション映画を自動生成させるといった例も考えられるとしている。