ニュース
Microsoft、文章から本物のような画像を生成する人工知能を開発
~人の「注意する」概念をモデル化し「常識」も学ぶ
2018年1月19日 17:10
米Microsoftは18日(米国時間)、文章から画像を生成する人工知能技術を開発したことを発表した。
Microsoft Researchが開発しているこの能力を備えたBotは、シンプルに“Drawing Bot”と呼ばれており、文章から画像を生成することができるというもの。
たとえば、「黄色の体と黒い羽を持ち、くちばしの短い鳥の写真」という文章を人間が絵に起こすとき、まず鳥の大まかな輪郭を描き、黄色のペンで塗りつぶし、黒いペンで翼を描き、短いくちばしを描くというプロセスを経て、人によっては、完成度を上げるために鳥の止まる木の枝も描く。ボットはそれと同様に画像を生成できるという。
完成度を向上させるためには、文章に含まれていない詳細を描く必要があるため、「画像から説明文(キャプション)を生成する」よりも「キャプションから画像を生成する」ほうが難しい。研究チームのPengchuan Zhang氏は、そのために画像生成には、人工知能を実行している機械学習アルゴリズムが、画像の欠落部分を“想像”する必要があると説明している。
Botのキモとなるのが「Generative Adversarial Network (GAN: 敵対的生成ネットワーク)」で、文章から画像を生成するジェネレータと、画像が文章に合っているかを判定するディスクリミネータの2つの機械学習モデルを組み合わせて、より高度な学習を行なう。
NVIDIAも、2017年10月に、GANを利用して実在しないセレブの写真を生成できるAIの開発を行なっている。
Microsoftは、画像とキャプションが対になったデータセットで訓練を行なっており、GANによって、キャプションに「鳥」と書いてあるときに、鳥の画像を生成することを学ぶと同時に、「鳥の画像がどのように見えるべきか」も学習する。
GANでは、「青い鳥」や「常緑樹」など短文の説明から画像を生成するときは、正常に動作するが、「緑色のとさかと黄色の羽、赤い腹を持つ鳥」のように、複雑なキャプションになると品質が低下してしまう。これは文全体がジェネレータに1つの入力として投げられるためで、「緑色を帯びた黄色がかった赤い鳥」を生成してしまうという。
同社では、人間が絵を描くときには、繰り返しキャプションを読んで、描く対象の部分を説明している単語に注意を払うという動作を行なっていることに注目し、その特性を持たせるために、人間が「注意する」という概念を数学的に表した「Attentional GAN (AttnGAN)」を作成した。
AttnGANでは、入力されたキャプションを個々の単語に分割し、それらの単語を画像の特定の領域とマッチングさせることで、人間のような描画を実現できたという。
また、訓練用のデータセットから人間にとっての「常識」も学習しており、画像の詳細を想像で補完するさいに、学習した常識の概念を用いているという。例えば、データセットの画像の鳥は、多くが枝に止まっていることから、AttnGANは、「通常、鳥は枝に止まっている」という概念から木の枝を補完して描画する。
テストとして、研究チームは「赤い2階建てバスが湖に浮いている」というキャプションから画像を生成させたところ、不鮮明ながら、2つのデッキを持つボートと、2階建てバスが山々に囲まれた湖畔に浮かんでいるような画像を生成したという。
Zhang氏は、これが「ボートは湖に浮かぶ」という知識と、バスというキャプションの指定との間で、学習モデル上で葛藤があったことを示していると語っている。
現状、まだ技術は不完全で、黒い代わりに青いくちばしが付いた鳥や、変形したバナナで立った果物といったバグが、ほとんどの生成画像で見受けられるものの、研究論文に記載された業界標準テストの結果によると、以前の最高クラスのGANと比較して、ほぼ3倍の精度まで向上しているという。
同社では、将来的に、文章からの画像生成技術によって、画家やインテリアデザイナーのためのスケッチアシスタントのような実用的アプリケーションや、音声認識による写真編集ツールなどが実現できると考えており、より強力なコンピューティング性能があれば、映画監督が脚本に基づいたアニメーション映画を自動生成させるといった例も考えられるとしている。
楽天市場 売れ筋ランキング
Amazon売れ筋ランキング
Anker Soundcore Life P2 Mini【完全ワイヤレスイヤホン / Bluetooth5.3対応 / IPX5防水規格 / 最大32時間音楽再生 / 専用アプリ対応】ブラック
¥4,490
Anker Soundcore P40i (Bluetooth 5.3) 【完全ワイヤレスイヤホン/ウルトラノイズキャンセリング 2.0 / マルチポイント接続 / 最大60時間再生 / PSE技術基準適合】ブラック
¥7,990
イヤホン bluetooth ワイヤレスイヤホン 48時間の再生時間 重低音 LEDディスプレイ表示 小型/軽量 IPX7防水 ブルートゥース 接続瞬時 Hi-Fi ブルートゥースイヤホン Type-C 急速充電 ぶるーとぅーすイヤホン iPhone/Android/Pad適用 スポーツ/通勤/通学/WEB会議 (ホワイト)
¥39,999
【VGP 2025 金賞】EarFun Air Pro 4 ワイヤレスイヤホン Bluetooth 5.4/50dBアダプティブ式 ハイブリッドANC/最先端チップ「QCC3091」aptX Losslessに対応/ハイレゾ LDAC対応/Snapdragon Sound™ に対応/Auracast™に対応/52時間連続再生【6マイクAI 通話/PSE認証済み】 装着検出機能 (ブラック)
¥9,990
EarPods with 3.5 mm Headphone Plug
¥2,668
by Amazon 炭酸水 ラベルレス 500ml ×24本 強炭酸水 ペットボトル 500ミリリットル (Smart Basic)
¥1,409
by Amazon 天然水 ラベルレス 500ml ×24本 富士山の天然水 バナジウム含有 水 ミネラルウォーター ペットボトル 静岡県産 500ミリリットル (Smart Basic)
¥1,173
コカ・コーラ い・ろ・は・す天然水ラベルレス 560ml ×24本
¥2,131
キリン 自然が磨いた天然水 ラベルレス 水 2リットル 9本 国産 天然水 ミネラルウォーター ペットボトル 軟水
¥2,722
い・ろ・は・すラベルレス 2LPET ×8本 【Amazon.co.jp限定】
¥1,168