ニュース

Amazon、AIでファッションコーデの提案や画像合成による試着などを可能にする技術

左のモデル画像に中央の服を着せた合成画像を出力

 米Amazonは5日(現地時間)、ニューラルネットワークを用いた3つの論文に基づくECサイトなどに応用可能な3つの技術について紹介している。すべてニューラルネットワークを用いた技術となる。

 1つ目は、商品画像のバリエーションをユーザーが記述すると、それにあわせて製品画像を変更できるもの。

 テキストに応じた製品画像を提供するには、テキストの説明と画像の特徴を1つの表現に融合すること、「もっとフォーマルに」や「首元のスタイルを変えて」といったさまざまなレベルの解像度で融合を行なうこと、ユーザーの変更指示にあわせて画像の特徴の一部を維持するよう学習させることの3つが必要となる。

テキストにあわせて画像を

 今回開発されたシステムでは、3つのニューラルネットワークに3つの入力が並列で行なわれる。処理パイプラインに設けられた3つのポイントでソース画像とテキスト情報が融合され、ターゲット画像と関連づけされていく。ニューラルネットワークの低レベル層ではテクスチャや色などといった特徴、高レベル層では袖の長さやフィット感といった特徴といったような、階層的なマッチングを利用することで、さまざまな解像度においてテキスト情報をベースとした画像の変形が行なえる。

 言語と画像表現におけるそれぞれの融合処理は、ソース画像とターゲット画像の間で同一であるべき特徴を認識するjoint attentionと、変わるべき特徴を認識するself-attentionの2つで構成されたニューラルネットワークによって実行される。新たに構築されたシステムでは、以前のものより適切な結果が出力できる頻度が58%向上したという。

 2つ目は、シャツ、パンツ、ジャケットを選ぶとおすすめの靴が出てくるといった、補完アイテムの検索を実現するもの。

補完アイテム検索用のアーキテクチャ

 畳み込みニューラルネットワークを利用したもので、カテゴリを示すベクトルとともに任意の衣服の画像と、ユーザーの求める衣服のカテゴリのベクトルを入力する。画像は、それぞれのベクトルを生成するニューラルネットワークと、特徴を増幅/減衰させるマスクを通過し、補完アイテムの色やスタイルといったサブセットのみに関連する情報を出力する。ここで得られるデータには、靴だけでなくハンドバッグや帽子などといったものも含まれているが、これに平行して、別のネットワークが各入力画像のカテゴリと、ターゲットアイテムのカテゴリを受け取り、補完アイテムの優先度を決める重みを出力する。

 ネットワークは衣装とそれに似あうアイテム、似あわないアイテムなどを用いて、衣服全体を評価するよう学習が行なわれる。学習が終わると、カタログ内のアイテム全てにベクトル表現を生成でき、対応するベクトルを検索するだけで衣服に似あうアイテムを見つけられるという。

 3つ目は、複数の画像を利用して仮想的な試着を可能にするもの。

3段階のプロセスでモデルとなる画像と衣服を合成するネットワーク

 これまでは、別ソースからの衣服を合成させる学習を行なうさいに、さまざまな角度から同じ服を着た人を撮影したデータを用いてきたが、この手法ではデータの生成に非常に時間が掛かってしまう。そこでGANをもちいた学習システムを構築。1枚の画像から学習が行なえるようにした。

 ネットワーク内では、最終的に出力する画像のモデルとなるクエリ画像と、モデルに着せる衣服を含む参照画像を入力し、3段階のプロセスを通じて処理される。1段階目では形状関連を処理する。クエリ画像のポーズと体型を示すボディモデルの生成や、参照画像から衣服部分の抽出などを行ない、次のネットワークに渡す。

 2段階目では、形状に関する処理は行なわず、色やテクスチャに関する情報を処理する。形状表現と組みあわせて、クエリ画像のモデルが参照画像の衣服を着用した場合の見た目を生成する。

 3段階目では、モデルのシルエットを損なわずロゴや衣服のパターンなどを維持するよう、パラメータを微調整し、最終的な出力を行なう。新システムによる画像生成では、従来のものと比べてより自然な出力が可能となったとしている。

左から、クエリ画像、参照画像、従来システムでの出力、新システムでの出力(3段階目なし)、同(3段階目あり)の結果画像