ニュース
GoogleのAIが画像を正確に分析できる4つの技術とは?
2019年10月8日 16:59
グーグル合同会社は10月8日、都内同社にて「Google レンズ」の機能と仕組みを説明するメディア向けセミナーを実施した。Google本社でグループプロダクトマネージャーを務めるLou Wang氏が説明を行なった。
Google レンズは、Android OSやiOSで提供されているアプリで、スマートフォン/タブレットのカメラ越しに文字を写して翻訳したり、動植物の種類、有名な建物の特定など、日常的のさまざまな場面で簡単で直感的に調べることができる便利なものだ。Google レンズはアプリ単体だけでなく、Google フォト/検索/アシスタント/カメラといったアプリにもその技術が使われている。
Wang氏はまずGoogle レンズについて、2017年のリリース以来、多くの反響を得ることができ、利用者からは身の回りにあるたくさんのことが理解できるようになったといった喜びの声が聞かれたそうだ。
一方で、Google レンズのようなコンピュータビジョンを駆使する技術では、対象物を理解することが必要とされ、設計は非常に複雑だとする。たとえば、靴があったとしてそれをどの位置から見るのか、清潔か汚れているか、色合いは濃いのか薄いのかなど、すべてを把握することが期待される。それに加えて身の回りには生き物も含めて何十億というモノがあふれており、その中から特定する必要がある。さまざまなサービスを展開しているGoogleのなかでもGoogle レンズの技術はとくに難解なものという。
Wang氏はコンピュータビジョンによる解析は短期間で解けるものではないと前置きしつつ、機械学習的に「分類(Classification)」、「検出(Detection)」、「分散表現(Embeddings)」、「モデルの学習(Model Training)」の4つの技術を用いることで高い精度を実現できると説明した。
最初の「分類」では、画像内に含まれる“モノ”にラベルを付け、そのラベルの正確度を算出することで、Googleが数百万の画像から学んだ過去の検出結果を用いて判別を行なっている。下の画像はおもちゃの王冠をかぶった子どもが誕生日ケーキの火を消そうとしているものだが、この「分類」作業において、ケーキ、誕生日、王冠、風船、誕生日ケーキのラベル付けが行なわれており、とくにケーキについては約93%と高い正確度になっていることがわかる。
2つ目の「検出」は、ラベル付けされた物体がどの位置にあるかを判断するもの。これによって、ユーザーが王冠、ケーキ、風船といった物体をタップ選択したり、そこにものがあることを示して注意を促すことが可能になる。
3つ目の「分散表現」は、画像の特徴をベクトルで表現する手法であり、分散表現によって指定の画像がほかの画像にどれくらい似ているかを算出できる。人が画像の特徴を直感的に把握するのと似たプロセスで実行することにより、効果的な検索や類似画像を見つけられるようになる。
たとえば、以下の画像の赤い車の写真には、赤い車以外にも、左を向いている、芝生があるといった要素が含まれており、機械学習でこれらが数値化される。そして、類似する要素を持つ複数の画像と比較を行ない、判断が正しいかどうかを求める。これで同じタイプの商品を見つけられるようになる。
そして最後に「モデルの学習」だが、この段では同社が開発したTensor Processing Unit(TPU)を用いて、高速に機械学習が行なわれている。TPUを用いれば、GPUで数日間や数カ月かかっていたものが、数時間程度で処理できるようになっており、Wang氏はコンピュータビジョンの発展に大きく貢献しているという。
Wang氏はこれらの技術を組み合わせることによってGoogle レンズが成り立っており、そこには「Googleが世のなかのあらゆるものを理解できるようにすべての人を手助けする」という使命のもと、開発を続けていると述べた。
そのために、インドのような新興国市場でもGoogle レンズが使えるように、Android Go向けのテキスト検出だけを行なうバージョンを用意しており、適切な教育が受けられず、識字率も低いといった問題に取り組むGoogleの姿勢を見せている。
なお、機械学習で使用する画像について蓄積した画像は破棄されているほか、個人の顔の検出は行なっていないとし、安全であることも強調。また、ディープフェイクのような捏造画像を学習しないように間違ったものを検出する手法も日々研究されており、そうした結果を表示させずにデータを正しく扱えるように、細心の注意を払っているとした。