ニュース

GoogleのAIが画像を正確に分析できる4つの技術とは?

中村真司

2019年10月8日 16:59

Google レンズ

　グーグル合同会社は10月8日、都内同社にて「Google レンズ」の機能と仕組みを説明するメディア向けセミナーを実施した。Google本社でグループプロダクトマネージャーを務めるLou Wang氏が説明を行なった。

　Google レンズは、Android OSやiOSで提供されているアプリで、スマートフォン/タブレットのカメラ越しに文字を写して翻訳したり、動植物の種類、有名な建物の特定など、日常的のさまざまな場面で簡単で直感的に調べることができる便利なものだ。Google レンズはアプリ単体だけでなく、Google フォト/検索/アシスタント/カメラといったアプリにもその技術が使われている。

Google レンズの開発を担当しているGoogle グループプロダクトマネージャーのLou Wang氏。会場からWebカメラを通してGoogle レンズを説明

Wang氏が飼っている柴犬。Google レンズで「Shiba Inu」として種類が特定できている

歴史的建造物の名前がわからなくても、Google レンズをかざすことで調べることができる。写真は南アフリカのフォーアトレッカー記念碑

Google レンズでは写真のなかのバッグ、ブラウス、その柄、かたちを比較して特定。類似する商品をキーワードを使わずに検索できる

そこに書かれている文字をリアルタイムに翻訳して、AR的に見せることができる

紙に書かれた電話番号を検出して電話をかけることができる

5,000円程度のローエンドスマートフォンでもGoogle レンズが提供されている。Android Goでは性能的な負担の小さいテキスト検出のみ利用可能にしている

　Wang氏はまずGoogle レンズについて、2017年のリリース以来、多くの反響を得ることができ、利用者からは身の回りにあるたくさんのことが理解できるようになったといった喜びの声が聞かれたそうだ。

　一方で、Google レンズのようなコンピュータビジョンを駆使する技術では、対象物を理解することが必要とされ、設計は非常に複雑だとする。たとえば、靴があったとしてそれをどの位置から見るのか、清潔か汚れているか、色合いは濃いのか薄いのかなど、すべてを把握することが期待される。それに加えて身の回りには生き物も含めて何十億というモノがあふれており、その中から特定する必要がある。さまざまなサービスを展開しているGoogleのなかでもGoogle レンズの技術はとくに難解なものという。

チワワとブルーベリーがついたパン

柴犬と焼いたマシュマロ。これらの一見すると見間違えてしまいそうな画像でも、Google レンズは高い精度で対象物を判定できるように研鑽を積んでいる

　Wang氏はコンピュータビジョンによる解析は短期間で解けるものではないと前置きしつつ、機械学習的に「分類(Classification)」、「検出(Detection)」、「分散表現(Embeddings)」、「モデルの学習(Model Training)」の4つの技術を用いることで高い精度を実現できると説明した。

Google レンズでは、「分類(Classification)」、「検出(Detection)」、「分散表現(Embeddings)」、「モデルの学習(Model Training)」の4つの技術にもとづき解析が行なわれている

　最初の「分類」では、画像内に含まれる“モノ”にラベルを付け、そのラベルの正確度を算出することで、Googleが数百万の画像から学んだ過去の検出結果を用いて判別を行なっている。下の画像はおもちゃの王冠をかぶった子どもが誕生日ケーキの火を消そうとしているものだが、この「分類」作業において、ケーキ、誕生日、王冠、風船、誕生日ケーキのラベル付けが行なわれており、とくにケーキについては約93%と高い正確度になっていることがわかる。

「分類(Classification)」では画像内のものにラベル付けを行なう

　2つ目の「検出」は、ラベル付けされた物体がどの位置にあるかを判断するもの。これによって、ユーザーが王冠、ケーキ、風船といった物体をタップ選択したり、そこにものがあることを示して注意を促すことが可能になる。

「検出(Detection)」ではラベルが付いた物体の位置を特定。ユーザーが各物体を選べるようになる

　3つ目の「分散表現」は、画像の特徴をベクトルで表現する手法であり、分散表現によって指定の画像がほかの画像にどれくらい似ているかを算出できる。人が画像の特徴を直感的に把握するのと似たプロセスで実行することにより、効果的な検索や類似画像を見つけられるようになる。

　たとえば、以下の画像の赤い車の写真には、赤い車以外にも、左を向いている、芝生があるといった要素が含まれており、機械学習でこれらが数値化される。そして、類似する要素を持つ複数の画像と比較を行ない、判断が正しいかどうかを求める。これで同じタイプの商品を見つけられるようになる。

「分散表現(Embeddings)」では画像の特徴を数値で表現し、類似する画像と比較する。上の2つの画像は類似性が高いが、一番下の画像は赤い車の画像に比べると前後の向きも異なり、判断材料としては劣る

　そして最後に「モデルの学習」だが、この段では同社が開発したTensor Processing Unit(TPU)を用いて、高速に機械学習が行なわれている。TPUを用いれば、GPUで数日間や数カ月かかっていたものが、数時間程度で処理できるようになっており、Wang氏はコンピュータビジョンの発展に大きく貢献しているという。

「モデルの学習(Model Training)では、専用ICのTensor Processing Unit(TPU)を使うことで機械学習を効率的に高速に行なえる

　Wang氏はこれらの技術を組み合わせることによってGoogle レンズが成り立っており、そこには「Googleが世のなかのあらゆるものを理解できるようにすべての人を手助けする」という使命のもと、開発を続けていると述べた。

　そのために、インドのような新興国市場でもGoogle レンズが使えるように、Android Go向けのテキスト検出だけを行なうバージョンを用意しており、適切な教育が受けられず、識字率も低いといった問題に取り組むGoogleの姿勢を見せている。

　なお、機械学習で使用する画像について蓄積した画像は破棄されているほか、個人の顔の検出は行なっていないとし、安全であることも強調。また、ディープフェイクのような捏造画像を学習しないように間違ったものを検出する手法も日々研究されており、そうした結果を表示させずにデータを正しく扱えるように、細心の注意を払っているとした。