ニュース

Googleの「Pixel 3」からはじまるデバイス側でのAI処理

Blaise Agüera y Arcas氏

 Googleは21日(日本時間)、東京都内のオフィスでメディア向けセミナーを開催し、Google AIの研究者であるBlaise Agüera y Arcas氏が電話会議で、「Pixel 3」に導入されたデバイス側でのAI処理について解説した。

 同氏はソフトウェアアーキテクトでありながら、脳科学の研究者でもあるという。マイクロプロセッサが普及した1970年代から2000年代初頭まで、コンピュータ科学と脳科学はまったく別の分野であり、関連性はほとんどなかったが、2006年あたりを境目にこの状況は大きく変化し、融合しつつあるという。

 融合しつつある理由としては、時代の変化やトレンドなど、複合的な要因があり、同氏も決定打となる説明は難しいとしているが、その1つに2006年に起きたCPUの変化を挙げた。それは、プロセス技術の進化によってCPUに集約できるトランジスタは増えても、従来CPUが得意としていたシリアル処理の高速化が頭打ちとなったからだ。このとき、ムーアの法則の終焉が盛んに言われてきた。

 その要因も複数あるが、演算性能向上はトランジスタ数とリニアに関係しない問題(ポラックの法則)があるほか、微細化によって削減できる消費電力にも限界が来ているため、それまで順調に伸ばしてきた動作周波数が頭打ちとなり、それによってシリアル処理の限界が来ているためだ。そのため、CPUは微細化によって搭載できるトランジスタを増やした分を、マルチコア化することで総合性能の向上を図った。

CPUのトレンド。集積できるトランジスタ数は順調に増えているが、クロックが伸びないためシングルスレッド性能が鈍化している

 ところが、従来のプログラムの大半がシリアル処理であるため並列化が難しく(アムダールの法則)、複数のプログラムを走らせるといった使い方でしかマルチコアをうまく活用できない。そのタイミングを見計らって登場したかのように、コンピュータに脳のニューロンの動きをエミュレーションさせるニューラルネットワーク(以下、AIとする)技術が盛んになり、この数年かけてより身近になってきた、というわけだ。

 AIは、パラレル処理に適している。人間の脳は1,000億ものニューロンがあり、それらがネットワーク状となって相互接続することで処理を行なう。コンピュータで言えば、遅い(もしくは遅くてもいい)プロセッサが膨大な数のネットワークによって相互接続し、低消費電力で効率的に処理するイメージだ。Googleが開発したTPUは、AI処理においてCPUと比較して83倍も効率が優れているという。

GoogleのTPUはAI処理においてCPUの83倍も効率が良いという

 「今後も順調にトランジスタ数が増えていくのであれば、それらを従来のCPUのようなプロセッサにトランジスタを割くのではなく、ニューラル処理を行なうプロセッサに割くほうが効率がいい。8年後には、プロセッサに集積されたトランジスタの99%がAI処理をするようになる」と同氏は言う。

チップ製造メーカーの多くはAI向けのチップを開発している

デバイス側でのAI処理の必要性

 Google自身は、クラウドでAI処理処理を高速化するTPUの開発もしているが、リアルタイム性やプライバシーの保護も必要なため、デバイス側でAI処理する必要もある。たとえば、Arcas氏が開発を率いて海外で投入している“AIカメラ”の「Clips」は、被写体が風景であれば良い構図、人間であれば良い表情をすると自動で記録する機能があるのだが、デバイス側でこのAI処理を行なっているのだという。

 「これはデバイス側にAI処理に特化したシリコンを搭載したからこそ実現したもの。Googleはクラウド側でユーザーが撮影した映像を処理しなくても良いため、オフラインでもリアルタイムに利用できるし、“監視”する必要もないためプライバシーを保護できる」とした。

 このClipsと同様の機能を実装したのがPixel 3の「Top Shot」機能で、シャッターを切る前の写真も記録されているためミスを回避できる。また、今後はClipsと同様に、シャッターを押さなくてもあとからベストショットを選ぶだけの機能を実装する見込みだとした。また、ARを使い、キャラクターと一緒の写真が撮れるPlaygroundの機能も、AIの機能を駆使しリアルタイム性を実現しているという。

Top Shotの機能
Playgroundの機能

 ロック画面の状態でも、公共の場で流れている音楽などを聞き取って曲名を表示する「Now Playing」の機能も、オフラインで実現できている。さらに、米国で提供している「Call Screen」という、スパム電話対策や、聴覚/話すことに障がいのあるユーザーでもテキストでやりとりできる機能も、ローカルでのAI処理だとした。

Now Playingの機能
Call Screenの機能

 Pixel 3でもう1つユニークなのが、「フェデレーションラーニング」という機能。じつは、人間は昼間に学習し、誤りなどを認識したさいは、エラーシグナルとして蓄積され、寝ているあいだに訂正をしているのだという。Pixel 3にも同様の機能が実装されており、充電中でデバイスを利用していない時間帯に、蓄積した改善情報でローカルで学習をしているのだとした。

 そしてこのローカルで学習した結果をクラウド上にフィードバックし、平均化され、ほかのデバイスに同様の改善情報を展開できる。この改善情報はどのデータを分析して得られた結果なのかがわからないようになっているため、プライバシーを保護しつつビッグデータと同等の学習が可能だとした。

 このフェデレーションラーニングの機能は、多言語対応のソフトウェアキーボード「Gboard」に展開されており、入力のさいに検索クエリの結果を貼り付けられるようになっている。現時点では画像認識といった処理に適していないというが、将来的にはそれらも可能になるとの見通しを明らかにした。

フェデレーションラーニングの機能
ローカルで学習した改善情報をクラウドで共有し、世界中のデバイスに展開できる
Gboardに搭載された、検索結果のクエリ貼り付け機能