特集
iPhoneのはるか先を行く、Pixel 8のAI機能。生成AIがより高次元に
2023年10月12日 02:00
2023年10月4日、Googleは新しいスマートフォン「Google Pixel 8シリーズ」を発表した。デザインなどは従来モデルを踏襲しながらも、いくつかの進化を遂げたスマートフォンに仕上がっているのだが、中でも注目されるのは、GoogleがPixelシリーズで力を注いできたAI技術を活用した機能の数々ではないだろうか。
そのAI関連機能を実現する基礎となるのが、Pixel 8シリーズに搭載されたSoC「Tensor G3」である。Tensorは現代のAI技術に必要不可欠なマシンラーニング(機械学習)処理をデバイス上で行なうことに力を入れたGoogle独自開発のSoCであり、Tensor G3はその3代目に当たる。
それゆえTensor G3はCPUやGPUなどの性能向上に加え、マシンラーニング処理の性能向上に力が入れられている。Googleの説明によると、2021年発売の「Pixel 6」シリーズに搭載された初代「Tensor」と比べTensorと比べ2倍以上のマシンラーニングモデルを端末上で処理できるようになったとのことだ。
(1) AI技術で進化した機能の数々とは
(2) 今後日本での提供が期待される機能とは
(3) Pixel 8 Proのオンデバイス生成AIを活用した機能が追加
AI技術で進化した機能の数々とは
そこでGoogleはPixel 8シリーズで、Tensor G3によるAI技術をカメラ以外のより幅広い機能に用いて強化する方針を示している。ここでは、Pixel 8/Pixel 8 Proで新たに追加、あるいは追加が予定されているAI技術を活用した機能を紹介したい。
音声通話をクリアにする「クリア音声通話」
AI技術を活用した機能の1つとしてアピールされているものの1つは、通話中の雑音を消し、音声通話をクリアにする「クリア音声通話」。Pixel 7シリーズまでは「Clear Calling」として提供されていたもので、利用するには設定の「音とバイブレーション」から「クリア音声通話」をオンにする必要がある。
実際にオンにした状態とオフにした状態とで、雑音のある場所で音声通話をして聞き比べてみたのだが、後述する「音声消しゴムマジック」のように雑音を大幅にカットするわけではないようで、雑音の低減という意味ではややムラがある印象も受ける。モバイル通信の環境にも左右されることから過度な期待は禁物、というのが正直な感想だ。
言語の自動認識に対応した音声入力
一方で新たに追加されたのが音声入力の自動言語認識だ。メッセージングアプリなどで音声入力をする際や、「レコーダー」アプリでの文字起こしの際に言語を選択する必要なく、聞き取った言葉から自動的に言語を認識してくれるというもので、英語で話した時は英語で、日本語で話したときは日本語で入力してくれるという。
実際レコーダーアプリで録音を始めると「言語を自動認識」と表示され、話した言葉の言語を自動判別して言語を選んでくれる。ただ認識するのはあくまで最初の言語を判断するときだけのようで、英語と日本語が入り混じったプレゼンテーションなどで言語を自動判別してくれるわけではないようだ。
音声入力でこの機能を利用するには、事前にGoogleアシスタントで2つ以上の言語を使い、音声入力する必要がある。一度設定すれば、レコーダーとは違って2つの言語が入り混じっても自動で言語を判別し、入力してくれるのだが、日本語のみで使用している人には使い始め方が分かりにくいのが気になった。
集合写真の撮影に便利な「ベストテイク」
写真で役立つ機能の1つが、複数の人達で集合写真などを撮影する際に役立つ「ベストテイク」機能。集合写真では誰かが目をつむってしまったり、違う方向を向いていたりすることが少なからずあるが、ベストテイクではAI技術の活用により、同じようなシーンの他の写真から顔を見つけて入れ替え、合成することでベストな写真にするわけだ。
具体的な使い方としては、集合写真を何枚か撮影した後にGoogleフォトから「ベストテイク」を選ぶだけでよく、自動的に複数の類似した写真からベストな顔をAI技術で判断し、入れ替えてくれる。顔の候補は複数提示してくれるので、あえてベストとは違う顔を選んで合成し、楽しむことももちろん可能だ。
動画の音をクリアにする「音声消しゴムマジック」
動画に関する新機能として追加されたのが「音声消しゴムマジック」である。これは撮影した動画の音声をクリアにするもので、AI技術により映像の中の音と雑音を判別し、雑音を大幅に低減することが可能となっている。
こちらもGoogleフォトから利用する形となる。撮影した動画を編集する際に呼び出すと動画の中からサウンドの種類を特定、「自動」ボタンを押すことでノイズと判断された音を低減して声や演奏などを際立たせてくれる。
クリア音声通話と比べるとその効果はてきめんで、雑音を大幅に低減して話者の声だけをしっかり聞き取れるようになる。ちなみに音量は分離した音の種類に応じた調整が可能なことから、声や演奏などを消し、周囲の環境音だけを残すといった使い方もできる。
生成AIを写真加工に生かす「編集マジック」
昨今注目されている「生成AI」の技術を活用した機能として挙げられるのが、執筆時点ではラボ機能としてGoogleフォトに追加されている「編集マジック」である。こちらはある意味、従来のPixelシリーズに搭載されている「消しゴムマジック」を、生成AI技術によって一層進化させたものと言えるだろう。
具体的にできることの1つは、被写体の位置やサイズを変えたり、消したりできること。移動や削除した後の場所は生成AI技術によって自動的に補正がなされ、自然な仕上がりにできる点は消しゴムマジックと共通している。
そしてもう1つは背景や照明の変更で、夜空を昼間の空にしたり、夕焼けにしたりと、さまざまな変更を施すことが可能だ。ちなみにこの際「スタイル適用」を選ぶとアーティスティックな写真にしてくれるのだが、ほぼ写真でなくなる場合もあり、正直なところかなり好みが分かれる印象だ。
生成AIで強化された「消しゴムマジック」
その「消しゴムマジック」に関しても、Pixel 8 Proではオンデバイスでの生成AIを活用することで強化がなされている。従来の消しゴムマジックでは、削除した被写体の場所を埋めるのに周囲の画像の一部を用いていたことから、よく見ると不自然な印象を与えることが多かった。だがPixel 8 Proの消しゴムマジックでは生成AIの活用により、削除した部分に新しい画像を生成して埋め合わせることで、より自然な表現を実現できるようになったようだ。
実際に試してみると、確かにかなり自然な形で被写体を消すことができるが、被写体によっては必ずしも自然な形で消せるわけではない。ただ周囲の画像を基に埋め合わせていた従来のPixelシリーズと比べると、その消し方は明らかに変わっており、消し跡がより自然になったことは確かだとも言える。
今後日本での提供が期待される機能とは
Pixel 8シリーズのAI関連機能は発売時にすべて提供されるわけではなく、現時点では提供されていないもの、あるいは当初米国でのみ提供されるものもいくつかある。そうした機能もいくつか紹介しておこう。
スパム電話を自動判断する「通話スクリーニング」
米国でのみ提供されるのが「通話スクリーニング」、要は迷惑電話対策機能である。知らない電話番号からの着信があった場合、本人に代わってバーチャルの通話アシスタントが電話に応対。AIがスパムと判断した時点で自動的に電話を切り、そうでない場合は本人につなぐ、という仕組みで、Googleによるとスパム電話を50%削減できるとのことだ。
GoogleのAI技術をフル活用した「動画ブースト」
Pixel 8 Proだけに今後提供される機能もいくつか存在しており、その代表的な機能の1つが「動画ブースト」である。
これは30フレーム毎秒の4K動画に、GoogleのAI技術を活用したコンピューティショナルフォトグラフィーを取り入れて色や彩度などを調節するもの。1分間の動画で1,800枚の写真を加工するのに相当する処理が求められることから、Tensor G3によるデバイス上でのAI処理に加え、クラウド上での処理を組み合わせて実現する形となるようだ。
暗い場所での動画撮影時に動画ブーストを利用すると、「夜景モード」を動画にも適用する「ビデオ夜景モード」が有効になるとのこと。Pixelシリーズの夜景モードは定評があるだけに、動画撮影時も従来より明るく撮影できるようになることが期待される。
「Googleアシスタント」が「Bard」を取り入れて進化
生成AI技術を活用したGoogleのチャットサービス「Bard」を、音声アシスタントの「Googleアシスタント」に取り入れた「Assistant with Bard」も、Pixel 8シリーズに向けて提供される予定だ。これはBardの生成AI技術に、多くの人が利用している「Gmail」、「Googleドキュメント」などのパーソナルな情報と組み合わせ、テキストや音声などを通じて対話しながら必要な情報を得られるものである。
Googleが紹介している使い方の事例を見ると、「今週見逃したメールを確認させて」とアシスタントに伝えると、Bardが重要なメールの候補を提示。その中にあるパーティーの招待メールに関する質問をすることで、パーティーの詳細や会場までの所要時間などを、Googleマップを活用して提示する……といった具合だ。従来のGoogleアシスタントよりも一層踏み込んだサポートができるようになった様子がうかがえるだろう。
また写真を使った質問や指示なども可能で、デモでは登山時の看板を撮影して「小型犬を連れている時はどちらの道を選んだらいいか」を聞く、犬の写真を撮影してSNSに投稿し、その反響を写真の上にオーバーレイ表示する……といった使い方も提示されている。まずは一部のテスターに向けて提供され、今後数カ月のうちに利用を拡大する予定だというが、現時点で日本語での利用に関しては言及されていない。
Pixel 8 Proのオンデバイス生成AIを活用した機能が追加
Googleは上位モデルのPixel 8 Proを、GoogleのAI基盤モデルをオンデバイスで直接実行できる最初のスマートフォンとして設計したことを明らかにしている。Pixel 8 ProはPixel 7のマシンラーニングモデルと比べ150倍の計算量で生成AIを実行できるとしており、先に挙げた「消しゴムマジック」の強化も、オンデバイスでの生成AIを活用したものになるという。
そこで今後はPixel 8 Proだけに向け、オンデバイスでの生成AIを活用した機能がより多く提供されるようだ。そうした機能のいくつかも最後に紹介しておきたい。
「レコーダー」アプリに要約機能が追加
その1つが「レコーダー」アプリの要約機能である。Pixel 8 Proのレコーダーアプリでは今後オンデバイス生成AIを用い、録音時に文字起こしした内容を自動で要約する機能が搭載されるそうで、会議の議事録などを作成する際には大いに役立ちそうだ。
Gboardの「スマート返信」の精度向上
またGoogleの文字入力アプリ「Gboard」に搭載されている、返信候補を提示する「スマート返信」機能にもオンデバイス生成AIを導入。これによって返信される候補の質がより向上するとしている。
ズームした画像を鮮明にする「Zoom Enhance」
そしてもう1つ、Pixel 8 Proに向けて提供が予定されているのが「Zoom Enhance」だ。これは写真をズームした際、その細部をオンデバイス生成AIによって鮮明にし、精細な表示を実現するというもの。ズームの限界を超えた表示ができるようになることが想定されているようだ。
これらの機能は2023年12月の追加予定とされているが、日本語での提供が同じ時期になるとは限らない点には注意が必要だ。ただ今後、Googleが今後オンデバイスでの生成AI活用に力を入れてくることは間違いないといえ、今後AI技術の恩恵を最大限に受けたいのであれば、多少高くてもPixel 8 Proを購入しておいた方がよいかもしれない。