特集

iPhoneのはるか先を行く、Pixel 8のAI機能。生成AIがより高次元に

Pixelシリーズの最新モデル「Google Pixel 8シリーズ」はAndroid 14を搭載し、いずれもAI技術を活用した機能をより強化しているのが大きな特徴となっている

 2023年10月4日、Googleは新しいスマートフォン「Google Pixel 8シリーズ」を発表した。デザインなどは従来モデルを踏襲しながらも、いくつかの進化を遂げたスマートフォンに仕上がっているのだが、中でも注目されるのは、GoogleがPixelシリーズで力を注いできたAI技術を活用した機能の数々ではないだろうか。

 そのAI関連機能を実現する基礎となるのが、Pixel 8シリーズに搭載されたSoC「Tensor G3」である。Tensorは現代のAI技術に必要不可欠なマシンラーニング(機械学習)処理をデバイス上で行なうことに力を入れたGoogle独自開発のSoCであり、Tensor G3はその3代目に当たる。

Pixel 8シリーズに搭載された新しいSoC「Tensor G3」。端末上でのマシンラーニングを大幅に向上させており、AI関連機能の拡大に大きく貢献している

 それゆえTensor G3はCPUやGPUなどの性能向上に加え、マシンラーニング処理の性能向上に力が入れられている。Googleの説明によると、2021年発売の「Pixel 6」シリーズに搭載された初代「Tensor」と比べTensorと比べ2倍以上のマシンラーニングモデルを端末上で処理できるようになったとのことだ。

Pixel 8/Proのレビュー動画

AI技術で進化した機能の数々とは

 そこでGoogleはPixel 8シリーズで、Tensor G3によるAI技術をカメラ以外のより幅広い機能に用いて強化する方針を示している。ここでは、Pixel 8/Pixel 8 Proで新たに追加、あるいは追加が予定されているAI技術を活用した機能を紹介したい。

音声通話をクリアにする「クリア音声通話」

 AI技術を活用した機能の1つとしてアピールされているものの1つは、通話中の雑音を消し、音声通話をクリアにする「クリア音声通話」。Pixel 7シリーズまでは「Clear Calling」として提供されていたもので、利用するには設定の「音とバイブレーション」から「クリア音声通話」をオンにする必要がある。

「クリア音声通話」は設定アプリの「音とバイブレーション」からオンにすることで利用できる

 実際にオンにした状態とオフにした状態とで、雑音のある場所で音声通話をして聞き比べてみたのだが、後述する「音声消しゴムマジック」のように雑音を大幅にカットするわけではないようで、雑音の低減という意味ではややムラがある印象も受ける。モバイル通信の環境にも左右されることから過度な期待は禁物、というのが正直な感想だ。

言語の自動認識に対応した音声入力

 一方で新たに追加されたのが音声入力の自動言語認識だ。メッセージングアプリなどで音声入力をする際や、「レコーダー」アプリでの文字起こしの際に言語を選択する必要なく、聞き取った言葉から自動的に言語を認識してくれるというもので、英語で話した時は英語で、日本語で話したときは日本語で入力してくれるという。

 実際レコーダーアプリで録音を始めると「言語を自動認識」と表示され、話した言葉の言語を自動判別して言語を選んでくれる。ただ認識するのはあくまで最初の言語を判断するときだけのようで、英語と日本語が入り混じったプレゼンテーションなどで言語を自動判別してくれるわけではないようだ。

「レコーダー」アプリは録音を開始すると写真のような状態となり、聞き取った言葉から自動的に言語を判別してくれる。ただし判別するのは録音開始時のみだ

 音声入力でこの機能を利用するには、事前にGoogleアシスタントで2つ以上の言語を使い、音声入力する必要がある。一度設定すれば、レコーダーとは違って2つの言語が入り混じっても自動で言語を判別し、入力してくれるのだが、日本語のみで使用している人には使い始め方が分かりにくいのが気になった。

音声による文字入力時は、話した言葉に応じて都度言語を判定し、その言語での文字入力に切り替わる仕組みだ
「言語自動切り替え」の設定は、事前にGoogleアシスタントでの文字入力で複数の言語を使って入力していなければ設定すること自体できないので要注意

集合写真の撮影に便利な「ベストテイク」

 写真で役立つ機能の1つが、複数の人達で集合写真などを撮影する際に役立つ「ベストテイク」機能。集合写真では誰かが目をつむってしまったり、違う方向を向いていたりすることが少なからずあるが、ベストテイクではAI技術の活用により、同じようなシーンの他の写真から顔を見つけて入れ替え、合成することでベストな写真にするわけだ。

 具体的な使い方としては、集合写真を何枚か撮影した後にGoogleフォトから「ベストテイク」を選ぶだけでよく、自動的に複数の類似した写真からベストな顔をAI技術で判断し、入れ替えてくれる。顔の候補は複数提示してくれるので、あえてベストとは違う顔を選んで合成し、楽しむことももちろん可能だ。

集合写真の撮影時に役立つ「ベストテイク」。まずはPixel 8シリーズを使い、同じ場面で写真を複数撮影しておく
続いてGoogleフォトから「ベストテイク」を使うと、撮影した写真から自動的に最適な顔を選んで合成。顔は1人ずつ手動で選ぶことも可能だ

動画の音をクリアにする「音声消しゴムマジック」

 動画に関する新機能として追加されたのが「音声消しゴムマジック」である。これは撮影した動画の音声をクリアにするもので、AI技術により映像の中の音と雑音を判別し、雑音を大幅に低減することが可能となっている。

動画にAI技術を活用した「音声消しゴムマジック」。AI技術で動画内の音声を分析、雑音だけを低減してくれる機能だ

 こちらもGoogleフォトから利用する形となる。撮影した動画を編集する際に呼び出すと動画の中からサウンドの種類を特定、「自動」ボタンを押すことでノイズと判断された音を低減して声や演奏などを際立たせてくれる。

 クリア音声通話と比べるとその効果はてきめんで、雑音を大幅に低減して話者の声だけをしっかり聞き取れるようになる。ちなみに音量は分離した音の種類に応じた調整が可能なことから、声や演奏などを消し、周囲の環境音だけを残すといった使い方もできる。

分離した音に応じた音量の設定も可能で、声だけを消して雑音だけを残すといったことも可能だ

生成AIを写真加工に生かす「編集マジック」

 昨今注目されている「生成AI」の技術を活用した機能として挙げられるのが、執筆時点ではラボ機能としてGoogleフォトに追加されている「編集マジック」である。こちらはある意味、従来のPixelシリーズに搭載されている「消しゴムマジック」を、生成AI技術によって一層進化させたものと言えるだろう。

 具体的にできることの1つは、被写体の位置やサイズを変えたり、消したりできること。移動や削除した後の場所は生成AI技術によって自動的に補正がなされ、自然な仕上がりにできる点は消しゴムマジックと共通している。

「編集マジック」では消しゴムマジックのように、被写体を囲むことで移動したり、サイズを変えたりできる
実際に位置とサイズを変更したものがこちら。移動した跡が自然に補正されていることが分かる

 そしてもう1つは背景や照明の変更で、夜空を昼間の空にしたり、夕焼けにしたりと、さまざまな変更を施すことが可能だ。ちなみにこの際「スタイル適用」を選ぶとアーティスティックな写真にしてくれるのだが、ほぼ写真でなくなる場合もあり、正直なところかなり好みが分かれる印象だ。

先程の画像からさらに「空」を変更。薄暗い空から明るい空に変更することができ、複数の候補から選べるのもメリットだ
「スタイルを適用」を選んだ場合はアーティスティックな画像になる。写真は抽象的な表現になったものだが、かなり好みが分かれる画像になってしまうことも少なくない

生成AIで強化された「消しゴムマジック」

 その「消しゴムマジック」に関しても、Pixel 8 Proではオンデバイスでの生成AIを活用することで強化がなされている。従来の消しゴムマジックでは、削除した被写体の場所を埋めるのに周囲の画像の一部を用いていたことから、よく見ると不自然な印象を与えることが多かった。だがPixel 8 Proの消しゴムマジックでは生成AIの活用により、削除した部分に新しい画像を生成して埋め合わせることで、より自然な表現を実現できるようになったようだ。

 実際に試してみると、確かにかなり自然な形で被写体を消すことができるが、被写体によっては必ずしも自然な形で消せるわけではない。ただ周囲の画像を基に埋め合わせていた従来のPixelシリーズと比べると、その消し方は明らかに変わっており、消し跡がより自然になったことは確かだとも言える。

新しい「消しゴムマジック」で、上記の亀のオブジェクトを消去したところを比較してみる
「Pixel 7」の消しゴムマジックで消去した場合。周囲の画像を用いて削除部分を埋め合わせているので、拡大するとどうしても不自然さが残る
同じく「Pixel 8 Pro」の消しゴムマジックで消去した場合。消し方に不自然さは残るが、消した部分の処理に生成AIを用いたことで不自然さは幾分か抑えられている

今後日本での提供が期待される機能とは

 Pixel 8シリーズのAI関連機能は発売時にすべて提供されるわけではなく、現時点では提供されていないもの、あるいは当初米国でのみ提供されるものもいくつかある。そうした機能もいくつか紹介しておこう。

スパム電話を自動判断する「通話スクリーニング」

 米国でのみ提供されるのが「通話スクリーニング」、要は迷惑電話対策機能である。知らない電話番号からの着信があった場合、本人に代わってバーチャルの通話アシスタントが電話に応対。AIがスパムと判断した時点で自動的に電話を切り、そうでない場合は本人につなぐ、という仕組みで、Googleによるとスパム電話を50%削減できるとのことだ。

「通話スクリーニング」は知らない電話番号からかかってきた電話の内容をバーチャル通話アシスタントが聞き取り、その内容を判断して本人につなぐかどうかを判断してくれる

GoogleのAI技術をフル活用した「動画ブースト」

 Pixel 8 Proだけに今後提供される機能もいくつか存在しており、その代表的な機能の1つが「動画ブースト」である。

 これは30フレーム毎秒の4K動画に、GoogleのAI技術を活用したコンピューティショナルフォトグラフィーを取り入れて色や彩度などを調節するもの。1分間の動画で1,800枚の写真を加工するのに相当する処理が求められることから、Tensor G3によるデバイス上でのAI処理に加え、クラウド上での処理を組み合わせて実現する形となるようだ。

「動画ブースト」は動画にコンピューティショナルフォトグラフィーを取り入れ、すべてのフレームの映像にAI技術を施すことで、色や彩度などの向上を図るものになる

 暗い場所での動画撮影時に動画ブーストを利用すると、「夜景モード」を動画にも適用する「ビデオ夜景モード」が有効になるとのこと。Pixelシリーズの夜景モードは定評があるだけに、動画撮影時も従来より明るく撮影できるようになることが期待される。

動画ブーストを使うことで、夜景の映像撮影時も写真の夜景モードのように明るく映すことができる「ビデオ夜景モード」が利用可能になる

「Googleアシスタント」が「Bard」を取り入れて進化

 生成AI技術を活用したGoogleのチャットサービス「Bard」を、音声アシスタントの「Googleアシスタント」に取り入れた「Assistant with Bard」も、Pixel 8シリーズに向けて提供される予定だ。これはBardの生成AI技術に、多くの人が利用している「Gmail」、「Googleドキュメント」などのパーソナルな情報と組み合わせ、テキストや音声などを通じて対話しながら必要な情報を得られるものである。

 Googleが紹介している使い方の事例を見ると、「今週見逃したメールを確認させて」とアシスタントに伝えると、Bardが重要なメールの候補を提示。その中にあるパーティーの招待メールに関する質問をすることで、パーティーの詳細や会場までの所要時間などを、Googleマップを活用して提示する……といった具合だ。従来のGoogleアシスタントよりも一層踏み込んだサポートができるようになった様子がうかがえるだろう。

「Assistant with Bard」では音声アシスタントにBardの生成AI技術を取り入れ、GmailなどGoogleの各種ツールのパーソナルなデータから個人に適した情報を引き出せるようになる

 また写真を使った質問や指示なども可能で、デモでは登山時の看板を撮影して「小型犬を連れている時はどちらの道を選んだらいいか」を聞く、犬の写真を撮影してSNSに投稿し、その反響を写真の上にオーバーレイ表示する……といった使い方も提示されている。まずは一部のテスターに向けて提供され、今後数カ月のうちに利用を拡大する予定だというが、現時点で日本語での利用に関しては言及されていない。

写真を使った使い方も可能で、犬の写真をSNSに投稿し、反響を表示すると言った使い方も可能になるようだ

Pixel 8 Proのオンデバイス生成AIを活用した機能が追加

 Googleは上位モデルのPixel 8 Proを、GoogleのAI基盤モデルをオンデバイスで直接実行できる最初のスマートフォンとして設計したことを明らかにしている。Pixel 8 ProはPixel 7のマシンラーニングモデルと比べ150倍の計算量で生成AIを実行できるとしており、先に挙げた「消しゴムマジック」の強化も、オンデバイスでの生成AIを活用したものになるという。

 そこで今後はPixel 8 Proだけに向け、オンデバイスでの生成AIを活用した機能がより多く提供されるようだ。そうした機能のいくつかも最後に紹介しておきたい。

「レコーダー」アプリに要約機能が追加

 その1つが「レコーダー」アプリの要約機能である。Pixel 8 Proのレコーダーアプリでは今後オンデバイス生成AIを用い、録音時に文字起こしした内容を自動で要約する機能が搭載されるそうで、会議の議事録などを作成する際には大いに役立ちそうだ。

「レコーダー」アプリにオンデバイス生成AIを導入、「Summarize」ボタンを押すことで、録音した内容を箇条書きで要約してくれるようになるという

Gboardの「スマート返信」の精度向上

 またGoogleの文字入力アプリ「Gboard」に搭載されている、返信候補を提示する「スマート返信」機能にもオンデバイス生成AIを導入。これによって返信される候補の質がより向上するとしている。

「Gboard」にオンデバイス生成AIを導入することで、スマート返信の候補の質がより向上するとのこと

ズームした画像を鮮明にする「Zoom Enhance」

 そしてもう1つ、Pixel 8 Proに向けて提供が予定されているのが「Zoom Enhance」だ。これは写真をズームした際、その細部をオンデバイス生成AIによって鮮明にし、精細な表示を実現するというもの。ズームの限界を超えた表示ができるようになることが想定されているようだ。

「Zoom Enhance」は撮影後に写真の細部を拡大する際、生成AI技術を用いて細かな部分をより鮮明に表示してくれる機能だ

 これらの機能は2023年12月の追加予定とされているが、日本語での提供が同じ時期になるとは限らない点には注意が必要だ。ただ今後、Googleが今後オンデバイスでの生成AI活用に力を入れてくることは間違いないといえ、今後AI技術の恩恵を最大限に受けたいのであれば、多少高くてもPixel 8 Proを購入しておいた方がよいかもしれない。