ニュース

Pixel 10は互いの声のまま翻訳しながら通話可能。誰でもベストショットを撮れる写真のコーチング機能も

Pixel 10シリーズに搭載されるカメラコーチ機能

 米Googleが8月21日に発表したスマホ「Google Pixel 10」シリーズは、新型SoC「Tensor G5」を採用し、AI処理を行なうTPUの性能が60%向上。また、AI専業であるGoogle DeepMindと協業したことで、端末上でGemini Nanoが動作し、20以上の生成AI機能を利用できるなど、使い勝手をさらに向上させている。

 本稿ではそれらAI機能などソフトウェア面について紹介する。ハードウェアの仕様については、別記事を参照されたい。

Pixel 10シリーズ

 Pixel 10シリーズのAI機能は、コンセプトとして「プロアクティブ」、つまりユーザーの指示を待つのではなく、ユーザーの意図を理解し、先回りして提案や行動を促すことで、スマホをより便利に活用できることを目指している。具体的には「マジックサジェスト」という名称で実装されており、たとえば航空会社になんらかの問い合わせで電話をする際、この電話番号および過去のGmailを参照することで、これが直近の搭乗に関する電話だと判断し、電話アプリの画面上にフライト番号や予約番号を自動的に表示する。

 また、友人からメッセージで今日のディナーに遅れると連絡があった場合、その文脈を判断して、レストランに電話するよう提案する。レストランへの通話を行なうと、同様に予約番号などの情報が電話アプリ上に表示されるといった具合。AIが先回りして必要な情報をインラインで提示することで、ユーザーは複数のアプリを起動することなく、さまざまな行動を行なえるようになる。

 なお、マジックサジェストがどのアプリやデータにアクセスできるかはユーザーが管理できる。

マジックサジェストがユーザーの意図を読み取り、航空会社に電話をすると、直近の予約に関する問い合わせだと判断し、電話アプリ上に予約概要を表示する

 「マイボイス通訳」は、通話時に互いの声色を保ったまま合成音声で翻訳を行なえる機能。現時点で日本語から翻訳できるのは英語のみとなっており、日本語で話した内容が自分の声色のまま英語になって相手に届けられる(厳密には小さめの音量で自分にも聞こえる)。相手からの英語音声も同様に相手の声色で日本語に変換される。

 マイボイス通訳利用時は、Google AIが通話内容を翻訳しそれぞれの話者の声を再現することが相手にも伝えられる。また、翻訳された通話内容は画面上に文章でも表示される。リアルタイムとまではいかないが、1文程度を話し終えた段階で翻訳されるという具合だが、これは英語と日本語の語順が大きく異なり、最後まで聞かないと翻訳ができないため。語順が似た言語同士だと、逐次翻訳でよりスムーズに翻訳されるという。

マイボイス通訳を使うと、互いの声色のまま音声が翻訳される。内容はテキストとしても表示される

 Pixelシリーズは、カメラ周りですでにいろいろなAI機能を実装済みだが、Pixel 10では新しい機能として「カメラコーチ」が搭載された。被写体にカメラを向けてカメラコーチのアイコンをタップすると、映し出された画面の内容をGeminiが解析した上で、見本となる構図例を生成して提示。その中から撮りたい構図を選ぶと、その構図例画像とともに、テキストでも構図の切り方を指示してくれるので、それに従って撮影すると、より見栄えのする写真を撮影できる。

 最初にカメラを構えた時とはまったく別の構図だとこうなるというサンプルもAIで生成して提示くれるので、自分では思いつかないような写真を撮影できるきっかけも生まれる。

カメラコーチ機能を使うと、被写体を認識して、オススメの構図例を提示
その中から1つを選ぶと、どのような角度やズーム具合にするとちょうどよくなるかをテキストで指示してくれる
構図が決まったらシャッターを押す

 集合写真を撮影する際の「ベストテイク」機能の強化も盛りこまれた。従来のベストテイクでは、複数枚の集合写真を撮影しておくと、それぞれの人物の一番いい表情が選ばれた上で、全員がいい表情となっているベストテイクが合成される。Pixel 10シリーズではこれが自動ベストテイク機能に強化。集合写真を撮影するときに数秒間にわたって最大150枚の写真を保存することで、撮影の時点で各自の一番いい表情が自動的に選ばれて合成されたベストテイクが撮影される。

 なお、ハードウェア編でも書いた通り、Pixel 10シリーズのカメラはC2PAコンテンツクレデンシャルに対応した。これにより、写真にC2PAコンテンツクレデンシャルに準拠したメタ情報が付加され、写真編集アプリでの編集履歴や、生成AIによる加工履歴の有無などを確認できるほか、生成AIモデルに学習されないよう要求もできる

C2PAコンテンツクレデンシャルに対応

 このほか、Pixel 10 Pro/同XLは、望遠での光学5倍ズームに加え、AIを使った100倍ズームでの撮影にも対応する。この100倍ズームは、AIで被写体を認識し、推測で画像の生成/補完を行なっている。そのため、風景やランドマークなどのズームには向いているが、人物に適用すると違う人物になってしまう可能性もあるため、人物を検出した場合は100倍ズームは利用できず、従来の20倍までのズームとなる。

等倍の状態
100倍ズームでは生成AIも用いて補完し、高解像度化する

 NotebookLMとの連携強化も追加機能の1つ。カメラで撮影した文書や、レコーダーアプリで録音した文字起こしを共有機能からNotebookLMに直接送信できるようになった。これにより、資料や会議などの要約作成が容易にできる。また、レコーダーアプリでの音声録音にAIで生成した独自BGMをつける機能も追加された。