ニュース

Google Cloud、Geminiを裏で支える学習向け「TPU 8t」と推論向け「TPU 8i」

左がTPU 8i、右がTPU 8t

 Alphabet傘下のGoogle Cloudは、4月22日~4月25日(米国時間)に米国ネバダ州ラスベガス市のマンダレイベイ・コンベンションセンターにおいて、同社の年次イベント「Google Cloud Next '26」を開催する。

 同社はそれに先だって報道発表を行ない、同社が自社のAIインフラ向けに開発して投入しているTPU(Tensor Processor Unit)の第8世代製品を発表した。従来のTPUは初代が推論向けだった以外は、基本的にAI学習用、あるいは学習/推論両用に位置づけられてきたが、この世代では学習向けのTPU 8tと推論向けのTPU 8iに分離されて投入される。

 学習向けのTPU 8tは12.6PFLOPS(FP4利用時)、推論向けのTPU 8iは10.1PFLOPSというスループットを実現しており、8tは216GB、8iは288GBのHBMメモリを採用している。

Googleが自社で設計し、Google Cloudのデータセンターでだけ活用しているAI向けカスタムシリコン「TPU」

TPUの歴史

 GoogleのTPUは、2015年に発表されたAIに特化したカスタムシリコン。外販はされず、基本的にはGoogle Cloudのデータセンターでだけ利用されている。GeminiのようなGoogleの自社サービスやGoogle Cloudのインスタンス向けに投入されており、外部のユーザーが利用したい場合にはGoogle Cloudのインスタンスを契約して利用する必要がある。

2015年に発表されたTPUv1
2018年のTPUv2
2020年のTPUv3
2022年のTPUv4
2023年のTPUv5p
2023年のTPUv5e

 Googleはここ数年、1年に1度新しいTPUを投入しており、2024年では「Trillium」、2025年では「Ironwood」を発表しており、今回のTPU 8t/8iはその後継製品となる。

 従来GoogleはTPUを、TPUv3、TPUv4、TPUv5のように世代名で呼んでいたのだが、TPUv6に相当する2024年モデルからTrillium、TPUv7に相当する2025年モデルはIronwoodとコードネームをそのまま製品名として採用する方針に転換していた。しかし、今回発表された第8世代TPUではTPU 8と世代名に変更されている。

2024年のTrillium
Ironwood

 それに加えて、第8世代TPUでは、学習向けのTPU 8tと、推論向けのTPU 8iに分離して製品展開される。Googleは第5世代TPUで、TPUv5pとTPUv5eという2つのラインナップに分離していたが、その当時はどちらも学習向けという位置づけであり、前世代となるIronwoodは学習/推論両用という位置づけだったものの、チップは1ラインナップのみだった。

学習向けのTPU 8tと推論向けのTPU 8iの2つのチップ構成、Vera Rubin NVL72も本年中に投入

TPU 8t

 学習向けのTPU 8tは、より大規模なスケールアップやスケールアウトして使うことを前提にしたチップになる。チップ単体の性能は12.6PFLOPS、パッケージに搭載されているHBMメモリ(HBMの世代は明らかにされていない)は216GBとなっている。

 スケールアウト時に利用するネットワークの帯域は前世代となるIronwoodがチップあたり100Gbpsだったのに対して、TPU 8tでは400Gbpsに引き上げられている。スケールアウトネットワークを利用すると最大で9,600基までスケールアウト可能。これは、前世代のIronwoodの9,216基より増えており、ポッド(クラスター)全体の性能も、Ironwoodの42.5EFLOPSから121EFLOPS(いずれもFP4時)と約2.85倍に引き上げられている。

【表1】TPU 8tとTPU 8iのスペック(Google Cloud提供の資料より筆者作成)
TPU 8tTPU 8i
ターゲット処理大規模学習リーズニングなど
特別チップ機能SparseCore+LLMデコーダエンジンCAE
オンチップSRAM128MB384MB
ピーク・スループット(FP4)12.6PFLOPS10.1PFLOPS
HBM容量216GB288GB
HBM帯域幅6,528GB/s8,601GB/s
クラスタ上限9,600基1,152基

 推論向けのTPU 8iは、従来のTPUが4つのSparseCoreを搭載していたのに対して、2つのTensorCoreと1つのCAE(Collectives Acceleration Engine)に置き換えられ、288GBのHBMメモリ(8,601GB/s)に加えて、384MBというSRAMキャッシュをオンチップ搭載しており、広帯域かつ低遅延でメモリにアクセスできることが特徴で、低遅延での動作が期待される推論処理に向いているといえる。

 「AIエージェントやエージェンティックAIでは、低遅延であることが重要になる」(Google上級副社長兼AI・インフラストラクチャ担当技術責任者アミン・ヴァーダット氏)との通りで、特に今後増えていくであろうAIエージェント/エージェント型AIを動作させるのに必要な設計になっている。

TPU 8i

 処理能力は10.1PFLOPS(FP4時)で、最大1,152基までスケールアウトすることができる。従来世代のIronwoodの少ない方のクラスタ構成では最大256基だったため、FP8時のクラスター全体での性能は1.2EFLOPSから11.6EFLOPSと約9.67倍に引き上げられている。

 また、GoogleはNVIDIAのVera Rubin NVL72のVM(AWS的な言い方をするならインスタンス)となる「A5X」として今年(2026年)中に投入することを明らかにしており、AI学習、推論向けのソリューションを充実させることで、増え続けるAI処理向けのコンピューティングリソースを今後も拡大していく意向だ。