ニュース

Google Cloud、Geminiを裏で支える学習向け「TPU 8t」と推論向け「TPU 8i」

笠原一輝

2026年4月22日 21:00

左がTPU 8i、右がTPU 8t

　Alphabet傘下のGoogle Cloudは、4月22日～4月25日(米国時間)に米国ネバダ州ラスベガス市のマンダレイベイ・コンベンションセンターにおいて、同社の年次イベント「Google Cloud Next '26」を開催する。

　同社はそれに先だって報道発表を行ない、同社が自社のAIインフラ向けに開発して投入しているTPU(Tensor Processor Unit)の第8世代製品を発表した。従来のTPUは初代が推論向けだった以外は、基本的にAI学習用、あるいは学習/推論両用に位置づけられてきたが、この世代では学習向けのTPU 8tと推論向けのTPU 8iに分離されて投入される。

　学習向けのTPU 8tは12.6PFLOPS(FP4利用時)、推論向けのTPU 8iは10.1PFLOPSというスループットを実現しており、8tは216GB、8iは288GBのHBMメモリを採用している。

Googleが自社で設計し、Google Cloudのデータセンターでだけ活用しているAI向けカスタムシリコン「TPU」

TPUの歴史

　GoogleのTPUは、2015年に発表されたAIに特化したカスタムシリコン。外販はされず、基本的にはGoogle Cloudのデータセンターでだけ利用されている。GeminiのようなGoogleの自社サービスやGoogle Cloudのインスタンス向けに投入されており、外部のユーザーが利用したい場合にはGoogle Cloudのインスタンスを契約して利用する必要がある。

2015年に発表されたTPUv1

2018年のTPUv2

2020年のTPUv3

2022年のTPUv4

2023年のTPUv5p

2023年のTPUv5e

　Googleはここ数年、1年に1度新しいTPUを投入しており、2024年では「Trillium」、2025年では「Ironwood」を発表しており、今回のTPU 8t/8iはその後継製品となる。

　従来GoogleはTPUを、TPUv3、TPUv4、TPUv5のように世代名で呼んでいたのだが、TPUv6に相当する2024年モデルからTrillium、TPUv7に相当する2025年モデルはIronwoodとコードネームをそのまま製品名として採用する方針に転換していた。しかし、今回発表された第8世代TPUではTPU 8と世代名に変更されている。

2024年のTrillium

Ironwood

　それに加えて、第8世代TPUでは、学習向けのTPU 8tと、推論向けのTPU 8iに分離して製品展開される。Googleは第5世代TPUで、TPUv5pとTPUv5eという2つのラインナップに分離していたが、その当時はどちらも学習向けという位置づけであり、前世代となるIronwoodは学習/推論両用という位置づけだったものの、チップは1ラインナップのみだった。

学習向けのTPU 8tと推論向けのTPU 8iの2つのチップ構成、Vera Rubin NVL72も本年中に投入

TPU 8t

　学習向けのTPU 8tは、より大規模なスケールアップやスケールアウトして使うことを前提にしたチップになる。チップ単体の性能は12.6PFLOPS、パッケージに搭載されているHBMメモリ(HBMの世代は明らかにされていない)は216GBとなっている。

　スケールアウト時に利用するネットワークの帯域は前世代となるIronwoodがチップあたり100Gbpsだったのに対して、TPU 8tでは400Gbpsに引き上げられている。スケールアウトネットワークを利用すると最大で9,600基までスケールアウト可能。これは、前世代のIronwoodの9,216基より増えており、ポッド(クラスター)全体の性能も、Ironwoodの42.5EFLOPSから121EFLOPS(いずれもFP4時)と約2.85倍に引き上げられている。

【表1】TPU 8tとTPU 8iのスペック(Google Cloud提供の資料より筆者作成)
	TPU 8t	TPU 8i
ターゲット処理	大規模学習	リーズニングなど
特別チップ機能	SparseCore+LLMデコーダエンジン	CAE
オンチップSRAM	128MB	384MB
ピーク・スループット(FP4)	12.6PFLOPS	10.1PFLOPS
HBM容量	216GB	288GB
HBM帯域幅	6,528GB/s	8,601GB/s
クラスタ上限	9,600基	1,152基

　推論向けのTPU 8iは、従来のTPUが4つのSparseCoreを搭載していたのに対して、2つのTensorCoreと1つのCAE(Collectives Acceleration Engine)に置き換えられ、288GBのHBMメモリ(8,601GB/s)に加えて、384MBというSRAMキャッシュをオンチップ搭載しており、広帯域かつ低遅延でメモリにアクセスできることが特徴で、低遅延での動作が期待される推論処理に向いているといえる。

　「AIエージェントやエージェンティックAIでは、低遅延であることが重要になる」(Google上級副社長兼AI・インフラストラクチャ担当技術責任者アミン・ヴァーダット氏)との通りで、特に今後増えていくであろうAIエージェント/エージェント型AIを動作させるのに必要な設計になっている。

TPU 8i

　処理能力は10.1PFLOPS(FP4時)で、最大1,152基までスケールアウトすることができる。従来世代のIronwoodの少ない方のクラスタ構成では最大256基だったため、FP8時のクラスター全体での性能は1.2EFLOPSから11.6EFLOPSと約9.67倍に引き上げられている。

　また、GoogleはNVIDIAのVera Rubin NVL72のVM(AWS的な言い方をするならインスタンス)となる「A5X」として今年(2026年)中に投入することを明らかにしており、AI学習、推論向けのソリューションを充実させることで、増え続けるAI処理向けのコンピューティングリソースを今後も拡大していく意向だ。