ニュース
Microsoft、低コストなAI推論処理チップ「Maia 200」
2026年1月27日 01:00
Microsoftは1月26日(現地時間)に報道発表を行ない、AI用ASICの最新版となる「Maia 200」を発表した。Maia 200はTSMCの3nm(N3P)で製造され、7TB/sの帯域幅を実現する216GBのHBM3eメモリ、272MBのSRAMをローカルメモリとして搭載する。
同社に用途、FP4を利用した場合10PFLOPSという性能を実現る。これはAWS Trainium3の約4倍の性能になる。また、AI推論時に従来製品に比較して30%ほど費用対効果が改善している。
者が提供するASICにも大きなチャンスがある状況だ。
AI用ASICの第2世代となるMaia 200
Maia 200は、2023年11月に開催されたIgnite 2023で発表されたAI向けASIC「Maia 100」の後継製品。AWSの「Trainium」、Google Cloudの「TPU」に対抗するようなAIに特化したASICとなる。
Maia 100は、テンソルユニットとベクターエンジンなどから構成されている行列積和に特化したアクセラレータになっている。特徴は、データの移動を極力少なくするアーキテクチャを採用していること。AI推論処理を行なう際にチップ外のメモリアクセスをできるだけ減らし、GPUなどに比べて高い電力効率を実現する。
また、複数のMaiaを束ねてスケールアップする場合には、Ethernetが活用される。チップ1つあたり12ポートの400Gigabit Ethernetが用意されており、600GB/sの帯域幅へスケールアップできる。
一方、Maia 200の製造プロセスノードはTSMCのN3Pと、Maia 100のN5から微細化されている。内部エンジンにも手が入っており、ベクターエンジンはFP8/FP4という推論で活用される精度に新たに対応している。ただし、内部構造の詳細などに関しては現時点では明らかにされていない。
メインメモリはHBM2eからHBM3eに、メモリ帯域幅は1.8GB/sから7TB/sに、メモリ容量は64GBから216GBへと強化されている。また、ローカルメモリとなるSRAMは272MBが搭載され、新しくデザインされたメモリ階層と新しいDMAエンジンにより、より低精度のデータタイプの演算が効率よく行なえるようになっている。
こうした強化により、FP4演算時には10.1PFLOPS、FP8演算時には5.1PFLOPSの性能が実現されている。
| Maia 100 | Maia 200 | |
|---|---|---|
| プロセスノード | N5 | N3P |
| DRAM | HBM2e | HBM3e |
| メモリ帯域幅 | 1.8GB/s | 7TB/s |
| メモリ容量 | 64GB | 216GB |
| Ethernet | 400Gb×12 | 400Gb×28 |
| スケールアップ帯域(双方向) | 0.6TB/s | 1.4TB/s |
| TDP(実利用環境での設定) | 700W(500W) | 880W |
Ethernet周りも強化され、400Gigabit Ethernetのポート数が、Maia 100の12ポートから28ポートへと強化されている。これにより、スケールアップ時の帯域幅は0.6TB/sから1.4TB/sとなった。Maia 200では性能を維持したまま最大6,144基まで1クラスタで構成が可能になっている。
Maia 100のアーキテクチャ上は700W、実際の導入時の設定は500WというTDP設定だった。Maia 200ではそれから引き上げられており、880WのTDP設定となっている。このため、Microsoftが従来導入してきたDLC(Direct Liquid Cooling、直接液冷)となる「closed loop liquid cooling Heat Exchanger Unit」の第2世代版が冷却システムとして投入されている。
AWSやGoogleのASICを上回り、B200の約半分の性能を少ない消費電力で実現
今回Microsoftが公表した、Maia 200のスペックとすでに発表されていたMaia 100、AWS Trainium3、Google Cloud TPUv7、そしてNVIDIAのH200、B200、そして先日発表されたばかりのRubinのスペックを横並びで示したのが以下の表となる。なお、Microsoftが公表したものは表2で、それを元に筆者がMaia 100、NVIDIA GPUなどを追加し、スケールアップの帯域幅などを双方向に統一したものが表3となる
| Maia 200 | Trainium3 | TPUv7(Ironwood) | |
|---|---|---|---|
| プロセスノード | N3P | N3P | N3P |
| FP4 | 10,145TFLOPS | 2,517TFLOPS | - |
| FP8 | 5,072TFLOPS | 2,517TFLOPS | 4,614TFLOPS |
| BF16 | 1,268TFLOPS | 671TFLOPS | 2,307TFLOPS |
| DRAM | HBM3e | HBM3e | HBM3e |
| メモリ帯域幅 | 7TB/s | 4.9TB/s | 7.4TB/s |
| メモリ容量 | 216GB | 144GB | 192GB |
| スケールアップ帯域(片方向) | 1.4TB/s | 1.2TB/s | 0.6TB/s |
| Maia 100 | Maia 200 | Trainium3 | TPUv7(Ironwood) | H200 | B200(GB200のB200) | Rubin | |
|---|---|---|---|---|---|---|---|
| プロセスノード | N5 | N3P | 3nm | - | 4nm(TSMC) | 4nm(TSMC) | - |
| FP4 | - | 10.1PFLOPS | 2.5PFLOPS | - | - | 20PFLOPS | 50PFLOPS |
| FP8 | - | 5.1PFLOPS | 2.5PFLOPS | 4.6PFLOPS | 4PFLOPS | 10PFLOPS | - |
| BF16 | 800TOPS | 1.3PFLOPS | 671TFLOPS | 2.3PFLOPS | 2PFLOPS | 5PFLOPS | - |
| DRAM | HBM2e | HBM3e | HBM3e | HBM3e | HBM3e | HBM3e | HBM4 |
| メモリ帯域幅 | 1.8GB/s | 7TB/s | 4.9TB/s | 7.4TB/s | 4.8GB/s | 8TB/s | 22TB/s |
| メモリ容量 | 64GB | 216GB | 144GB | 192GB | 141GB | 192GB | 294GB |
| スケールアップ帯域(双方向) | 0.6TB/s | 1.4TB/s | 2TB/s | 1.2TB/s | 0.9TB/s | 1.8TB/s | 3.6TB/s |
| TDP | 700W(500W) | 880W | - | - | 700W | 1200W | - |
Maia 100の時に公開された性能データは、Bfloat16で0.8 Tensor POPS、つまり800TOPSというものだけだった。直接比較はできないが、Maia 200ではBfloat16で1.3PFLOPS、FP8で5.1PFLOPS、FP4で10.1PFLOPSという性能になっている。AWSのTrainium3やGoogleのTPUv7(Ironwood)の性能を上回っており、同時にB200の約半分という性能になっている。
競合となるNVIDIAは、CESで次世代GPUとなる「Rubin」を発表しており、そちらではFP4で50PFLOPSの性能が実現されるが、2026年の後半まで出てこない製品なので、現状ではB200と比較するのがフェアだろう。
B200の方がFP4演算時の性能(20PFLOPS)は高いわけだが、問題は消費電力だ。TDPは消費電力ではない(TDPはあくまでその電力がかかった時に発生する熱を処理できるようにするというスペックに過ぎない)ので、直接的な比較はできないが、TDPが高めに設定されている方が、実際の消費電力がより多くなるのは明白だ。B200に比べて少ない消費電力でこれだけの性能を実現しているのが、Maia 200だということはできるだろう(なお、AWS Trainium3、Google Cloud TPUv7に関してはTDPも消費電力も公表されていないので、比較するのは難しい)。
大規模なAI推論のサービスを提供したい事業者にメリット
こうしたスペックだけを見れば、ピーク性能はNVIDIAのB200の方がASICに比べて高そうに見えることは否定できない。実際その通りだし、現状膨大な時間がかかっているAI学習には、コストは度外視でとにかくピーク性能重視で時間を買うという観点でNVIDIA GPUが選ばれているという側面が強い。
しかし、こうしたASICがターゲットにしている推論では状況が異なる。というのも、推論で重要になるのは主にランニングコストだからだ。AI推論のアプリケーションを大規模に提供するベンダー、一般消費者向けにAIの機能を顧客に提供するような企業(たとえばAppleやGoogle、OpenAIなど)、あるいはクラウドサービス事業者のIaaSを利用してAI推論のアプリケーションを顧客に提供するSaaSアプリケーションベンダーなどは、AI推論処理に膨大なコストを支払っているのが現状だ。
そうしたベンダーにとっては、1ドルあたりのトークンが、AI推論を実行する上で最も重要な指標になりつつある。このトークン/ドルは、かかった費用で得られたトークン数を割ったものだから、非常にざっくりいえば、コストが下がれば下がるほど上がることになる。
クラウドサービス事業者にとって、GPUを利用したインスタンスのコスト、自社のASICを利用したインスタンスのコストは一般的に次の計算式で計算できる。
コスト=①半導体の調達コスト+②電気代などのランニングコスト+③データセンターの維持費
GPUであろうがASICであろうが③は基本的に同じだけのコストがかかる(厳密にいうとラックの大きさとか、液冷とかの仕様によって異なるが、それが同じだと仮定すれば、の話)。大きく変わってくるのは①と②で、特に自社で設計したASICであれば、GPUよりもかなり安価に調達できる。もちろんそれは量産が進めばという条件はつくため、ある程度需要がでて多数のチップが作れるようになれば、GPUよりもかなり安価に調達することが可能になる。
また、もう1つのポイントは電気代で、これはシンプルにGPUやASICが消費する消費電力に比例して増えていく。このため、同じ性能を実現するのに少ない消費電力で実現できれば、②も下がっていく。ASICはGPUに比べて消費電力が少ないため、この点で今後性能が上がっていけば有利になる。
こうしたASICは苦戦を強いられているといわれているが、現時点ではそうしたメリットがユーザーに見えていないということは、簡単にいえば事業者側にとってトークン/ドルが大きくあがるほど、ASICの方が安いとは考えていないということだろう。逆にいえば、顧客が自分の持っているソフトウェアを書き換えてまで乗り換えたいと思うような値段設定になれば、ASICに雪崩を打つ可能性は十分にある。
Microsoftは今回のMaia 200は、従来のAI推論システムに比較して、費用対効果(パフォーマンス/ドル)は30%向上しており、それは実際のサービス価格にいい影響があると考えられるだろう。
PyTorchを使えるSDKやコンパイラなども提供
Microsoftによれば、すでにMaia 100でのさまざまな経験があったことで、Maia 200は最初のチップが到着してから数日でAIモデルが動作するところまでもっていけたのだという。同じようなAIデータセンターのラックを構築するのに比べておおむね半分の時間で動作させることができており、そうしたことも1ドルあたりの性能、さらには電力当たりの性能を向上させることに貢献していると、Microsoftは説明している。
Maia 200は、Microsoftの「US Central datacenter region」と呼ばれるリージョンのデータセンターですでに稼働開始しており、その次には米国アリゾナ州フェニックス近くの「US West 3 datacenter region」でサービスが提供開始される予定だ。また、Microsoftが顧客に提供するサービスとしては、Microsoft FoundryやMicrosoft 365 Copilotなどの処理にMaia 200が利用される。
なお、Maia 200をAI推論環境として使いたいユーザーを対象に「Maia 200 software development kit」SDKの配布も開始する。Maia 200 software development kitを利用すると、PyTorchをサポートするTriton Compiler、ローレベルのプログラミング言語となるNPL、さらにはシミュレータ、コスト計算ツールなどが用意されており、Maia 200に最適化したプログラムや環境構築が可能になる。現在、プレビューにサインアップ可能で、同社Webサイトなどから申し込める。























![[Amazon限定ブランド]CCL い・ろ・は・すラベルレス 2LPET ×8本 ミネラルウォーター 無味 製品画像:2位](https://m.media-amazon.com/images/I/41h0MHfvhkL._SL160_.jpg)







