ニュース

Intel、288コアの「Xeon 6」と、性能4倍のAIアクセラレータ「Gaudi 3」

Intelが発表したGaudi 3、1パッケージに2つのダイが封入される(写真提供:Intel)

 Intelは、4月8日~4月9日(現地時間)に、米国アリソナ州フェニックスにおいて「Intel Vision 2024」を開催している。会期2日目となる4月9日の午前には、同社CEO パット・ゲルシンガー氏ら同社幹部による基調講演などが行なわれ、「Sierra Forest」のコードネームで開発してきた次世代Xeonの製品名が「Intel Xeon 6プロセッサー」になることなどが発表された。

 あわせて、IntelのAI向けアクセラレータ「Gaudi」シリーズの最新製品となる「Gaudi 3」も正式発表された。Gaudi 3は微細化され、2つのダイが1つのパッケージに封入されたことで演算器やメモリ帯域が倍になり、性能が大きく向上していることが特徴となる。

Eコアだけで構成されるSierra ForestはXeon 6のブランド名で投入

Sierra Forestは「Intel Xeon 6プロセッサー」として発表される予定(出典:Intel)

 Intelのデータセンター向けCPUは、最新製品のEmerald Rapidsまで「第x世代Intel Xeon Scarable Processor」というブランドの呼ばれ方をしてきた。クライアントPCでは第x世代(x th Gen)という表記が廃止されることになったが、Xeonでも同様に製品の前に世代名がつけるのは廃止され、今後は「Intel Xeon x プロセッサー」のようによりシンプルな名称に変更される。

 その最初の製品になるのが、2024年前半にIntelが投入を計画している開発コードネーム「Sierra Forest」で、「Intel Xeon 6プロセッサー」(以下Xeon 6)という名称となった。

EコアだけのXeon 6は従来のPコアだけのXeonではカバーできないレンジをカバーする(出典:Intel)
チップレベルでの電力効率が2.4倍に、ラック辺りの電力効率は2.7倍に(出典:Intel)

 Xeon 6は、クライアントPC向けのCPUで言えばEコアだけで構成されるCPUで、1つのパッケージにダイ(144 CPUコア)を2つ実装することで、1パッケージで288コアという高密度を実現したことが特徴になる。第2世代Xeon Scarable Processorと比較して、CPU単体での電力効率が2.4倍になり、ラックあたりの電力効率は2.7倍になるとIntelは説明している。

前世代比較で性能を4倍にしたGaudi 3

IntelのGaudi 3(写真提供:Intel)

 IntelはAI学習向けのAIアクセラレータとして、イスラエルのHabana Labsを買収して得た「Gaudi」シリーズを展開している。Gaudiは、Google CloudのTPU、AWSのTrainium、Microsoft AzureのMaiaといったAI学習(そして一部は推論にも利用されている)専用と位置付けられているAIアクセラレータと同等の製品だ。汎用プロセッサをAIに転用しているGPUに比べると、電力効率が高いのが特徴となる。

【表】Gaudiシリーズのスペック比較(Intel社の資料より筆者作成)
GaudiGaudi 2Gaudi 3
プロセスノード16nm7nm5nm
コンピュートエンジン(TPC)82464(1ダイあたり32)
MME(Matrix Math Engine)128(1ダイあたり4)
HBM32GB(HBM2)96GB(HBM2e)128GB(HBM2e)
HBM帯域幅1TB/秒2.45TB/秒3.7TB/秒
シェアードメモリ(SRAM)24MB48MB96MB
Ethernet10×100Gb24×100Gb24×200Gb
TDP350W600W900W(OAM)
600W(PCIe)

 今回発表されたGaudi 3は、Gaudiシリーズの第3世代で、2022年に発表されたGaudi 2の後継となる製品だ。

Gaudiシリーズの進化(出典:Intel)
Gaudi 2からGaudi 3への進化(出典:Intel)

 最大の特徴は、Gaudi 2のダイが7nmだったのに対して、Gaudi 3では5nmに微細化されたことで1つのパッケージに2つのダイを実装したことだ。ただし、ソフトウェア的に見た場合には、1つのチップとして認識されるので、従来のGaudi 2用のソフトウェアをそのまま活用することが可能だ。

1つのパッケージに2つのダイが実装されている(出典:Intel)
Gaudi 3のスペック(出典:Intel)

 こうした改良により、Gaudi 2と比較して演算器(TPC=Tensor Processor CoreないしはTensor Processing Core)は24だったのが64に、行列演算を行なうMMEが2から8に増加したほか、シェアードメモリとなるSDRAMの容量が48MBから96MBに、メモリ容量も96GBから128GBに、メモリ帯域も2.45TB/秒から3.7TB/秒にいずれも向上している。それにともなって性能が引き上がり、Gaudi 2と比較してBF16演算時には性能が4倍になるという。

1ノード(8×Gaudi 3)から1,024ノード(8,192×Gaudi 3)まで伸縮可能(出典:Intel)
Ethernetを利用して伸縮させることができるので、低コストにスケールアップ/スケールアウトできる(出典:Intel)

 また、Gaudiシリーズの特徴の1つであるEthernetを利用したスケールアップ/スケールアウト時のスペックが向上しているのも見逃せない。

 NVIDIAのGPUは、NVLinkとNV Switchでスケールアップしたあと、InfiniBandでスケールアウトできるようになっており、それによりかなり多くのGPUを並列に走らせて1つの巨大なGPUとして利用できるスケーリング性能がアドバンテージの1つになっている。

 一方Gaudi 2では、そのチップ単体で24ポートの100Gb Ethernetのポートが用意されており、ケースやラックの内部でスケールアップするのに使い、ラックそのものからスケールアウトするときにも活用できる。

 Gaudi 3では、Ethernetポート数は24ポートで同じだが、ポートの仕様が200Gb Ethernetに強化されている。これにより、1ノードで8台のGaudi 3を構成する場合、RetainerとOSFPのルーターを活用することで、すべての通信が200Gbpsを保ったままの構成が可能になる。

 さらに8つのGaudi 3から構成されるノードをEthernetスイッチとして利用することで、16ノードに、512ノードにとスケールアウトしていくことが可能で、高コストなInfiniBandに比べて低コストな汎用品であるEthernetが利用できるため、スケールアップ時のコストメリットがあるとIntelは説明している。

NVIDIA H100と比較して性能でも、電力効率でも上回っているGaudi 3

学習時の性能をNVIDIA H100と比較したデータ(出典:Intel)

 IntelはGaudi 3の性能を、NVIDIA H100やH200と比較して紹介している。H100やH200のデータはNVIDIAが公開しているデータに基づく。H100との比較では、FP8を利用した学習においてLlama2-7Bモデルで1.5倍、Llama2-13Bモデルで1.7倍、GPT3-175Bモデルで1.4倍と、最大1.7倍の性能向上を実現するという。

NVIDIAのH200、H100と推論時に比較したグラフとデータ(出典:Intel)

 H200と推論時で比較した場合、Llama2-7BモデルとLlama2-70Bモデルはほぼ同等かH200がやや速く、Falcon 180BモデルではGaudi 3が平均して1.3倍高速で、H100と推論時で比較した場合は平均して1.5倍高速だという。また、推論時の電力効率をH100と比較した場合、最大で2.3倍優れているとIntelは説明した。

HL-325L(出典:Intel)
HLB-325(出典:Intel)
HL-338(出典:Intel)

 Gaudi 3には3つのバージョンが用意される。1つはOAM互換のモジュール形状でHL-325Lとなる。FP8の演算時に1,835TFLOPSを実現し、128GBのHBM2e、24×2200GbpsのNICなどのスペックになっており、TDPは900Wとなる。

 そのHL-325Lを8つ搭載したベースボードがHLB-325で、NVIDIAのDGX H100やHGX H100と同じようなサーバー機器を実現するのに利用される。

 もう1つの単体製品はHL-338で、PCI Expressのアドインカードとなる。TDPは600Wだが、900WのOAMと同じくFP8時の性能は1,835TFLOPSが実現されている。

出荷予定時期(出典:Intel)
OEMメーカー(出典:Intel)

 Intelによれば、OAMのHL-325Lの空冷版はすでに顧客向けにサンプル出荷されており、第2四半期にはHL-325Lの液冷版のサンプル出荷が開始される。製品版は空冷版が第3四半期に、液冷版は第4四半期の大量出荷が計画されている。PCIeアドインカードのHL-338は2024年後半に出荷される見込みだ。製品版は、Dell Technologies、Hewlett Packard Enterprise(HPE)、Lenovo、SupermicroといったOEMメーカーから出荷される予定。