トピック

インテル「Gaudi 3」はAIでトップクラスの性能/コストを実現。拡張性と柔軟性で大規模クラスタと開発環境を強力に支援

インテルGaudi 3 AIアクセラレーター

 AIワークロードにおいて常に課題となるのは処理性能の向上とランニングコストの低減だ。近年では生成AIやLLM(大規模言語モデル)、拡散モデル、画像認識、音声ダビングなど、さまざまな分野でAIモデルの開発が加速しており、AI向けGPUやアクセラレータの需要が高まっている。

 インテルが2024年後半に投入予定の「Gaudi 3 AIアクセラレーター」(以下Gaudi 3)は、AI学習向けに展開しているアクセラレータの第3世代にあたる製品だ。最大の特徴は2つのダイを1つのパッケージに実装している点。加えて、プロセスノードを現行世代「Gaudi 2」の7nmから5nmに微細化し、演算能力やメモリ帯域幅を大きく引き上げた。

 具体的には、32コアのダイを2基、MME(行列演算エンジン)を8基搭載し、公称ではBF16/FP8で1,835TFLOPSの性能を実現。またHBMもGaudi 2の96GBから128GBに増加。帯域幅は3.7TB/s。キャッシュは96MBでSRAM帯域幅は12.8TB/sに達する。なお、ダイが2つになってもソフトウェア上では1つのチップとして認識されるところも重要なポイント。これによって、Gaudi 2の開発環境やコードをそのまま流用可能となっている。

 データセンターにおけるAI向けチップというと、インテル製品は業界最大手ではないかもしれない。しかし、最新のGaudi 3は競合製品に勝るとも劣らない性能、コストパフォーマンスを実現しており、勢力図を塗り替えるだけのポテンシャルを持っていると言っていい。具体的にどのような点で優れるのかを解説する。

競合を超える演算性能と高いコストパフォーマンス

「Gaudi 3」の概要。64コア(32コア×2)や24ポートの200Gb Ethernet、128GBのHBM、手厚いソフトウェアスタックなどが特徴
現行の「Gaudi 2」とGaudi 3の比較。主要な性能が大きく向上している
数千台規模のクラスタも視野に入る拡張性

 Gaudiシリーズは伝統的にオンチップのEthernetを内蔵しており、大規模なクラスタを構築した場合でも別途NICを用意する必要がない点はコスト面でのメリットとなっている。Gaudi 3では200Gb Ethernetを24ポート備えることで、100GbEのGaudi 2からスケールアップ/スケールアウト性能の向上を図った。

 競合のGPUはノードのスケールアップに独自インターフェイスを、スケールアウトにはInfiniBandをそれぞれ用いることで大量のGPUを並列に利用できるが、InfiniBandカードを導入する必要があり、クラスタが大規模になるほどGPU以外の部分で高いコストを支払う必要がある。

 これに対してGaudiシリーズは汎用品として比較的低コストなEthernetを内蔵しており(スイッチとケーブルはInfiniBandと同様に用意する必要はあるが)、特にスケールアップ時のコストにメリットがある。

ノード構成の例。1ノードに対してGaudi 3を8台接続している
リーフスイッチによって16ノードまで拡張した例。OAM数は128
さらにスパインスイッチを用いて512ノードまで拡張した例。OAM数は4,096

 重要な性能に関し、Gaudi 3は競合製品に対して「学習処理」「推論」「電力効率」の3項目で優位性を持つという。これに先述の「低コストな拡張性」が加わる。

 性能比較にあたっては、競合が公開しているデータを元に比較を行なったとしている。学習処理性能についてはLLAMA2-7Bで1.5倍、LLAMA2-13Bで1.7倍、GPT3-175Bで1.4倍、平均して約1.5倍の性能を発揮するという。

 推論性能はLLAMA2-7Bで1.1倍、Falcon-180Bでは最大4倍、平均約1.3倍。トークンの入出力が大きくなるほど競合製品との差が大きくなる傾向がある。特に推論性能については競合の上位製品にも比肩しており、とりわけFalcon-180Bではパラメータのサイズを大きくすると最大3.8倍の性能が出ている。

 電力効率は競合製品との比較で平均1.4倍。ワットあたりのパフォーマンス効率は、推論性能と同様に、入出力が大きくなるほど高効率化する傾向が明らかになっている。このため実行するAIモデルによっては、競合製品からGaudi 3に乗り換えた際に、学習処理/推論にかかる時間の大幅な短縮と高いコストパフォーマンスを両立できる可能性があるとしている。

PCIeアドインカードのフォームファクタを追加

 Gaudi 3の提供形態は、メザニンカード「HL-325L」、ベースボード「HLB-325」、PCIeアドインカード「HL-338」の3つ。

 HL-325Lは、従来より提供しているOAM準拠のメザニンカード。ホストとのインターフェイスはPCIe Gen 5 x16。TDPは空冷で最大900W、液冷では最大で1,200Wとなっている。

 HLB-325は、メザニンカードを8枚実装可能なベースボード。ボード内部の接続は各カードから3ポートを使用し、基板上で相互接続を行なう。スケールアウト用には各6ポートを使用して、ボードのOSFPコネクタに接続する形となる。

 HL-338は、PCで一般的なアドインカード形状を採用。小規模なワークロードを必要としている顧客の要望に応えて新たに追加した製品となる。サーバーでも広く使われている規格であり、推論やファインチューニングをはじめ、スケールアウト性もあり学習用途にも使いやすいとしている。インターフェイスはPCIe Gen 5 x16。112GbpsのSerDesと400G QSFP112ポートを2基備えている。TDPは最大600Wで、液冷にも対応予定。

 製品の出荷時期について、空冷サンプルはすでにOEM向け提供を開始しており、液冷サンプルは第2四半期中を予定。量産品は空冷が第3四半期、液冷とアドインカードが第4四半期の出荷をそれぞれ見込んでいる。こういった複数のフォームファクタが用意されていることも、Gaudi 3導入のしやすさにつながるポイントだ。

メザニンカード「HL-325L」
ベースボード「HLB-325」
新しく追加したPCIeアドインカード「HL-338」

オープンなソフトウェアスタックで開発環境を簡単に移行できる柔軟性も確保

 生成AIとLLMの処理で性能を出すにあたっては、開発環境などソフト面も重要。インテルではハードウェアの高性能化と併せて各種ソフトウェア環境のサポートも行なっている。

 具体的には、AIアプリケーションからフレームワーク、ドライバやライブラリといったカーネルまでのソフトウェア環境を用意し、Gaudiを用いたAI開発環境への移行を支援する。"上から下まで"オープンソースのソフトウェアスタックを用意しており、最も大きなメリットは、他社製品からGaudiの開発環境へ簡単に移行できる柔軟性だ。

 代表的なサポート内容としてはまず、LLAMAやBERT、GPT-2など主要なAIモデルに対応するほか、PyTorchやHugging Faceなどのフレームワーク、DeepSpeedなどの高速化ライブラリ、OPENSHIFTやRedHatなどオーケストレーションのサポートが挙げられる。

 加えて、これらのソフトウェアを支えるグラフコンパイラやカーネルライブラリなどを含むAPI「Gaudiソフトウェア・スイート」を提供。これにはPythonのAPIも含まれているため、新規開発はもとより、他社製品で構築したコード資産についても、数行のコード追加によりGaudi 3で動作させることが可能になる。

 また、インテルが提供しているクラウドベースのソフトウェア開発サンドボックス環境「Tiberデベロッパー・クラウド」においては、現行のGaudi 2を使っているが、近日中にGaudi 3の提供を始める予定で、すぐに新規利用/環境移行できる態勢が整っているとしている。

AIアプリから低レベル層までカバーするソフトウェアスタック
幅広いAIモデルやフレームワークをサポート
他社環境で開発したコードも簡単に移行できる
コードの移植は数行の追記でほぼ完了する
Gaudi 3は「Tiberデベロッパー・クラウド」でも近日中に提供を始める見込み

 インテルはTiberデベロッパー・クラウドの使い方を紹介する主旨の動画も用意しているので、少しでも興味があればぜひ見てほしい。

 Gaudi 3は主にAIデータセンター市場に向けて展開中。現在、Dell Technologies、HPE(Hewlett Packard Enterprise)、Lenovo、SupermicroのOEM 4社に対して提供を開始しており、ASUS、Inventec、QCT(Quanta Cloud Technology)、GIGABYTE、Ingrasys、Wistronへの出荷も準備中。

各パートナー企業に向けてサンプル提供を開始している

AIアクセラレータは性能とコストを総合的に評価する時代へ

 6日にインテルが開催したAI開発者向けイベント「インテルAIサミット」では、基調講演に加えて多数の分科会セッションが実施された。この中の1つ「データセンター向け生成AI」カテゴリでは、Gaudi 3を用いた生成AIおよびLLM(大規模言語モデル)の開発手法を紹介する主旨のセッションが実施された。

 Gaudiはインテルが擁するAI製品ポートフォリオの中でデータセンター向けの"AI専用アクセラレータ"という位置付けであり、AIモデルやパラメータのサイズが巨大化する中、学習だけでなく推論でもAIアクセラレータが必要になったことを背景に生まれたものだとしている。

 「当社のAIアクセラレータのコンセプトは『より多くの選択肢を市場に提供すること』、『オープンな技術を基礎に据えていること』、『コスト効率が高いこと』の3つです。昨今は数百台から数千台におよぶ大規模なクラスタを構築してAIを運用することが増えてきました。そうなると、どうしてもコスト効率が重要になってきます。Gaudiでは実用に足る演算性能を備えつつ、導入コストと運用コストを考慮した設計になっているのがポイントです」。

 続けてデータサイエンス企業Databricksの調査を引用。資料では現行のGaudi 2が競合製品に迫る性能を持ち、コスト効率の観点では、1ユーザーあたりのトークン生成コストが最も低いのはGaudi 2だという。生成AIの運用を行なう中で収益性を考えた時、システムをどれだけ安価に利用できるかという視点を持つ必要性を訴えている。

 また、顧客目線で見た場合に、開発環境の移行しやすさや使いやすさも重要だという。代表的な例としてはGaudiシリーズで採用しているEthernetを挙げ、入手しやすい価格帯の機器や使い慣れたベンダーの機器を使える汎用性や自由度も評価すべきポイントとして挙げている。

 Gaudiシリーズの導入でメリットを得やすい顧客としては、主にエッジ側でAI処理を行なうケースを例に挙げた。具体的には「クラウドに出せない社外秘データを持っているが、生成AIやLLMを構築したい場合」、あるいは「汎用プロセッサでは学習が難しい大きなパラメータサイズのモデルを扱う場合」としている。

 実際にGaudi 2を導入したパートナー企業としてはStability.AIを紹介。Gaudi 2を導入した決め手は競合製品と比較して速い学習時間と推論のレスポンスだという。性能的にもコスパ的にも、GPUの代替として、第2の選択肢を提供し続けることが重要だと話した。

Gaudi 3はデータセンターのAIワークロードを担う"AIアクセラレーター"
Gaudi 2の枚数が異なるクラスタを対象とした「MLPerf Training Benchmark」の実測値。学習時間が短縮されており、Ethernetだからといって性能がスケールしないということはない

開発環境の柔軟性とオープンな開発リソース

 Gaudiシリーズの「使いやすさ」に目を戻すと、開発環境の相互変換性や互換性も注目したいポイントだ。Gaudi 2の開発環境はGaudi 3に引き継げるため、Gaudi 2で組んだものはGaudi 3でもそのまま動作することから、開発のしやすさは変わらない。

 環境を移行して実際にモデルを実行する方法として「GPU向けに最適化されたコードの移行」、「GitHub上で公開している最適化済みモデルの利用」、「Hugging Face上にある最適化済みモデルを利用する」3つの手法を挙げている。

 たとえばCUDAからPythonにコードを移行する場合は、Habanaが用意している「GPU Migration Toolkit」を使うことで、面倒な手順をいくつかスキップできるとした。

 また、インテルが開発リソースを公開している点にも言及。GitHubに置いた主要なAIモデルは、Gaudiに最適化しているため、まずはユーザー自身で使ってみたいモデルを選び、動かしてみて性能を確認することを勧めている。

 このほかHugging Face上にある最適化済みモデルを利用するケースでは、同フレームワークのインターフェイスを使ってそのままGaudi上で動かすデモを実施した。

 最後に、近日中にもGaudi 3が利用可能になる見込みのTiberデベロッパークラウドも紹介。実機を必要とせず手軽に利用できる点をアピールしている。

現行製品のみならず、他社環境からの移行も強力にサポート
PyTorchを用いたCUDAからの移行手順もツールを使って大幅に削減
Gaudi上でHugging Faceのインターフェイスを使って最適化済みモデルをそのまま動かすデモを実施
オープンな開発者リソースも充実させている
Gaudiにおいてモデルごとの実測値に基づいた性能情報も公開しており、自分が使おうとしているモデルでどのくらい性能が出るのかを事前に確認できる

デモ展示ではGaudi 2メザニンカードの実機も

 インテルAIサミットの会場では、Gaudi 3のパネル展示も行なっていた。メザニンカードの実機もあったが、スタッフによると展示品はGaudi 2とのこと。LLMのレスポンスを試せるデモも実施していたが、これもGaudi 2ベースで実行されていたようだ。

 デモ展示は、シンガポールにGaudi 2×8の1ノードを設置して、「LLAMA3-70B」と「Fugaku-LMM」モデルを立ち上げ、質問に対するレスポンス速度や返答の内容を確認できるという趣向。どちらも5月にリリースされたばかりのモデルだが、デモのポイントはリリースから日が浅いモデルでも、Gaudi 2環境で特に問題なく動くオープンなところ。

 デモではGaudi 2ノード8枚のうち4枚だけを有効化しており、試しに「LLAMA3-70B」を選んで質問を投げると、おおむね30ms前後の遅延で返答が得られた。スタッフによれば7Bサイズのモデルであれば、1トークンあたり10ms程度で返答が得られるという。質問から返答までのは100msを切れば問題なく使えるという判断が一般的だとしており、8枚をフルに使えばもっと速くレスポンスを得ることもできる。

会場ではGaudi 3のパネル展示とGaudi 2のデモ展示を実施していた
AIモデルを選んで質問した際のレスポンス時間を確認できる
Gaudi 2メザニンカードの実機
スタッフいわく「"AIアクセラレータ"は特殊なものという意識はどうしてもあるが、そうではないことを知ってほしい」とのこと

AIアクセラレータの新スタンダード

 Gaudi 3は、その製品名が示す通り、第3世代のGaudiとなる。その性能は前述の通り、前世代を遙かにしのぎ、競合製品にも勝るとも劣らない。そして、スケールアップやスケールアウト時を含めたコストについても、非常に競争力が高いことがお分かりいただけただろう。前世代製品や業界標準との互換性も極めて高い。

 データセンターでもエッジでも今AIはもっともホットなトピックだが、そのAIにおいて、Gaudi 3は新たなスタンダードになっていく可能性を秘めていると言えるだろう。