ニュース

NVIDIA、最新AIベンチでIntelの3.6倍のスコアを達成。5時間の処理が約11分に短縮

MLperf Training v3に新しく追加される2つのワークロードになるGPT-3 175B、DLRM-DCNv2(出典 : NVIDIA MLPerf Training v3.0 Results、NVIDIA)

 NVIDIAは6月27日(米国時間)、MLCommonsが策定しているAIベンチマーク「MLperf」の学習向け最新版「MLperf Training v3.0」を実行した際の、NVIDIA H100 GPUのスコアを公開した。

 MLperf Training v3.0に新しくGPT-3 175B、DLRM-DCNv2というGPT-3モデルのワークロードが追加され、生成AIのAI学習時の性能を正しく評価するという意味で注目に値する動きだ。

 NVIDIAは、NVIDIA H100 GPUのスコアについて、Intelが提供するAIアクセラレータ「Habana Gaudi2」の3.6倍だと明らかにしたほか、特にスケールアウトして大規模なクラスタを構成したときの性能が競合のソリューションに比べて高い性能を発揮すると強調した。

MLPerf Training v3.0ではGPT-3 175BとDLRM-DCNv2という2つの新しいワークロードが追加される

MLPerf Training v3.0には8つのワークロードがあり、6つは以前からの継続、2つが新しく導入されたワークロード(出典 : NVIDIA MLPerf Training v3.0 Results、NVIDIA)

 AIベンチマークはアプリケーションレベルではUL SolutionsのProcyon AI Inference Benchmarkなどいくつかのメジャーなプログラムが知られている。

 ただ、半導体業界が業界標準として利用しているのは、業界団体であるMLCommonsが提供している「MLPerf」(エムエルパーフ)だ。

 MLPerfはオープンソースのコードで提供されており、半導体メーカーが自社のCPU/GPU/NPUなどに最適化を行なった上でテストを行なえる。

 たとえば、新しいCPUが新しい命令セットに対応している場合には、その部分の最適化を行ない、より性能を引き上げることが可能になる。

 そのため、MLPerfはCPUやGPUなどが持つ本来の性能を正しく評価できるツールとして評価され、業界標準のベンチマークツールとして利用されている。

 AIではない通常のワークロードではSPECintやSPECfpなどが同じような仕組みのベンチマークとして知られているが、そのAI版がMLPerfと理解すると分かりやすいだろう。

 なお、MLPerfの結果は、MLCommonsのWebサイトに公開されているため、他社の製品と比較することも容易で、その意味でもより公平なモノサシとしてAI向けの半導体を評価する時の指標として利用されている。

 NVIDIAが今回明らかにしたのは、MLperfの学習向けベンチマーク「MLPerf Training」の最新版となるMLperf Training v3.0についてと、そのNVIDIA GPUおよび競合他社アクセラレータのスコアなどだ。

 NVIDIA AIベンチマーク&クラウド担当部長 デイブ・サルバトール氏は「MLPerf Training v3.0では新しい2つのワークロードが追加される。1つはGPT-3 175Bという1,750億パラメータのGPTになるLLM(大規模言語モデル)であり、もう1つがDLRM-DCNv2で従来のDLRMベンチマークを置き換えるものだ。前者はChatGPTなどに採用されているLLMを利用して性能を計測し、後者はWebサーバー上でのリコメンドエンジンのベンチマークで、従来のDLRMに比べて6倍ものデータセットを持っている」と述べる。

 つまり、MLperf Training v3.0では今流行の生成AIで多く使われているLLMであるGPT-3のモデルと、リコメンドエンジンの最新版が追加されたということだ。

 GPTモデルは、ChatGPTやMicrosoftのBingチャットなどにも利用されているLLMの大規模モデルで、現在のAIの世界で非常に学習に時間がかかるAIモデルの1つとなっている。

 現在はより大規模なGPT-4になっているが、MLPerf Training v3.0に採用されているのはGPT-3の1,750億パラメータ(GPT-3 175B)となる。

 もう1つのDLRM-DCNv2は、以前DLRMとして提供されていたリコメンデーションサービスのワークロードのアップデート版だ。モデルが最新版に更新されたことで、より新しいアルゴリズムになり、学習に利用するデータセットも6倍になるなどして、的確なリコメンデーションができるようになったモデルになっている。

Intel Habana Gaudi2と比較して単体で3.6倍、スケールアウトするとGaudi2で5時間の処理が11分で終了

アクセラレータ1つあたりの性能比較。GPT-3 175BでのNVIDIA H100 GPUがIntel Habana Gaudi2の3.6倍(出典 : NVIDIA MLPerf Training v3.0 Results、NVIDIA)

 NVIDIAはこうした新しいワークロードを利用したベンチマーク結果を公開した。512基のNVIDIA H100 GPUと384基のIntel Habana Gaudi 2でGPT-3 175Bのテストを行なった場合には、1つのアクセラレータあたりの性能はNVIDIA H100 GPUがIntel Habana Gaudi2の3.6倍になったという。

3,584基のNVIDIA H100 GPUと384基のGaudi2でGPT-3 175Bを比較。H100は10.9分で処理が終わったが、Gaudi2は312分(約5.2時間)掛かる(出典 : NVIDIA MLPerf Training v3.0 Results、NVIDIA)

 3,584基のNVIDIA H100 GPUと384基のGaudi2でGPT-3 175Bを実行すると、3,584基のH100が10.9分で終わったのに対して384基のGaudi2は312分(5.2時間)になったとする。

 なお、Gaudi 2の結果は明らかにされていないがDLRM-DCNv2を3,584基のNVIDIA H100 GPUで実行した場合には1.61分で終了したとのことだ。

NVIDIA H100を768基から3,584基にスケールアウトすると、約4.67倍のGPU数になるが、少ない性能低下でスケールアウトできていることが分かる。NVLink Switchのような高速で低遅延なインターコネクトなどを採用している効果になる(出典 : NVIDIA MLPerf Training v3.0 Results、NVIDIA)

 また、NVIDIAのスケールアウトの性能を計測するために、MLPerf Training v3.0のLLM(GPT-3 178Bのことだと思われる)を利用して、768基のNVIDIA H100 GPUと約4.67倍になる3,584基のNVIDIA H100 GPUを比較した場合には、性能は約4倍となったとも説明した。

 NVIDIAのサルバトール氏は「我々のGPUはスケールアウトしても性能の低下は少なく、競合のアクセラレータでは5時間かかるような処理がNVIDIAのスケールアップ/スケールアウト環境で実行すれば約11分で終わってしまう。それにより消費電力を節約し、TCOを削減できる」と述べる。

 つまり、LLMを利用して生成AIの学習をやらせる場合には、NVIDIA H100 GPUが他社のアクセラレータなどに比べて性能の伸縮が自在な観点でもメリットがあると強調している。