トピック

大学のスパコン担当博士が「新時代を感じた」というAMD EPYCの利点とは

～2021年には富岳を越えるEPYC搭載の世界最速スパコンが稼働予定

石井英男

2020年9月15日 09:50

AMD EPYC

　AMDといえば、古くからPC自作派には有名だが、近年、コスト性能が高いRyzenがブームになり、知名度やシェアが大きく向上した。大手メーカーからも、AMD採用パソコンが次々と登場している。直近では、藤井聡太二冠が、一番会いたい人としてAMDのCEOであるリサ・スー氏を挙げたり、二冠獲得後に「パソコンを1台組みたい」と語ったことでも話題になった。

　Ryzenは、クライアントパソコン向け製品だが、AMDでは、データセンターやスーパーコンピューターといった、よりハイエンドな領域向けのCPUとして、AMD EPYCを投入しており、こちらも大規模システムでの採用事例が増えている。

　そこで、なぜ世界各国のスパコンで採用が相次いでいるのか、AMD EPYCの利点とはどのようなものなのかなどを、AMDの担当者とEPYCを採用した新スパコンシステムのプロジェクト責任者にお話をお伺いした。

チップレット技術をいち早く採用したことがEPYCの最大のポイント

⽇本AMDコマーシャル営業本部ソリューション・アーキテクトの中村正澄⽒

　AMD EPYCは、データセンターやサーバー向けCPUであり、IntelのXeon対抗製品となる。第1世代のEPYCは開発コードネーム「Naples」と呼ばれており、2017年6月に発表された。Naplesは、ZenマイクロアーキテクチャベースのCPUで、14nmプロセスルールで製造されている。

　コア数が多いことが、EPYCシリーズの魅力の1つであり、Naplesでは最大32コアを1つのパッケージに集積している。1つのコアで2つのスレッドを実行可能であるため、1CPUで最大64ものスレッドを実行可能だ。

　さらに、2019年8月には、第2世代のEPYC(開発コードネーム「Rome」)を発表。第2世代EPYCは、マイクロアーキテクチャがZen2に一新されただけでなく、プロセスルールが7nm(一部12nm)にシュリンクされ、大きく性能が向上している。プロセスルールが7nmになったことで、1つのパッケージに集積されるコア数は最大64コアへと倍増。最大128スレッドを同時に実行できるようになった。

最大64コアの第2世代EPYC

第1世代およびIntel製品との仕様比較

　Xeon(Cascade Lake)では、まだ1つのCPUには56コアまでしか集積できていないが、なぜEPYCでは64ものコアを集積できたのだろうか?

　その理由について、日本AMD データセンター・エンベデッド・ソリューション営業本部ソリューション・アーキテクトの中村正澄氏は次のように語った。

　「AMDでは、1つの巨大なLSIを作るのではなく、小さなLSIに分割して製造し、それを合体させるマルチチップモジュールという考え方を採用しています。巨大なLSIを作ると不良品の発生率が極端に上がり、製造コストが非常に高くなります。たとえば、Naples世代の試算ですが、小さいLSIを4つ作る方が、大きなLSIを1つ作る場合に比べて、コストは約6割に削減されます。

Naples世代の試算では、ダイを4つに分割して製造することで、製造コストは約6割に削減される

　第2世代のRomeでは、マルチチップモジュールをさらに一歩進めたチップレットっていう考え方を採用しています。Romeでは、8つのコアを集積したCCDと入出力を司るI/Oダイを組み合わせています。CCDの数やI/Oダイを変えることで、さまざまな製品バリエーションを作ることができます。クライアント向けのハイエンドCPU「Matisse」もその派生製品です」。

　Matisseは、Ryzen 9シリーズとして知られている製品であるが、AMDではチップレット技術をいち早く採用することで、アドバンテージを得ているのだ。

第2世代EPYCでは、チップレット技術が採用されており、4コアを集積したCCDを複数個と、用途に応じたI/Oダイを組み合わせることで、さまざまな製品バリエーションを作ることができる

L3キャッシュ容量4倍、メモリ強化、PCI Express Gen4にも対応

　AMD EPYCの利点はコア数が多いだけではない。チップレット技術により、より多くのトランジスタを集積可能(最大約400億個にもなる)になった第2世代EPYCでは、CPUの実行性能に大きく影響するL3キャッシュ容量が第1世代の最大4倍になっている。

　メモリも第1世代EPYCから8チャネルのメモリをサポートしており、競合製品よりも広いバンド幅を実現していたが、第2世代EPYCではより高速なDDR-3200をサポートし、さらにその差を広げている。

　このように、EPYCではメモリのバンド幅を重視している理由について、中村氏は次のように解説する。

　「いま、サーバーは仮想環境で使われることがほとんどで、実際の物理サーバー1台で1つのサーバーOSだけを動かすことは少なくなりました。ほとんどのユーザーが仮想環境でさまざまOSを動かしたり、サービスを動かしているというのが現状です。ですから、プロセッサのコアが多いだけではなくて、メモリがたくさんあれば、それぞれのOSにも潤沢に割り当てできます。そういう市場ニーズのことを考えて、こういう仕様になっています。8チャンネルですから、メモリのバンド幅は最大410GB/secになります」。

　また、いち早くPCI Express Gen4に対応したことも大きなトピックだ。PCI Express Gen3に比べて1レーンあたりの帯域は2倍に向上しており、高速なGPU、NVMe対応SSDなどの性能をフルに引き出せる。単にGen4に対応しただけでなく、サポートしているレーン数も128と非常に多いこともメリットである。

　「EPYCは、128レーンもサポートしているので、NVMe対応SSDとか、GPUなどを直接プロセッサに接続できます。今のサーバーは、PCI Expressが足りないので、スイッチをつけて増やしてますが、トータルの帯域が増えるわけではないですし、レイテンシも増えます。EPYCなら、PCI Expressのスイッチが不要になり、性能も上がります」(中村氏)。

第2世代EPYCのRomeでは、コア数が2倍の64になっただけでなく、メモリサポートも強化され、L3キャッシュ容量も4倍に、PCI ExpressのサポートもGen4に強化されている

　こうした利点が評価され、とくに性能を重視する分野を中心にワールドワイドでEPYCの採用が進んでいるのだ。たとえば、大手IT企業のサイバーエージェントでは、同社が構築しているプライベートクラウドにEPYCを採用している。

　「サイバーエージェントさんでは、社内でいろいろなサービスを展開されているので、そのためのサーバーを社内で構築していますが、その基盤システムとして、第2世代EPYCのコスト性能の高さを評価していただき、いち早く採用していただいてます。」(中村氏)。

OISTの新スパコンシステム「DE･i･GO」に第2世代EPYCが912基採用

　EPYC採用事例として、OIST(Okinawa Institute of Science and Technology Graduate University: 沖縄科学技術大学院大学)の新スパコンシステム「DE･i･GO」を紹介する。OISTは、世界各国の大学を卒業した院生や教官がさまざまな研究を行なっている大学院大学であり、2019年に質の高い論文数で世界の研究機関をランキングづけするNature Indexにおいて、世界9位と評価されるなど国内でも有数の研究機関である。

　OISTでは、所属する学生や教官が共有して使うスパコンを所有しているが、その第4世代にあたるスパコンが、DE･i･GOである(ちなみに、「でいご」とは沖縄を代表する花であり、沖縄の県花である)。DE･i･GO導入プロジェクトのリーダーである沖縄科学技術大学院大学学園科学計算及びデータ解析セクションセクションリーダーのタユフェール・エディ博士に、DE･i･GOの特徴やEPYC採用の理由などをお聞きした。

沖縄科学技術大学院大学学園科学計算及びデータ解析セクションセクションリーダーのタユフェールエディ博士(工学)

－: 今回のDE･i･GOの特徴を教えてください。

エディ: DE･i･GOは、前のシステムのSangoの技術的な問題を改善してもっと良くするという目的で設計されています。OISTでは、研究棟を増築したり、研究員や研究テーマも増えていたりと、いまもなお物理的に拡張しています。OISTでは、スパコンシステムを共通リソースとして、みんなが共有で使うシステムになっていますので、高い演算性能が必要になります。とくに今回重視したのはコア数です。多くのコアと性能ですね。それがDE･i･GOの特徴で、前のシステムと比べてコア数は7倍以上に増えました。

－: 共有で皆さんが使われてるとおっしゃってましたけど、何人ぐらいが使われてるんですか?

エディ: 追跡したら400人ぐらいでした。でも日常的に毎日使ってるのは30人か40人ですね。

－: DE･i･GOの構成で特徴的なのは、AMD EPYCをメインで使っていることだと思いますが、Xeonも少し使っていますよね。そういう構成にした理由は何ですか?

エディ: 多くのコア数が必要だったんです。ただコアが多いだけでなく、それぞれのコアの性能も必要です。そのため、いろいろなCPUを検討しました。第2世代EPYCは、検討当時は出てなかったので、具体的なテストはできませんでしたが、AMDといろいろお話をして、OISTの要求仕様を満たすCPUは、AMDの第2世代EPYCしかないと判断しました。

　EPYCは第1世代の製品も過去に導入して評価しています。第1世代製品では、コアあたりの演算能力でXeonに見劣りする部分が少しありましたが、第2世代のRomeでは、期待通りの性能が出てます。

　Intel CPUを残している理由は、AMDにないAVX512の利用も1つの理由ですが、大きな理由ではないです。大きな理由は一部のソフトウェアで、Intel製品に特化したライブラリに依存するものがあるためです。AMDでも一応動きますが、Intelも保証していないので、一部Xeonが必要なのです。とは言え、今後DE･i･GOの拡張も計画していますが、そのさいはAMDのCPUだけを追加する予定です。

左側が旧システムのストレージ、右側が新システム「DE･i･GO」。AMD EPYCが456ノード(1ノードあたりCPUは2個)とIntel Xeonが192ノード(1ノードあたりCPUは2個)個採用されている

－: 第1世代EPYCも評価されて、さらに性能が向上する第2世代EPYCを採用したということですね。

エディ: そうですね。第2世代EPYCでは、1ノード(CPUは2個)で最大128コアです。あるユーザーが、かなりのCPUとCPUキャッシュを利用する大規模計算をしたのですが、そのときはコアあたりでもIntelよりもいい結果が出ました。ノードあたりならもっと差がでます。

－: OIST全体で色々な用途に使っているとおっしゃってましたが、もう少し具体的に教えてください。

エディ: OISTはライフサイエンスの分野を中心に結構広く研究を行なっています。生物学とか物理学とか神経とかそういったさまざまな研究をしています。そしてその研究に関する計算、とくに最近は機械学習とか深層学習とかも増えています。計算としてよくあるのはやはり画像とか動画とか、DNAデータとか神経だったらシミュレーションとかデータの解析とか。他の生物学だったらシミュレーションが多いですね。材料とか量子コンピューティングとか流体計算とか、本当に幅広い計算を同じシステムで行なっています。

EPYCの2ソケットでの優位性(AMDの資料より)

目標性能は前のシステムの10倍

－: 先ほど前のシステムに比べてコア数が7倍になったとおっしゃっていましたか、ピーク性能的には前のシステムの何倍になるんでしょうか。

エディ: ピーク性能はまだ計測してないのですが、目指している性能は10倍です。

－: 新しいDE･i･GOについて、ユーザーからの感想はありましたでしょうか。

エディ: やはりユーザーからは、こんなに多くの計算がすぐにできるのがすごいと、喜びの声をたくさんいただいてます。この2年間、ユーザーが増えて、前のシステムでは、キャパシティがいっぱいになり、待たされたりしてたんですね。それで結構困ってた人が多かったのですが、DE･i･GOになってスムーズに行っています。

－: 信頼性はいかがですか。

エディ: ハードウェアとしての信頼性も全然問題ない感じです。

－: 沖縄だと暑いので冷却も大変そうですね。

エディ: そうですね。いろんな対処をしていますが、EPYCは消費電力あたりの性能も優れているのもありがたい点です。

－: メモリやストレージはどれくらいなんですか?

エディ: メモリはノードにつき512GBで、合計370TBですね。ストレージは、2つあります。1つはオールフラッシュで500TBです。これがハイスピードのストレージです。190GB/sとか出ます。残りは6PBで、こちらはHDDになります。

－: DE･i･GOを今後拡張する予定はありますでしょうか?

エディ: はい、あります。もとから拡張できるような設計にしています。多分、100ノード程度は拡張できます。OISTも第5研究棟がまだ建設中なので、OISTもあわせて拡張する予定です。

ー: EPYCには満足されていらっしゃるようですが、AMDに対する要望はありますか?

エディ: EPYCに乗り換えて、本当にびっくりしているんですよ。これまでの15年間は、ずっと同じメーカーのCPUを使っていて、新製品が出ても性能が少し上がるとか、機能でプラスアルファがあるとかと言った程度で、「やっぱりこんなものかな」と、そういう状態に慣れてしまっていたんですね。

　けど、AMD CPUでは、世代が変わると性能が何倍も上がり、新しい時代に入ったと感じました。メモリもかなりたくさん載せられますので、とても満足しています。敢えて要望を挙げるなら、もっとコア数を増やして欲しいですね。これからもっとよい製品が出てくると思いますので、そしたらもっと嬉しいですね。

2021年、2023年に富岳を越える世界最速スパコンが米国で稼働開始

　最後に、世界最速を狙う超高速スパコンの話題を紹介する。

　現時点で世界最速のスパコンは試験運用中の富岳で、2020年6月にTOP500で1位を獲得した。LINPACKでの性能は415PFLOPSであり、正式運用開始は2021年の予定だ。富岳は富士通製スパコンで、CPUとしてA64FXを採用しているが、現在、富岳を越える性能を目指すスパコンの計画がいくつか進められている。

　そのなかでも、野心的な性能を目指しているスパコンが、2021年に米国のオークリッジ国立研究所への納入が計画されている「Frontier」と、2023年に同じく米国のローレンスリバモア国立研究所に納入が計画されている「El Capitan」である。FtontierとEl Capitanは、どちらもCPUとしてAMD EPYCを、GPUとしてAMDのRadeon Instinctを採用することになっている。

　Frontierの目標性能は1.5EFLOPS(1,500PFLOPS)、El Capitanの目標性能は2EFLOPS(2,000PFLOPS)であり、どちらもその時点での世界最速スパコンとなる予定だ。2023年の時点で、世界1位と世界2位の性能を持つであろうスパコンが、ともにAMD EPYCとAMDのGPUを採用しているというのは、まさに快挙であろう。今後もAMDは、スパコンからPCまで業界のリーダーシップとなっていくだろう。

2021年以降、富岳を越える性能のEPYC搭載スパコンが稼働予定

　最後に余談となるが、EPYCというと、個人ユーザーにはあまり関係ないと思われるかもしれないが、実はAmazonで普通に販売されている。2020年9月上旬現在の価格は、64コアのEPYC 7742が約76万円であり、その気になればEPYCマシンを自作することもできるかもしれない。