やじうまPC Watch

HPCシステムズの128コアEPYCマシンでCINEBENCHを回してきました

 多コアCPU、大容量メモリ、無限のストレージ、無数のGPU……こうしたスペックは誰もが一度は夢見るものだ。そうした構成は、優に数百万円を超えるので、PC Watchで普段から数多くのPCを触っている筆者にとっても夢なのだ。

 コンシューマ最強のRyzen Threadripper 3990Xはもちろんのこと、さらにその上を行くマシン群には触れたことがないため、IntelやAMDで多コアCPUのリリースが出たさいには、「どんな性能になるのかな~?」と想像を膨らませて執筆するのが日常茶飯事である。

 もちろん、普段使いではその性能の大半が無駄になっていることはわかっている。Webブラウジングやワープロ、ゲームなどのコンシューマ用途において、周波数とのバランスこそが大事なのだ。「コアの数の違いが、性能の決定的差ではない」ことを……誰かに教えられそうだが、筆者が身を持って体験してみるまでは肯定ではできない。だから夢を見続けるのだ。

 夢を見続けることはや14年。筆者も30代後半に差し掛かり、そうした多コアマシンを自在に操り、性能をフルに発揮させられるのは、ニュータイプだけであることを思い知らされる。そんななかひょんなことで繋がりを持てたHPCシステムズさんから、「うちでEPYCとかを搭載しているマシンを扱ってるので、もしお試しいただきたいなら、自由に触れるマシンをご用意します」というお声がけが……!

 ニュータイプにはなれなかった筆者だが、そういう分野のマシンに触って勉強したら、強化人間ぐらいにはなれそう。ありがたいお言葉に甘えて、東京・港区海岸にあるHPCシステムズの本社に伺った。

HPCシステムズが入居するビル(奥の高いほう)
お台場方面に向かうレインボーブリッジに入る手前の環状道路が見える絶好のロケーションだ
今回取材にあたって協力をしていただいたHPC事業部 営業グループ 企業チーム マネージャーの高橋功氏(左)と同技術グループ マネージャー 工学博士の渡邊啓正氏(右)

科学演算に特化したHPCシステムズ

 HPCシステムズという会社について、読者諸兄に馴染みがあまりない会社かもしれないので、簡単に紹介しておこう。同社は2006年7月に、HIT株式会社とプロサイド株式会社が合併して設立された。古くからPC Watchをお読み頂いている読者にとって、後者は馴染みのある名前だろう。

 上にちらっとリンクを貼ったが、HPCシステムズは、あの世界一スパコン「富岳」にも使われている富士通製の「PRIMEHPC FX700」などを扱っていることからもわかるとおり、科学技術計算に使われる高性能計算機の開発/製造/販売を行なっている。また、そうした計算科学のコンサルティングや受託計算、受託開発もしている。制御や画像処理に使われるコンピュータのCTO事業もあるが、おもに注力しているのは前者のHPC(High Performance Computing)事業だ。

 半導体パートナーはおのずとIntelやArm、NVIDIAとなり、ハードウェアはSupermicroやHewlett Packard Enterprise、GIGABYTEといった大手だ。一方で顧客は、自動車の衝突シミュレーションや流体シミュレーションでHPCが必要となる自動車会社をはじめ、多くの科学研究機関、そして近年は若者のベンチャー企業も増えてきているという。

サーバールームにお邪魔しているあいだ、渡邊氏は48コア/96スレッドのCascade Lake-AP搭載マシンも見せてくれた
こちらは取材前に届いたばかりだというMellanoxの「ConnectX-6 VPI HDR/200GbE」アダプタ。PCI Express 4.0 x16に対応し、InfiniBand(DHR)およびEthernetでシャーシ間を最大200Gpsで結べる。ここまで来るとSSDではなくDRAMをストレージに使う必要が生じる
PCI Express 4.0 x16は事実上EPYC専用になるので、ではIntelではどうするのか? というと、このように2枚のカードを使い、そのあいだを専用ケーブルで結ぶ“変態構成”で帯域を補う。NVIDIA SLIのようなものだ
U.2接続のSSDを最大32台搭載できるストレージシャーシ(CPUなどは非搭載)。こんな変態なシステムを作るのはSupermicroだけだろう

PC Watchの餌食となったのはEPYC 7702搭載の「HPC5000-ERM2UQuad」

 では早速サーバールームにお邪魔してEPYCを2基搭載したマシンとご対面といこう。今回テスト用にご用意頂いたのは、ROME世代の「EPYC 7002」シリーズを搭載した「HPC5000-ERM2UQuad」。Supermicro製のシステムをベースとした2Uラックマウントだ。

 あらかじめ断っておくと、この製品は2CPUを“1ノード”とし、そのノードを最大で4つ搭載できる。つまり、1つの筐体で最大8CPU搭載できるわけだ。筆者が今回試したのは、このうちの1ノードだけで、システム全体としての性能評価ができたわけではない。

 ただし、この1ノードだけでもEPYC 7702(64コア/128スレッド/ベースクロック2GHz/キャッシュ256MB/TDP 200W)を2基、メモリ256GB搭載しており、自作PCの視点からすれば超ハイスペックなのだ。

【表】HPEC5000-ERM2UQuadの仕様
CPUAMD EPYC 7002シリーズ
1ノードあたりのプロセッサ数2
冷却空冷
1ノードあたりのメモリDDR4-3200 ECC Registered
128GB(8GB×16)~1TB(64GB×16)
1ノードあたりのストレージ1TB 2.5インチ SATA SSD×1(最大6基)
グラフィックスAST2500
インターフェイスミニD-Sub15ピン、USB 3.0×2、IPMI2.0対応ポート、ネットワークカード(要バンドル)
拡張スロットPCI Express 4.0 x16×2(LowProfile)
電源100V/1,200W×2
200V/1,800W×2
本体サイズ438×724×88mm(幅×奥行き×高さ)
重量38.6kg

 公式スペックでは、対応OSはCentOS 7、Red Hat Enterprise Linux 7、Ubuntu 18.04 LTSを挙げているが、今回は読者に馴染みがあるベンチマークを走らせるために、特別にWindows Server 2019 Datacenterを入れていただいた。操作とテストのさいは、KVM(いわゆるノートPCのように使えるディスプレイとキーボード/タッチパッドのセット)を直接つないで操作している。

今回、PC Watchの餌食となったHPC5000-ERM2UQuad
全然ゲーミングじゃないけど、LEDイルミネーション要素も
KVMを直接接続してテスト
起動時に拝めたEPYC 7702の文字

 本体背面にUSB 3.0があるため、そこに筆者が持参したUSB SSDにPCMark 10やCINEBENCH R20、SiSoftware Sandraを入れ、ローカルにインストールしてベンチマークを行なった。

背面のUSB 3.0ポートに手持ちのUSB SSDをブスッと挿す……ああやっちまった

 ちなみに、対応していただいた同社 HPC事業部 営業グループ 企業チーム マネージャーの高橋功氏によれば、「今回回していただくベンチマークは、弊社でもやったことがなく、その結果に興味があります」とのこと。意外かもしれないが、HPCの世界はそもそも汎用ベンチマーク数値の高低よりも、「できるかできないか」のほうが重要なのだ。

 とくに近年盛り上がりを見せるディープラーニング分野では、「なるべく多くのデータセットを一気に処理したい」というニーズがあり、メモリへの要求が肥大化している。高橋氏によれば「もう数TBを見慣れちゃったので、今回用意した256GBはかなり少ない方」だという。256GBのメモリでは計算できないが、4TBのメモリだと計算できるのなら、256GBの性能をあえて評価する必要はない、というわけだ。

 もちろんそうではない分野もあるし、予算の関係もあるので、そのさいはベンチマークも汎用のものを使用して顧客に納得させるのではなく、実際に使用するソフトをソースコードからコンパイルをして、その結果を顧客に見せて納得していただいているのだそうだ。業界標準の汎用ベンチマークだと、HPLあたりだという。

いよいよベンチマークを走らせる

 それではまずわかりやすいCINEBENCH R20と行こう。CINEBENCH R20では問題なく128コア/256スレッドでテストできるが、最大で「22,567」という圧倒的なスコアを記録した。ちなみに筆者手持ちの10コアのXeon W-1290P環境では6,200というスコアなので、それの3.6倍も高速という結果だ。

 しかし、以前に弊誌でテストしたRyzen Threadripper 3990Xが24,840だったことを考えると、コアが倍増しているのにも関わらずおとなしい結果。これはRyzen Threadripper 3990XがTDP 280Wでテスト中に高いクロックを維持した一方で、EPYC 7702はTDP 200Wで、ほぼ2GHz固定で動作した結果だろう。

 CINEBENCH R20のデータセットの前準備の時間を除くと、EPYC 7702もRyzen Threadripper 3990Xもベンチ自体はわずか数秒で終わってしまう。そのため冷却にまだ余裕がある3990Xで高いスコアが出るのは当然だ。高負荷が長時間続くテストだと、その差は縮まるか逆転するだろう。

念願の128コアマシンでCINEBENCH R20を実行。スコアは22,567と、コンシューマ向け最上位の3990Xに後塵を拝した
ベンチマーク実施中、128コア256スレッドがフル稼働。時折2.2GHz動作も見せる

 それを裏付けるのが、SiSoftware Sandraにおける「プロセッサの性能」の結果。このテストはコア数に関わらず比較的長い時間実施されるので、瞬間的にクロックを上げてくるRyzen Threadripper 3990Xは不利になる。その結果Dhrystone Integerは3.52TIPS(3,520GIPS)、同Longは3.55TIPS(3,550GIPS)と、以前テストした3990Xより約50%高速だった。Xeon W-1290Pと比べるまでもない(そもそも表示される単位が違う)。

 プロセッサの暗号処理性能もテストしてみたが、こちらも圧倒的な結果を残し、Ryzen Threadripper 3990Xのコア数の違い以上の結果を残した。いずれにしても、EPYCの本領が発揮されるのはこれらの分野のはずなので、(当たり前だが)ちゃんと仕事してくれていることがわかる。

SiSoftware Sandraの「プロセッサの性能」。Dhrystone Integerは3.52TIPS、Dhrystone Longは3.55TIPS、Whetstone Single-Floatは2.25TFLOPS、Whetstone Double-Floatは1.9TFLOPSで、コア数/クロックに比例した性能を見せつけた
暗/復号化処理は81.67GB/s、ハッシュ処理は144.92GB/sと圧倒的。このあたりはメモリバンド幅の広さも貢献している

 その一方でマルチメディア処理に関しては、Multi-Media Long-IntとQuad-Int/Quad-float以外は奮わなかった。この3つの結果を除いて、どう見てもベンチマーク自体が128コア/256スレッドを使い切れていないのが原因だろう。

 メモリ帯域については154GB/sを記録した。EPYCはRyzen Threadripperとは異なり、8チャネルメモリとなっているので、純粋に帯域が倍増(プラスアルファ)している結果。2ソケット分テストできていないと思われるが、それでもコンシューマ向けCPUと比べたら雲泥の差だ。

マルチメディア処理は一部スコアが奮わなかったが、EPYCのマルチソケットに最適化されていないためだろう
メモリ帯域については期待どおりだった

 プロセッサの基本性能がわかった時点で、いよいよ弊誌で超お馴染みのPCMark 10を走らせてみた。これでいよいよこのモンスターマシンが普段遣いでどうなるのかを評価できる。

 ところが、PCMark 10を起動した時点で、「OpenCL 4.3準拠のハードウェアが見つからないため、テスト項目が制限されます」といった旨を示す警告が出て、画像編集や3D CAD、ビデオ編集といった「Contents Creation」がテストされない「PCMark Express」しか実行できなかった。

 しかもそのPCMark Expressも、LibreOfficeベースの表計算やワープロ(Spreadsheets scoreおよびWriting Score)が実行されたものの評価が出ず、アプリの起動(App Start-up Score)、ビデオ会議(Video Conferencing Score)、Webブラウザ(Web Browsing Score)といったEssentialsしかスコアが残せなかった。

 ではそのEssentialsのスコアはどうかというと、4,537に留まった。最新/最強のPCでは軒並み1万超えとなっていることを踏まえると、「低すぎる」という評価を下すしかないだろう。

PCMark10の結果はEssentialsしか残せず。しかもそのスコアも高いものではなかった

 HPEC5000-ERM2UQuadではグラフィックスにASPEEDのAST2500を搭載しているが、これはほぼを表示するだけの機能しか備わっていないので、当然といえば当然の結果だ。それだけ、われわれが普段使っているPCの性能評価はGPUに頼りっきりになっている、ということの裏返しでもある。

 ちなみに、こうした高価格なマシンの話題が出るたびに「買ってもやることはTwitter」という有名な諺(?)が自作PC界隈であり、筆者もせっかくなのでTwitterをやってやろうと思い、無線LANアダプタとテザリング用スマホを持参して自前の回線で接続しようとしたが、無線LANアダプタのドライバがWindows Server 2019 Datacenterに対応しておらずインストールできなかった。無念……。

意外に近いようで遠かったHPCの世界

 同じx86でCPUコア数が増えただけだから、単純な高性能なPCだと思われがちなHPCの世界だったが、いろいろベンチマークを取って高橋氏と話しているうちに、「そうでもないな」、と思ったのが今回の取材だった。多コアCPUを必要とし、それを活かせるアプリケーションがあって、「いままでできなかったことができる」ようになってからはじめて意味を成すのがHPCの製品やソリューションであり、ベンチマーク結果に一喜一憂する世界ではないのだ。

 そういう意味では、まさにスパコンの富岳に共通するものがある。そう、「2位じゃだめなんでしょうか」という話ではない。今までのスパコンではできなかったことが、富岳でできるようになった、というのがもっとも重要なのだ。

富岳にも使われているPRIMEHPC FX700の筐体(画像提供:HPCシステムズ)
PRIMEHPC FX700のマザーボード(画像提供:HPCシステムズ)

 高橋氏によれば、今回テストしたHPEC5000-ERM2UQuadのシステム3台(24ノード)で、ほぼ初代の地球シミュレータに匹敵する性能を実現できるという。地球シミュレータは600億円を投じて実現されたが、HPEC5000-ERM2UQuadを用いれば数千万円で実現できる。小規模な予算の一企業もしくは一団体が、これまで何ができなくて、これによって何をできるようになったのか、単純明快な話だ。

 強化人間どころか、オールドタイプであることを改めて思い知らされた筆者だが、そうした世界を垣間見えただけでも、ためになる取材であった。