ニュース

Quantum-2でクラウドとスパコンの融合を目指すNVIDIA

400Gbpsを発揮するQuantum-2

 NVIDIAは、SC21(Supercomputing 2021)の開催にあわせ、HPC/AI分野における動向について説明を行なった。

 HPCやAI分野においては、コミュニティと連携してアプリケーションの改良を図るなど、ソフトウェアとハードウェアの両面から性能を引き上げてきた。6年前の同社製品(Tesla P100)と比べると、現行製品(A100)は16倍もの性能向上を達成したという。また、エコシステムの拡大とともにSDKやアプリケーションの拡充も進んでいる。

 様々な用途でAIが活用され、HPCプラットフォーム/インフラを多くの企業が必要とすることで、同じHPCを複数のユーザーが共有するケースも増加。これに対応するため、同社では大規模な計算リソースを提供できるHPCと、多数のユーザーが同時に安全に利用できるクラウドインフラの強みを兼ね備えたCloud Native Supercomputingを提案してきた。テレメトリ情報を活用した高度な輻輳制御などにより、あるジョブがほかのジョブの性能に影響を与えること防ぎ、スーパーコンピューティングにおけるマルチテナントを実現するといったもの。

ソフト/ハードの改良により6年で性能は16倍も向上
HPC/AIスーパーコンピュータとクラウドの強みを兼ね備えたCloud Native Supercomputing
マルチテナントなクラウドではほかのユーザーの影響で同じシミュレーションを実行しても結果がばらついてしまう
Cloud Native Supercomputingでは高度な輻輳制御などを活かしてこの問題を解決

 9日には、これを支えるプラットフォームとして「Quantum-2」を発表。400Gbpsを実現するNDR InfiniBandを採用し、従来比3倍のスイッチングスループットを実現する「Quantum-2 Switch」(サンプル出荷中)に加え、NICの「ConnectX-7」(サンプル出荷は2022年1月)、DPU(Data Proccessing Unit)の「BlueField-3」(同2022年5月)などを含むもので、米ミシシッピ州大学やテキサスA&M大学などに導入が決まっている。2022年には各OEMから出荷が始まる見込み。

 また、Atosと共同で、欧州地域でのコンピューティング技術や教育、研究の発展を支援するExcellence AI Lab(EXAIL)を発表。Atosでは気候変動予測や医療研究の推進に向け、同社のBXI Exascale Interconnectや、NVIDIAのデータセンター向けCPU「Grace」、次世代GPU、Quantum-2 InfiniBandなどを用いたエクサスケールスーパーコンピュータ「BullSequana X」の開発を進める。

Quantum-2プラットフォーム
米ミシシッピ州大学やテキサスA&M大学などに導入される予定
Atosと共同行なうExcellence AI Lab(EXAIL)

 加えて、Omniverseプラットフォームと、物理学をベースとしたマシンラーニングモデルを構築できるフレームワーク「Modulus」を活用したデジタルツインについても紹介。独Siemens Energyによる事例では、発電所のHRSG(排熱回収ボイラー)における蒸気や水の流れをシミュレートし、腐食の発生を予測する。また、NVIDIAでは、地球のデジタルツインをOmniverse上に作成し気候変動を予測するEarth-2スーパーコンピュータの構築も計画しているという。

 そのほか、HPCを活用した科学技術研究において顕著な功績を挙げたものに与えられるGordon Bell賞についても、最終候補のうち4つでNVIDIAのHPCとAIプラットフォームが活用されているとして紹介した。

OmniverseとModulusを活用したデジタルツインでのシミュレートで施設の故障を予測
地球のデジタルツインを作成するEarth-2スーパーコンピュータ
Gordon Bell賞の最終候補でもNVIDIAのHPC/AIプラットフォームは活用されている