イベントレポート
スーパーコンピュータの性能向上を支えるGPUの進化
~GTC Japan 2015レポート
(2015/9/28 06:00)
GPU関連技術の最新情報を提供する開発者向けイベント「GTC Japan 2015」では、NVIDIAの重要な戦略である「高性能コンピューティング(HPC)」に関連した活動が、基調講演や一般講演などで報告された。またNVIDIAとHPC開発のパートナーであるIBMの担当者に対する質疑応答の機会が別途、設けられた。本レポートでは、これらの内容から、NVIDIAのGPU開発の現状と、NVIDIAとIBMの協業による高性能コンピュータ開発の現状をご紹介したい。
GPUの開発ロードマップを次々世代まで提示
始めはGPU開発の現状である。GTC Japan 2015の基調講演では、GPU開発のロードマップが示された。現行の最新世代GPU「Maxwell(マクスウェル)」に続き、来年(2016年)には次世代GPU「Pascal(パスカル)」が登場する。そして2018年には、次々世代のGPU「Volta(ボルタ)」を開発する計画である。
「Pascal」は「世界最高」を謳う倍精度浮動小数点演算能力と、「NVLink」と呼ぶ超高速インターコネクトを備える。NVLinkのバンド幅はPCI Express 3.0の5倍、具体的には80GB/secに達する。NVLinkによってCPUとGPUの間、および、GPUとGPUの間を接続することで、メモリに格納したデータの転送時間を大幅に短縮する
高性能コンピュータのオープン開発「OpenPOWER」の枠組みでIBMと協業
続いてIBMとの協業による高性能コンピュータ開発の現状、である。NVIDIAとIBMの高性能コンピュータ開発における協業の始まりは、数年前に遡る。それが公に知られることとなったのは、一昨年(2013年)の8月に業界団体「OpenPOWERコンソーシアム」の設立がアナウンスされたときだ。OpenPOWERコンソーシアムでは、IBMが開発したRISC CPUであるPOWERアーキテクチャのハードウェア情報とソフトウェア情報を公開し、開発環境をオープンにする。オープンな開発環境を提供することで、コンソーシアムの会員企業はカスタマイズしたシステムを開発できるようになる。
この業界団体はその後、名称を「OpenPOWERファウンデーション」に変更し、現在も精力的に活動を続けている。今年(2015年)の3月には初めての総合イベント「OpenPOWER Summit」を開催した。
GTC Japan 2015の基調講演では、OpenPOWERの成功事例として米国連邦政府のエネルギー省(DOE)から次世代スーパーコンピュータの契約を勝ち取ったことを挙げていた。DOEは次世代スーパーコンピュータの開発プロジェクト「CORAL(Collaboration of Oak Ridge, Argonne, and Lawrence Livermore)」を昨年2月に開始した。CORAL(コーラル)では、オークリッジ国立研究所とアルゴンヌ国立研究所、ローレンスリバーモア国立研究所でそれぞれ、次世代のスーパーコンピュータを稼働させる。
「CORAL」の中でオークリッジ国立研究所向けのスーパーコンピュータ「Summit(サミット)」と、ローレンスリバーモア国立研究所向けのスーパーコンピュータ「Sierra(シェラ)」は、IBMのPOWERアーキテクチャCPUとNVIDIAのGPUを混載したシステムを導入することが、2014年11月に発表された。「Summit」のピーク倍精度性能は150~300PFLOPS(ペタフロップス)、「Sierra」のピーク倍精度性能は100PFLOPS以上となる計画である。
いずれのシステムもハードウェアにはIBMの次々世代CPU「POWER9」とNVIDIAの次々世代GPU「Volta」、超高速インターコネクト「NVLink」を搭載する。計算ノード当たりの倍精度性能は40TFLOPS(テラフロップス)以上で、システムを構成する計算ノードの数は3,400を超える。稼働開始は2017年を予定する。
開発するシステムの特徴は、データの移動をできるだけ少なくすることで性能を高める「データセントリック(Data Centric)」と呼ぶアーキテクチャである。このアーキテクチャを目指した最初のソリューションはOpenPOWERの枠組みの下で、IBMのPOWER8 CPUとNVIDIAのKepler GPUを混載した構成で、すでに商用化されている。
データセントリックにはGPUが必須
午後の一般講演と質疑応答では、OpenPOWERと次世代GPUに関する、より詳細な内容が示された。一般講演トラックでは、NVIDIAと日本IBMの担当者によるOpenPOWERに関する講演がそれぞれ実施された。
一昨年8月にスタートした時点のOpenPOWERコンソーシアムは、会員企業はわずか5社に過ぎなかった。それが今年3月の時点では、113社に膨れ上がった(OpenPOWERファウンデーションの資料による数字)。
OpenPOWERにおけるIBMとNVIDIAの協業は、データセントリックコンピューティングの根幹を成すものだ。先ほどはデータセントリックを「データの移動が少ない」と表現したが、もう少し説明すると、背景にはスーパーコンピュータ(あるいは高性能コンピュータ(HPC))の使い方の変化がある。
従来はスーパーコンピュータと言えば、科学技術計算が用途の大半を占めていた。膨大な計算アルゴリズムが存在し、データはそれほど大きくなかった。ところが最近のスーパーコンピュータでは、きわめて大量のデータを解析する作業が急速に増加し、用途の半分以上を占めるようになってきた。データの解析作業では膨大なデータが存在し、計算アルゴリズムはそれほど大きくない。データ解析を高速に実行することが、スーパーコンピュータを始めとする高性能コンピュータに強く求められるようになった。
次世代スーパーコンピュータ「CORAL」の設計仕様にも、このような変化が反映されているとみられる。データ解析は基本的には並列処理、すなわちGPUが得意とする領域であり、従来のCPUが得意とする逐次処理とはずれがある。CPUの性能を向上させても、データ解析性能の向上にはあまり反映しない。
そこで逐次処理をCPUが担当し、並列処理をGPUが担当することでハイブリッドな計算環境を実現し、総合性能を向上させようというのがデータセントリックシステムだとも言える。
ここで重要なのが、CPUとGPUの間、および、GPUとGPUの間を接続するインターコネクトである。データセントリックシステムではCPUのメモリにGPUがアクセスする、GPUのメモリにほかのGPUがアクセスする、といったメモリアクセスが頻繁に発生する。ここでボトルネックが発生すれば、システムの総合性能の低下を招く。そこで、先ず来年登場するソリューションとして、超高速インターコネクト技術「NVLink」をGPU「Pascal」とCPU「POWER8+」を組み合わせたシステムが投入される。NVLinkのバンド幅は当初80GB/secである。これだけでも現行世代(16GB/sec)の5倍のバンド幅を備える。将来はNVLinkのバンド幅を、200GB/secにまで拡張する計画となっている。