ニュース

NVIDIA、GPUコンピューティングイベント「GTC Japan 2013」を開催

~“CUDAの生みの親”も来日

NVIDIA GPUコンピューティングソフトウェアゼネラルマネージャーのイアン・バック氏
7月30日 開催

 NVIDIAは30日、GPUに関する開発者会議「GTC Japan 2013」を東京・六本木ミッドタウンで実施。基調講演には、GPUコンピューティングプラットフォーム「CUDA」の発明者であるイアン・バック氏が登壇。CUDA発展の歴史や成功に至ったポイント、将来の展望を語った。

 GTC(GPU Technology Conference)は、NVIDIA本社のある米カリフォルニアで毎年開催されているGPU技術者/開発者会議で、その日本版がGTC Japanとなる。2010年は「GPUコンピューティング」という別の位置付けのイベント、2011年は「GTC Workshop Japan」というワールドワイドのGTCというイベントの中で日本で行なうセミナーという位置付けだったが、2012年から「GTC Japan」として規模を拡大。2013年はさらにセッション数が増え、55セッションが実施される。

 その基調講演には、「CUDAの生みの親」であるイアン・バック氏が登壇。ここ10年間で、プログラマブルなGPUが登場した上、CPUを上回るスピードでトランジスタ数が増え演算性能を高められたことがGPUコンピューティングが注目を集めたきっかけになっているが、「GPUは世界最速のパラレルプロセッサとして注目されている。問題は開発者がCPUで使っていたようにプログラミングできるかどうか」であるとし、CUDAを成功させるために必要と考えた3つのポイントを挙げた。

 1つ目は馴染みのあるプログラム言語であることで、CUDAの最初のバージョンは、多くの利用者がいたC言語の拡張として登場させている。2つ目はC言語プログラマなら誰でも分かるように必要なところだけを拡張したこと。3つ目がデータ並列処理のC言語への実装にあたって、C言語にあるスレッドの概念をそのまま利用したこと。いずれも分かりやすさを重視したものだ。

 一方のハードウェア側では、同社が「SIMT」(Single Instruction, Multiple Thread)と呼ぶ、いわゆるベクタ演算となるSIMDやマルチプロセッサであるMIMDの利点を合わせたようなアーキテクチャを採用した。

 これらの設計がCUDAの成功要因とし、現在では、CUDA開発者が8,000以上の組織に在籍しており、62カ国の640大学で講座が設けられているなどの実績を紹介している。

CPUを超えるスピードでトランジスタ数と演算性能を伸ばしたGPUの歴史
よりリアルなグラフィックスや物理演算など現在のGPUの適用範囲
現在、8,000の機関にCUDA開発者が在籍し、640の大学でCUDAの講座が開設されている

 また、今日(こんにち)ではCUDAはプラットフォームとして形成され、科学や学術、金融、製造などあらゆる分野で活用されるに至っており、「GPUはメインストリームになっている」とする。

 この適用範囲をさらに広げるべく投入されたOpen ACCについても触れた。これは既存のCPU向けコードに、ディレクティブと呼ばれる数行を書き足すだけでGPU上で走る並列プログラムにできるもので、専門のプログラマではない科学者などでもGPUを利用したプログラムを使いやすくしたものだ。

 Open ACCに対応したコンパイラは、Cray、Caps、Portland Group(PGI)などから登場していたが、このうちPGIを買収したことを本日発表した。PGIはx86 CUDAやCUDA FORTRANを最初に提供するなど、これまでもCUDA関連の製品展開を行なっており、これらは引き続き提供される。バック氏は「PGIがNVIDIAファミリになったことをうれしく思う。NVIDIAとPGIの技術ロードマップを統合し、GPUの世界をもっと広げていきたい」とコメントした。

プラットフォームとしてのCUDAの拡大
CUDAが使える言語の拡大
Open ACCコンパイラなどを提供してきたPGIの買収を発表した

 バック氏は最後に、CUDA並びにGPUコンピューティングの将来について、まずはパラレルコンピューティングがもっと簡単になり、次にデータ、タスクなどのさらなる並列化や演算の最適化などが行なわれる。そして、OSサイドからGPUを認識してタスク管理などが行なわれたり、全ての言語でパラレルコンピューティングが利用可能になる。その先には、電力を意識したプログラムも必要になると展望を述べた。

 NVIDIAとしては、エクサスケールのための技術を提供することになる。すでにGPU DirectやDynamic Parallelismなどのテクノロジや、Tegraベースの製品でのCUDA対応などを発表しているが、GPU各世代に10億ドルの研究開発費を投資し、これを継続していることが他社との違いであるとし、次世代に向けますますGPUを発展させていくとした。

将来に向けてのCUDA/GPUコンピューティングの課題
エクサスケールに向けてNVIDIAが提供している技術
今後のプラットフォームの拡大。OSネイティブでの対応やC++での対応も見込まれている

 このバック氏の講演では、2名のゲストスピーカーが登壇している。1人目は、独立行政法人理化学研究所(理研)情報基盤センターの黒川原佳氏で、理研内で使われるスーパーコンピュータ(スパコン)「RICC」に、Tesla K20の導入が決まったこととその背景を紹介した。

 RICCは、CPUを並列化したPCクラスタ、GPU、アクセラレータをネットワークで統合したシステムであるが、ここ3年ほどCPUコアの利用率が常時90%を超える状態になっているという。そこで、GPUを用いて待ち状態のジョブを処理し、スループットの改善を図っている。また組織内でGPU利用促進のためのプログラミングフレームワークの提供も始めている。

 現在は新しいシステムの導入も検討が進められており、2014年度頃にはペタフロップス級のスパコンを導入し、その次のエクサフロップス級システムに向けて、ユーザーの裾野拡大、トップユーザーのスキル向上をサポートしていくとした。

理研 情報基盤センターの黒川原佳氏
RICCにGPUを導入することでジョブスループットの改善を図る

 もう1人は、九州大学 情報基盤研究開発センターの青柳睦氏。九州大学では、2013年4月に富士通のPRIMERGY CX400にTesla K20/K20Xを計256枚導入し、理論演算性能を811.9TFLOPSに拡張。さらに、11月からはXeon Phiを組み込み理論演算性能が712.5TFLOPSとなる日立製作所のHA8000を稼働予定となっている。この調達にあたっては、異なるメーカーを組み合わせた複合系Linpackを測定する条件が付いており、その性能は1~1.1PFLOPSと、同大学もペタフロップス級のスパコンを所有する見込みとなっている。

 青柳氏は併せて、国内のスパコン事情についても紹介。国内では、「京」や各大学など10の機関の汎用スパコンが学術、産業向けにサービス提供しており、それらをHPCインフラストラクチャ(HPCI)としてネットワークを形成。また各研究機関なども独自のスパコンを所有し、それらもネットワークに組み入れて発展させている現状がある。一方で大学には設置面積が1,500~2,000平方m、電力が東京大学で3MW強、九州大学で2MWなど制約がある中、東京工業大学を除く各大学が複合で1PFLOPSを超えるか超えないかという性能のスパコン調達を行なう状況にある。

 九州大学の今回のスパコン導入は、エクサへの移行期である100PFLOPS級の時代や、エクサが実現するとされる2021年前後を迎えたときに、その10分の1から20分の1のHPCリソースをいかに実現するか、という課題に対して決断したものであるとした。

九州大学情報基盤研究開発センターの青柳睦氏
全国10機関のスパコンをネットワークで結ぶHPCI
九州大学ではTeslaベースの富士通製スパコン、Xeon Phiベースの日立製作所製スパコンなどをコンバインし、11月に1PFLOPSを超える見込み
東京大学情報基盤センターの石川裕氏がまとめた各大学のスパコンと今後の見込み

ビッグデータ時代に適応させるTSUBAME3.0

東京工業大学 松岡聡氏

 基調講演に続いては、東京工業大学(東工大)松岡聡氏による特別講演が行なわれた。前日の29日に東工大においてTSUBAME2.5へのアップグレードに関する記者説明会が開催されており本誌でもレポートしているが、検討中の細かいベンチマークのデータや、将来の計画について紹介を行なった。

 TSUBAME2.0から2.5へのアップグレードにあたっては、FermiベースのGPUからKeplerベースのTesla K20Xへの換装という形が採られるが、ほかにもXeon Phiなどの選択肢が検討されたという。ただ、各種のプログラムにそれぞれのアクセラレータに最適化したチューニングを施した結果を比較しても、Tesla K20Xが良好な結果を示した。アプリケーションによっては20倍もの差が出ることもあるという。

 また、Tesla K20Xのメモリ帯域幅拡大により、ノード間インターフェイスの帯域幅との差が大きく広がることによる性能向上のボトルネックが発生する可能性についても検討されたが、演算とデータ転送のオーバーラップや、新しいアルゴリズムの開発により、帯域幅の差をカバーできる。こうした結果を基に、Tesla K20X採用という結論になったという。

ステンシル計算のパフォーマンス。各演算装置に対して最適化したコードで、Xeon Phi 5110Pに対して、Tesla K20Xが2倍程度の性能
こちらのアプリケーションは15倍以上の差となっている
GPUのメモリとノード間インターフェイスの帯域幅がTSUBAME2.5では76:1と大きく拡大する
演算とデータ転送のオーバーラップでボトルネックを隠蔽
通常のアルゴリズムではデバイス(GPU)メモリを超えるデータを扱うと性能が大きく低下するが、新しく開発したアルゴリズムではデータサイズが増えても性能を維持できる

 一方、将来のTSUBAME3.0については、ビッグデータ処理に向けたアプローチを紹介した。将来のビッグデータは極めて膨大なデータを処理するためにスパコンが必要になるというのが松岡氏の主張だ。

 例えば、ゲノムを解析して創薬などに役立てるならば、大量のゲノム情報を100万人単位で集めることになり、データはペタバイト級になる。また、その情報もシーケンシャルに持ってくるだけでなく、ゲノム同士の相関を調べる必要なども生じる。そこにスパコン、GPUの役割が発生するという。

 こうしたデータを扱うにはノード間のネットワークやストレージの帯域幅が重要になるが、TSUBAME2.0は各所にSSDなどを導入し、数百GB/secの大規模並列ファイルシステムを持つ。またノード間のネットワークについては、Ciscoのデータによれば2012年の全世界のあらゆるインターネットトラフィックの平均が134.1Tbitであったのに対し、TSUBAME2.0は200Tbit以上。

 一方、インターネットデータセンターは、インターネットとサーバー間のパフォーマンスを中心に考えられた設計になっているため、まったくパフォーマンスが足りないという。その証左となるのが、Graph 500と呼ばれる大量のデータをグラフ処理するランキングで、クラウドデータセンターはまったくランクインせず、TSUBAME2.0は上位にランクインする。

 それだけスパコンとインターネットデータセンターの差が大きいということだが、松岡氏は、スパコンが牽引して、インターネットデータセンターの成長率をスパコンに近づけることが必要であるとする。

 一方、GPUの処理性能についてもHadoopで動作するグラフ処理システムのPEGASUSに対して、マルチGPUで処理するMarsGPU-3というシステムを用いて処理した結果、186.8倍という性能差が出たという。

 松岡氏はミドルタワーケースに組み込んだシステムの写真を見せ、こうしたビッグデータを高速に扱えるTSUBAME3.0に向けた検証を進めていることを紹介した。

ゲノム解析など、現在ビッグデータと言われるものとは単位が異なるサイズのデータを扱う時代を迎えようとしている
Ciscoのデータによる、全世界のインターネットトラフィック。2012年は平均131.4Tbitとなっているが、TSUBAME2.5は200Tbit以上のネットワーク帯域を持つ
ビッグデータ時代には、インターネットデータセンターが、スパコンの成長に近づくことが求められる
GPUを活用したビッグデータの処理性能で、良好な結果を示したデータ
ビッグデータ処理に適応できるようTSUBAME3.0へ向けた検証が行なわれている

(多和田 新也)