【イベントレポート】NVIDIA GPUコンピューティング 2010 WinterレポートファンCEO、産業界でのGPU採用には大きな可能性がある

NVIDIA GPUコンピューティング 2010 Winterレポート

ファンCEO、産業界でのGPU採用には大きな可能性がある

NVIDIA 共同創設者/CEOのジェン・スン・ファン氏

12月1日　開催

　12月1日に、エヌビディアジャパン株式会社(以下NVIDIA)は1日、都内のホテルにおいて「NVIDIA GPUコンピューティング 2010 Winter」を開催し、NVIDIAのGPUコンピューティングに関するビジョンを日本のユーザーに向けてアピールした。

　基調講演に登場した、NVIDIA 共同創始者でCEOのジェン・スン・ファン氏は直近のスーパーコンピュータランキング「TOP500」の結果などを示しながら、「GPUコンピューティングベースのスーパーコンピュータが登場することにより、スーパーコンピュータは政府や学術目的から、産業界などのメインストリームへと降りていくことになる。今後、GPUベースのスーパーコンピュータ市場には大きな可能性がある」と述べ、今後自動車や石油関連といった産業界におけるGPUコンピューティングの大きな可能性についてアピールした。

●CPUに連続したコードの処理を、GPUに並列したコードの処理を

　ファン氏は、現在のNVIDIAが展開する製品の説明を行なった。NVIDIAが現在市場に提供しているのは、3つのカテゴリーの製品となる。1つがよく知られている通り、パーソナル向けのGeForce(PC用GPU)とTegra(組み込み向けSoC)で、もう1つがプロ向けのGPUとなるQuadroだ。そして今もっとも注力しているのが、GPUコンピューティング向けのソリューションであるTeslaで、「コンピュータ業界で最も影響を与えている製品」という。

　NVIDIAが言うGPUコンピューティングとは、GPUを利用した汎用演算。従来のGPUは、グラフィックスの処理を専門として、頂点処理などの特定のハードウェアを持っていたのだが、近年は汎用の演算器を利用してマルチスレッド処理を行なう仕組みに変わってきたため、グラフィックスの処理だけでなく、より汎用的な演算に利用できるようになった。NVIDIAの最新世代のGPUでは512個のプロセッサコアを内蔵しているが、これを利用して大容量のデータを並列処理させることが可能になってきているのだ。

　「CPUは連続した処理を行なうのに適しており、OSの起動や命令の実行といった部分を担当する。これに対してGPUは、並列に処理するのに適しており、大容量のデータを一度に処理するなどの用途に向いている。今後は連続したコードはCPUで、並列したコードはGPUという組み合わせが最大の性能を発揮する組み合わせとなる」とし、CPUとGPUをそれぞれに適した処理に利用することで、コンピュータの性能をこれからも上げていくことが可能であると説明した。


NVIDIAがカバーする3つの市場。プロ市場、並列コンピューティング市場、パーソナル市場の3つ	新しいコンピューティングの形としてCPUとGPUの両方を使って演算するモデルを提案

●NVIDIAと東京工業大学のコラボレーションの成果が続々報告される

　その上でファン氏は「こうした並列コンピューティングは実に多くの産業に必要とされている。例えば製薬会社の新薬開発、自動車産業でのCFDなど多岐に渡っている」と述べ、産業界における並列コンピューティングのニーズの広がりを指摘した。

　具体的な例として、東京工業大学青木尊之教授が進めている気象庁との共同開発であるASUCAの例が紹介された。ASUCAはGPUを利用したメソスケール気象モデルで、GPUを利用して演算することで従来よりも高精度な気象解析を可能にした。青木教授によれば、従来のモデルでは、複数作業の解析のうち物理演算を主にCPUで演算して、GPUをアクセラレータとして利用していたのだが、CPUとGPU間のデータのやりとりでオーバーヘッドが発生し、性能が上がらないという課題があった。そこで、ASUCAでは力学演算と物理演算の2つを直接GPUで演算するようにして、演算性能を大きく引き上げているのだという。

　また、青木教授はプログラムをNVIDIAのGPUコンピューティングで利用するプログラミングモデルであるCUDAへ移植するのに際し、当初はFortranで書かれていたプログラムをC/C++へと移植し、その後CUDAへと移植することで、容易に移植ができたと述べた。

　同じく東京工業大学松岡聡教授は、そのASUCAが実行されたスーパーコンピュータであるTSUBAME 2.0に関して解説した。2006年に作られたTSUBAME 1.0ではx86+アクセラレータで85TFLOPSを実現したのだが、その後徐々にバージョンアップし、今年(2010年)完成したTSUBAME 2.0では、NVIDIAのTeslaを利用することで2.4PFLOPSを実現。電力当たりの性能のランキングである「The Green 500」では、958.35MFLOPS/Wの性能を実現し、堂々の2位になったことなどが報告された。この際に、松岡教授からファン氏にThe Green 500で2位になった認定証が進呈されたが、これは複数コピーがあるとのことで、原本はちゃんと松岡教授の手元にあるそうだ。


並列コンピューティングは、新薬開発、自動車の空力開発、医療、天気予報などさまざまな分野で利用され始めている	東京工業大学青木尊之教授	ASUCAでは、演算のほとんどをGPUで行なう仕組みを採用

プログラムの移植もCUDAを利用することで、より容易に行なえた	ASUCAを利用することで、こうした巨大な台風のシミュレーションもリアルタイムで行なえるようになる	東京工業大学松岡聡教授

TSUBAMEの歴史、2010年11月に発表された最新のThe Green 500で世界第2位を実現	松岡教授からファン氏に、The Green 500の認定証が渡される、なおこれはコピーとのことだ	TSUBAME 2.0の特徴

●スーパーコンピュータはメインストリームへ、産業界へと浸透していく

　ファン氏は「我々の世代はコンピュータを使うためにコンピュータを使った。しかし、今はコンピュータを設計するためにコンピュータを設計する」と述べ、プロセッサの回路設計などにはコンピュータによるシミュレーションが欠かせないと指摘した。その上でNVIDIAでの例として、85%のコンピューティングリソースが回路設計などのテクニカルコンピューティングに利用されていることを挙げ、「これまでスーパーコンピュータは政府や研究機関などでしか利用されてこなかったが、今後は石油会社、ガス会社、金融関連、自動車メーカー、メディア企業などさまざまな産業界で必要とされる時代になっている。今後スーパーコンピュータはメインストリームになるだろう」と語った。

　そうしたスーパーコンピュータがメインストリームになる時代の選択肢として、従来のCPUだけのソリューションではなく、CPU+GPUというソリューションが求められているのだとファン氏は指摘する。その何よりの証拠が、TOP500と呼ばれるスーパーコンピュータのランキングの上位にTeslaを搭載した製品が来ていることだ。「11月に発表されたTOP500の上位5つのうち、3つにTeslaが採用されている。そしてもう1つ大事なことは電力効率で、CPUだけのソリューションであるシステムに比べて、Teslaを採用したシステムは電力効率が良い」と強調した。

　さらにファン氏はTeslaで利用できるアプリケーションの例としてLinXのHalcon、Amazon Web Service、AZEのAZE VirtualPlace FORMULAなどのデモを紹介していきながら、すでにTeslaで利用できるアプリケーションも多数揃っていると強調した。


さまざまな産業でシミュレーション技術に大きな注目が集まっている	NVIDIAの例でもプロセッサ負荷のうち85%が回路シミュレーションなどのテクニカルコンピューティングである	スーパーコンピュータがメインストリームに。CUDAによりスーパーコンピュータの低価格化が起こり、一般的な産業でも導入が進むという

独自のソリューションは、汎用のソリューションが出てきたときに駆逐されるという例。スーパーコンピュータの世界でも、IntelがSSEを導入したあとでは、みなx86ベースへと置き換わっていった	現時点ではCPU+GPUの組み合わせが最強である	11月に発表された最新のTOP500では、上位5位までのうち３つのシステムがTeslaベースだった(緑のバー)

消費電力を見てみると、CPUだけのシステムは消費電力が高いが、Teslaベースのシステムは消費電力が低く抑えられている	東工大のTSUBAME 2.0を筆頭に、電力効率ではTeslaが優れていることがよくわかる	CUDAがより普及してきているということを示すスライド


LinXの産業用画像認識ソフトウェアのHalconの例。GPUを利用することでCPUだけの場合に比べて23倍高速だという	AZEの医療用画像解析ソフトウェアのAZE VirtualPlace FORMULAを利用した例、GPUを利用することで20倍高速になる


米国Amazonが提供しているAmazon Web ServiceでGPUを利用する例。このようにWebベースでGPUが有効の仮想マシンをマウントし、実際に演算に利用できる

●2018年までに新アーキテクチャ“Echelon”を開発、Fermiの100倍の性能を実現

　最後に、ファン氏は9月に行なわれたGTC 2010で公開した今後のロードマップについて触れ、2011年中にFermiの後継としてKeplerを、2013年中にMaxwellをリリースする予定であることを繰り返し述べた。

　また、先日米国で行なわれたSupercomputing 2010で新たに公開されたEchelon(エシュロン)と呼ばれる取り組みに関して説明を行なった。Echelonは、NVIDIAが開発中の次世代のコンピュータアーキテクチャで、今後8年以内の実現を目指して開発が進められているという。チップ単体で10TFLOPSの性能を実現することを目指しており、実現すれば現行製品であるFermiの100倍の性能を実現することになるという。

　最後にファン氏は、「我々にとって日本市場は非常に重要なマーケットだ。日本はテクノロジーを愛する人がそろっており、新しい市場を切り開いていく場所でもある。我々はこれまでも日本のゲーム開発者とも協力してユニークな製品を送り出してきた、これからもそうした関係を続けていきたい」と熱く語りかけ、講演をまとめた。


GTC 2010でも公開されたTeslaのロードマップ	現在NVIDIAが開発を進めているEchelonでは10TFLOPSというFermiの100倍の性能を持つシステムが実現する。今後8年以内に投入すべく開発中とのこと

(2010年 12月 2日)

[Reported by 笠原一輝]