イベントレポート
深層学習で新しいGPUのユーセージモデルを開拓するNVIDIA
~“Pascalの深層学習性能はMaxwellの10倍”とフアンCEO
(2015/3/18 11:58)
NVIDIAは、GPUソフトウェア開発者向けイベントとなるGTC(GPU Technology Conference)を、3月16日~20日(現地時間、以下同)の5日間に渡り、アメリカ合衆国カリフォルニア州サンノゼ市のSan Jose McEnery Convention Centerにおいて開催している。2日目となった17日の午前9時から、CEOとなるジェン・スン・フアン氏による基調講演が行なわれ、この中で「GeForce GTX TITAN X」を発表した。
今回の基調講演で、フアンCEOを深層学習(英語でDeep Learning)をキーワードとして盛んに取り上げ、深層学習のSDKの「DIGIT(ディジット)」と、その開発環境となるシステムとなる「DIGITS DevBox」を提供していくことを明らかにした。
加えて、来年(2016年)にリリースを予定している次世代GPU「Pascal(パスカル)」の性能について、「深層学習の用途では、Maxwell世代に比べて10倍の性能向上が実現できる」とした。
深層学習を大きなテーマに据えた基調講演
基調講演の冒頭で、フアンCEOは「今回の基調講演では4つのテーマの発表がある。新しいGPU、非常に高速なSDK、新しいロードマップ、そして自動運転車だ。すべてが深層学習に絡んだ発表になる」と述べ、今回のGTCは深層学習が大きなテーマであることを強調した。
実際、今回のGTCにおいて、3日目(18日)に行なわれるGoogle、4日目(19日)に行なわれるBaiduの基調講演は、いずれも深層学習がらみとなっている。
深層学習とは、言ってみればコンピュータが、複数の事象の組み合わせを考慮し、自律的に学習していく仕組みのこと。“ニューラル・ネットワーク”と呼ばれる人工知能を構築していくことで、人間の脳が認識する仕組みと同じような形で学習が行なわれていく。今後、自動車が自動運転をしたり、ロボットが自律的に動くなどの機能を実装していくことになると、人間の脳と同じような働きを、コンピュータが果たさなければならない。この深層学習学習が、GPUのキラーアプリケーションの1つになると考えられており、現在大学やソフトウェア企業などで盛んに研究開発が行なわれている。
では、なぜGPUが深層学習に向くかと言うと、深層学習の処理そのものが並列演算(ベクトル演算)の塊のようなモノだからだ。つまり、CPUより並列演算が得意なGPUに向いた処理だ。今後研究がさらに進んでいけば、もっと高速に処理したいというニーズが高まってくることは確実だ。NVIDIAとしてはそうした分野を狙っており、ゆえに今回のGTCのメインテーマを深層学習に設定したのだと考えられる。
世界最速のGPUになるとフアンCEO、3,072CUDAコアを内蔵したTITAN X、価格は999ドル
フアン氏が最初に発表したのは同氏が「世界最速のGPU」と表現した、GeForce GTX TITAN Xだ。GeForce GTX TITAN Xに関しては既に別記事で紹介されている通りで、GM200というダイを採用した最上位のGPUになり、80億個のトランジスタから構成され、製造プロセスルールは28nm、CUDAコアと呼ばれる演算器は3,072個というスペックになっており、12GBのメモリ、単精度浮動小数点演算で7TFLOPS、倍精度の浮動小数点演算で0.2TFLOPSというスペックが公開された。
フアン氏の講演では、Unreal Engine 4を利用したデモが公開されたほか、後述するNVIDIAの深層学習の開発キットを利用した深層学習における性能データが公開された。フアン氏は「16コアのXeonプロセッサを使った場合はに43日かかる深層学習の処理を、TITAN XでcuDNNを利用して最適化して行なった場合にはわずか3日で終了してしまう」と述べ、GeForce GTX TITAN Xが深層学習にも最適であるとアピールした。
フアン氏はGeForce GTX TITAN Xの価格は999ドル(日本円で約12万円)であると明らかにし、「わずか999ドルで、すべての深層学習の研究者が必要と訴えてきた大容量メモリと世界最速のGPUを搭載した製品が手に入る」と述べ、今回多く参加している深層学習の研究者に対してアピールした。
深層学習向けのSDKとなるDIGITSと開発環境DIGITS DevBoxを発表
フアン氏は、スタンフォード大学で深層学習を研究しているアンドレジェイ・カラパッティ氏の研究成果などを紹介しながら、「今後深層学習はさまざまな用途に応用が考えられる。例えばがん細胞の調査、新しい薬の効用の予想、ゲノム研究など医療の世界の研究に大きく貢献するだろう」と述べた。
その上で、同社が深層学習を研究する研究者向けの、DIGITSというソフトウェア開発環境を提供していくと説明した。DIGITSは、シングルGPUからマルチGPU、GPUクラスター、クラウドベースのGPUなど複数のレベルのGPUハードウェアをサポートし、Theano、Torch、Caffeなど一般的な深層学習の開発環境に対応。特にCaffeではCUDAやcuDNNなど、NVIDIAのGPUを利用したハードウェアアクセラレーションが利用可能になっており、従来よりも高速に演算することが可能になるのだという。なお、DIGITSは既にWebサイトからダウンロードして利用することができるようになっている(ただしCUDA開発者としての登録が必要になる)。
さらにDIGITSを利用して深層学習のソフトウェアを開発する研究者向けの開発環境として、DIGITS DevBoxをリリースすることを明らかにした。DIGITS DevBoxには4つのGeForce GTX TITAN Xが内蔵されており、CPUはIntelのCore i7(マザーボードはASUS X99)、最大で64GBのDDR4メモリ、最大3×3TBのHDD(RAID 5構成)+M.2 SATA SSD、1,500Wの電源などの構成になっており、DIGITSと組み合わせて利用することで、深層学習の研究などがより容易になると説明した。
DevBoxの販売は5月から開始予定で、価格は15,000ドル(日本円で約180万円)。
Pascal世代は深層学習を演算する際の性能が、Maxwell世代に比べて10倍になる
続いて、同社のGPUロードマップについて触れた。「昨年(2014年)のGTCではPascal、Voltaについて紹介した。Pascalに関しては、倍精度と単精度が混合された浮動小数点演算のサポート、3Dメモリ、NVLinkによるインターコネクトなどの特徴を紹介した。例えば、3Dメモリの導入によりメモリ容量は2.7倍になり、単精度と倍精度のミックスにより4倍の性能向上が実現され、メモリ帯域幅は3倍になる。それらを複合的に考えれば、特に深層学習時の性能はMaxwell世代に比べて10倍近くになると予想している」と述べた。
ただし、Pascal自体が2016年以降が予定されていることもあり、ロードマップそのものは昨年のGTC時点と変わってはおらず、特に今回もPascalの具体的な情報などに関してはアップデートがなかった。
そしてフアン氏は、1月のCESで発表した「DRIVE PX」と呼ばれる、Tegra X1を2つ搭載するコンピューティングモジュールと、深層学習を利用した自動車向けのソリューションに関して説明し、米国の電気自動車メーカー「テスラモータース」のCEO、イーロン・マスク氏を壇上に呼び、将来の自動運転車についてトークを繰り広げた。
最後にフアン氏は「今回のGTCは深層学習に集中したモノとなっている、NVIDIAにとってだけでなく、広く業界にとって重要な取り組みで、将来の進化にとって重要だ」と述べ、基調講演を締めくくった。