【GTC 2010レポート】Dellが外付け型GPUのベンチマーク結果を紹介
~Super Microは自社のGPUソリューション

Dell Advanced Systems Group, HPC Computer ScientistのMark R.Fernandez氏

会期:9月20日~23日(現地時間)
会場:米国カリフォルニア州サンノゼコンベンションセンター



●Dellが外付け接続と独立接続の性能差をベンチマークで紹介

 GTC 2010のテクニカルセッションにおいて、イベントのスポンサーであるDellがテクニカルセッションを設けた。ここでは、独立したPCI ExpressスロットにGPUを接続した場合と、外部のユニットに接続した場合の性能比較を紹介した。

 独立したPCI Expressスロットへの接続というのは、マザーボード上にあるPCI Express x16スロットそれぞれにGPUを接続することだ。チップセットの仕様によってはPCI Express x8などにレーンが制限される場合もあるが、本セッションでは各GPUがチップセットとPCI Express x16で接続された状態を想定している。

 一方の外付け型は、NVIDIAが提供するTesla Sシリーズのようなスタイルだ。GPUと電源、ホストとのインターフェイスコントローラなどを搭載したシャシーに複数枚のGPUを内蔵。それをホストPCに接続するものである。そのため、Tesla Sシリーズは、1つのPCI Express x16を2基以上のGPUで共有することになる。メリットは、独立したPCI Expressインターフェイスに接続することにより、限られたスペースに多数のGPUを詰め込めることだ。

 そうしたソリューションとしてDellが提供するのが「PowerEdge C410x」である。7月に日本で行なわれたNVIDIA主催のイベントGPUコンピューティングでも8月のリリースが予告された製品で、3Uのサイズに最大16基のGPUを搭載可能。各GPUの消費電力は250Wまで対応できる。C410xはホストとGPUの間に最大4台を接続可能なスイッチチップを搭載し、各GPUをPCI Express x16で接続する。スイッチチップを使うことでホストとGPUの間はPCI Express x16で接続されるのがポイントになるとしている。

 ホストの台数や、接続するGPUの数を柔軟に変更できることは、性能においても重要なポイントとして挙げている。C410xでは最大で8基のホストコンピュータを接続できるが、例えば、GPU 2基とホスト1台であれば、ホストとGPUを1対1で接続することができる。GPU 4基とホスト4台でも比率は1対1、GPU 4基とホスト2台なら比率は2対1となる。1対1で接続した場合は、外付け/内蔵という違いはあるが独立したPCI Express x16と同じようなスタイルになる。

 このようなホストとGPUの比率を柔軟に設計するためのホストとして、Dellでは「PowerEdge C6100」を勧めている。C6100は2Uのスペースに独立した4ノードを収納可能。各ノードのCPUソケットは2基で、12DIMMを装備。各ノードの最大メモリ容量は96GBとしている。

 C410xとC6100を組み合わせると、例えばC6100を2台(2U×2)とC410x(3U)を組み合わせると7Uのスペースに最大で8ノード、16GPUを備えることができる。この場合はGPUとホストの比率は2対1だ。C410xに搭載するGPUを8基に留めれば1対1の比率にできる。

PowerEdge C410xの概要。3Uラックに16基のGPUを搭載可能なシステムC410xのPCI Express x16 Gen2モジュール。PCの拡張スロットでいうと約2スロット分の幅となっており、パッシブクーラーのほか、ダクト状にしたアクティブクーリングも可能ホストとして推奨しているPowerEdge C6100の概要。2ソケットのノードを、2Uのスペースに4基搭載できる
PowerEdge C410x本体。この写真は裏面側となる。シャシーの上に載っているのが各GPUのモジュールGPUは最大16基搭載可能で、フロント側に10基、バック側に6基が搭載される格好となるDellが推奨するC6100×2基でC410x×1基を挟み込む構成の場合、ノードが最大8基となるので、C410xに搭載するGPUの数に応じてGPUとCPUの比率を柔軟に設計できる
ホスト1基の場合の接続例。1GPUの場合は独立したPCI Express接続に似たスタイル、2GPUの場合はTesla Sシリーズに近いスタイルになるホストの数を増やせば、1ホスト当たりに接続されるGPUの数が変化してパフォーマンスにも好影響を与えることを説明したスライド

 さて、本セッションの本題である、独立したスロットへのGPU接続と外部のユニットに接続した場合の性能差は、各種ベンチマークの結果が示された。ここでは、外付け接続がC6100×1にC410xにGPU 2基を接続した構成(GPUとホスト比は2:1)と、GPUコンピューティングのソリューションとしてデファクトスタンダードの地位を築きつつあるSuper Microの2GPU搭載モデルを比較している。つまり、1つのPCI Expressインターフェイスに2基のGPUを接続する外付け型と、独立した2基のPCI ExpressインターフェイスそれぞれにGPUを接続する構図となる。

 結果は2GPU対2GPUの比較では、ベンチマークソフトによっては6~10%程度の差が開いてしまうことがあることが提示された。ほとんど差がないベンチマークもあるが、少なくとも、まったく影響がないとは言い切れない結果になっている。ただ、先述のとおりC6100とC410xの組み合わせならノード(ホスト)の数を柔軟に設計できる。ノードの数を増やすことでPCI Express x16とGPUを1対1で接続することも可能になるのである。

ベンチマークの測定に使われたシステムの概要。インターフェイス以外はOSのカーネルが若干異なる程度。カーネルの差は影響がほとんどないとしている使用されたベンチマークソフトの概要ベンチマーク結果。2GPU同士の比較ではPCI Express 1つに2基のGPUをつなぐことの悪影響が表れているが、4GPUへスケールアップすることで性能を伸ばすことができる利点を強調した

 さらにGPUの数だけを増やせる外付け型の利点として、4GPU対2GPUという比較の結果も提示。その結果、2GPU同士では独立接続環境に劣っていた環境でも、スケールアップしていけるベンチマークが多いことが示されている。

 このほか、フルハイトブレードである「PowerEdge M610x」も紹介。こちらはCPU 2ソケットのノードにPCI Express x16スロットを2基装備。この2スロットへの電力供給は、1枚なら300Wまで、2枚なら250Wまで供給が可能。

 2つスロットを設けることでGPUだけでなく、PCI Express接続のストレージなども接続できる。ちなみに2スロットは隣接しており、NVIDIAが提供するTeslaには現状で2スロット占有型のクーラーを備えたものしかないため、1枚のGPUを接続するともう1つのPCI Expressスロットが埋まってしまうことになる。この点について確認すると、現在1スロットに収まる形状のGPUソリューションを開発中とのこと。これが実現すれば、GPUとストレージを接続可能になる。

PowerEdge M610xの概要。2CPUソケットノード、PCI Express Gen 2×2の構成。メザニンカードなどを利用しなくても2スロットのPCI Expressを備えることをアピールしたPowerEdge M610x。写真にはパッシブクーラーのTeslaが搭載されているが、将来的に1スロットTeslaを開発し、2スロットを有効活用できるようにするとのこと

●Super Microが将来製品を予告

 先述のDellのセッションでもデファクトスタンダードとして比較対象に挙げられたSuper Microも、GTC内でテクニカルセッションを設けている。

 登壇したDon Clegg氏はホワイトボックスのチャネルサーバ市場においてナンバーワンのシェアであることをアピール。同社の強みとしていくつかの理由を挙げている。1つは製品のマーケットへの早期投入を挙げた。エンジニアの90%をシリコンバレーであるサンノゼに置くことで新しいテクノロジをマーケットへ早期投入。と、同時に、台湾に設けた拠点の活用によりコストの低下を図っているという。

 また、マザーボードやシャシー、CPU/GPU/メモリなどを組み合わせて利用できるビルディングブロックを構築している。これにより、顧客が求める用途へ最適化した製品を提供可能であることも売りとしてしている。

 セッションでは、スケールアップ、スケールアウトの観点から、同社が考える次のトレンドを紹介。スケールアップはノード当たりの性能を増していくという発想になるが、現在の現在の1Uに2 GPUや4Uに4 GPUから、1Uに4 GPU、3Uに8 GPUといった構成が主流になっていくと見ている。また、メモリ容量はノードあたり192~256GBから512GB~1TBになるとしている。

  スケールアウトはノードそのものを増やしていく発想となる。1ラックに2GPUのノードを42ノードを搭載する現在の主流に対して、4GPUを42ノードというスタイルに。そして、マザーボード上に10 Gigabit EthernetやQDRのInifiniBandを搭載することで、こうした機能をアドオンカードで追加することもなくなるだろうとした。

 さらにスケーリングのスタイルに関わらず、現在は1Uクラスではリダンダント電源が搭載されないケースが多いというが、今後は搭載が当たり前になっていくほか、ラック全体の電源/冷却の効率を考えた設計も重視されていくとしている。

 そして電力効率の向上は、さらにニーズが高まっている。数年前までのHPCはIntelのXeonやAMDのOpteronに代表される、コモディティなコンポーネントを用いて高性能化を進めたが、さまざまな場面で触れられているとおり、演算能力の向上とともに電力効率が低下していることを指摘。ペタフロップスへの挑戦期となる今後は、GPUに代表されるように用途に最適化された環境を用いることで、電力効率も改善させていくことをポイントとして挙げた。

 GTC 2010で紹介された同社のGPUソリューションは3製品。1Uサイズのシステムは、デュアルCPU環境に2基の独立したPCI Express Gen2スロットを持つもの。2Uサイズのシステムは、2つの完全に独立したノードを装着可能で、各ノードにCPUソケット2基とGPU用のPCI Express Gen2スロットを1基備える。4Uのシステムはタワー型としても利用が可能で、デュアルとしてラックに収納することもタワー型としても使用可能。4基のGPUを装着できる。

 さらに、詳細は非公開になっているものの、次世代の製品概要をスライドで紹介。7Uサイズのブレードサーバ、3Uサイズに8GPUを搭載可能なシステム、1Uサイズに4GPUを搭載可能なシステムの投入を予告した。

Super Micro Vice President & Business DevelopmentのDon Clegg氏Super Microはホワイトボックスのチャネルサーバ市場において近年急速にシェアを高めたさまざまなコンポーネントを組み合わせることで顧客の用途に最適化できることを同社の強みとして挙げた
1Uシステムは2ソケットCPUのマザーボードに2スロットの独立したPCI Express Gen2 x16スロットを備えている電力効率向上のニーズに関する話題で紹介されたスライド。TOP500スパコンのワット当たりの演算性能(MFLOPS)を緑のグラフで示している
2Uシステムはバックサイドに2基のノードを組み込むことができるもの。各ノードは2CPU+1GPUの構成となるタワー型としても4U型としても利用可能な製品。2CPU+4GPUの構成となる
詳細は公表されないが、将来製品を予告した

(2010年 9月 27日)

[Reported by 多和田 新也]