ニュース

東工大、省エネランキング二冠の油浸スパコン「TSUBAME-KFC」を解説

~TSUBAME 2.5は年換算1,000万円以上の電気料金削減

松岡聡教授
11月25日 実施

 東京工業大学学術国際情報センターは25日、20日(米国時間)に発表されたスパコンの電力当たり性能ランキング「Green 500」で、同大が開発した「TSUBAME-KFC」が1位を獲得したことについて報道関係者向けに説明会を開催した。

Green 500/Green Graph 500の認定証を披露する、(右から東京工業大学 理事・副学長の大谷清氏、同大学学術国際情報センターの松岡聡教授、同准教授の遠藤敏夫氏、同特任准教授の額田彰氏、学術国際情報センター長の佐伯元司教授

 冒頭挨拶を行なった東京工業大学 理事・副学長の大谷清氏は「TSUBAMEは過去にゴードン・ベル賞なども受賞しており、(今回のGreen 500の1位獲得は)継続的な開発の成果と言える」と実績を評価。また、9月から運用を開始したTSUBAME 2.5に対しては、同氏が財務も担当していることから「効率的なスパコンとは言え、年間の電気料金は1億円を上回るので関心を寄せざるを得ない。TSUBAME 2.5でありがたいのは性能が2.4倍上がったのに消費電力が下がったこと」とコメント。TSUBAME 2.5が運用を開始して以後、9~10月の実績で前年度比10~15%の電気料金削減を達成しているという。

 このほか、「TSUBAME 2.5は、大学の研究者だけでなく、オープンに広く使ってもらえることが一番誇れる点。TSUBAMEを通じて世界とさらに戦える研究水準への引き上げや、企業にとって新しい製品やサービスの開発に役立ってもらえればありがたい。」とし、今回の受賞は日本にとって意味のあるものとした。

 TSUBAME 2.5およびTSUBAME-KFCの開発に携わった同大学学術国際情報センターの松岡聡教授は、TSUBAME-KFCおよびTSUBAME 2.5の概要と、今回の受賞について説明。

 スパコンの性能ランキングとしては、「TOP 500」が広く知られているが、CPU内部の演算が重視されるLINPACKの性能では、メモリやI/O周りなどの性能を反映せず、実際のアプリケーションを走らせると遅い、もしくは消費電力が増すといった問題が提起されていることを紹介。

 これに対して、LINPACK実行時の平均性能を、平均消費電力で割り、1演算当たりの消費電力を指標に用いる「Green 500」というランキングが2007年から開始された。

 また、スパコンがクラウドに適用されることを想定し、ビッグデータの処理についての性能を測定する「Graph 500」が2010年から開始されたほか、同じくGraph 500の性能を平均消費電力で割る「Green Graph 500」が2013年に開始された。

 今回、TSUBAME-KFCが1位を獲得したのは、性能当たりの電力効率を示す、Green 500とGreen Graph 500の2つで、日本のスパコンが両賞で1位を獲得するのは初めて。また、Green Graph 500は2回目のランキング発表となることもあり、両賞で二冠を達成したのは世界で初めての快挙となる。

 松岡氏は「TOP 500は(演算コアをたくさん詰め込んだ)どのぐらい大きいマシンを作れるかで決まるランキングになっているが、Green 500は技術のランキング」であるとし、TSUBAME-KFCで数々の革新的な技術を、実験的に導入していることを紹介。

 ちなみに、スパコンは並列計算によってパフォーマンスを向上させてきたが、一定のところで、これ以上大きいマシンを作れないというポイントに達する。その足かせとして電力やコスト、信頼性といった要素が上げられるが、最も注目されているのが電力であるという。

 実際、TOP 500で1位を獲得した中国の「Tianhe-2(天河二号)」は20MW(メガワット)、日本で検討されている次世代のエクサスケールスパコンは40MW程度が予想されているという。この40MWという数字は一般家庭でいえば1万~2万件に相当し、東京電力管轄でもっとも電力消費が多い東京大学や東京ディズニーランドは震災前で50MW、震災後には30~40MWへ減っているとのことで、スパコン1台で消費する電力がいかに大きいかが分かる。

 東工大では2016年に、初代TSUBAMEの1,000倍の電力効率を達成するという目標を掲げており、そのための技術改革を推進。文部科学省より予算が下り「ウルトラグリーン・スパコン」のテストベッドとなるTSUBAME-KFCを開発した。

TSUBAME-KFCのGreen 500/Green Graph 500での二冠達成や、TSUBAME 2.5のTOP 500/Green 500での健闘が、Supercomputing Conference(SC)13での成果
スパコンの性能向上において、大きさの限界を決める要素として電力がクローズアップされている
TSUBAME-KFCの研究では、協力する米GRCの油浸冷却プロトタイプで予備実験を重ねた
一方のTSUBAME 2.0についても、GPUの変更を中心としたバージョンアップにより1年半ほど寿命を延長。
TSUBAME 2.0から2.5への性能アップの例。ゴードン・ベル賞を受賞したシミュレーションの例では、およそ7割増
こちらは10平方kmのエリアを1mスケールのグリッドにし、大気をシミュレートさせたもの。GPU数が違う結果なので注意を要するが、2倍に近い性能を発揮している
アプリケーションにもよるが、TSUBAME 2.0から2.5へ変更することで1.7~3倍程度の性能アップが見られたという
2016年に向けて、より高性能で電力効率の高いTSUBAME 3.0の開発を進める
そのテストベッドとして導入された油浸冷却システム採用のTSUBAME-KFC
TSUBAME 3.0はTSUBAME 2.5に対し演算性能の電力効率で20倍、メモリ帯域幅で13.7倍を目指し、メモリ帯域幅当たりの電力効率はエクサスケール時代のそれに近づく
遠藤敏夫准教授

 TSUBAME-KFCの特徴については同准教授の遠藤敏夫氏が説明。TSUBAME-KFCの最大の特徴は、以前に説明があった通り冷却媒体としてオイル(油)を使い、システムを丸ごと油に浸した油浸冷却システムとなっている点だ。

 この油浸冷却システムには、米国のGreen Revolution Coolingと協力。同社が標準で使っているものは国内の消防法で危険物に相当するため、引火点が高い、危険物該当外の油を選定。その後も消防署などと協議を行ないながら開発を進めたという。

 内部では、システムが丸ごと油に浸かっている状態で油を循環する。システムからの熱を奪った油は、水冷式の熱交換器で冷やされる。この熱交換器によって水が奪った熱は、屋外の冷却システムで冷却する、という仕組みになっている。今後、さらに、この熱を回生エネルギーとして活用することも考えられているという。

 冷却は、外気温や湿度などに影響されることから、今後通年でさまざまなデータを取得。気温26度の空冷よりも、28度の油を冷媒とした方が冷えるといったデータや、半導体温度が低くなることでリーク電流が減少し、システムとして消費電力の削減にも繋がっているなどの、現時点で得られているデータも紹介した。

 また、システム全体電力のうち、IT機器電力がどのぐらいかを示すPUE(Power Usage Effectiveness)という指標も紹介。システム全体電力をノードなどのIT機器が消費する電力で割った値で、システム以外の電力が少なければ「1」に近づき、より効率の良いマシンとなるもの。この指標で、TSUBAME 2は年間平均1.3程度であったに対し、TSUBAME-KFCは、1.15という数字になっている。ただ、油を冷却するための水ポンプの電力が想定よりも大きくなっているため、今後改善を計画しているという。

 一方、ノードは2CPU/4GPUのシステムを40基搭載。グリスの代わりに金属シートを用いたり、冷却ファンを完全に排除するなど、油浸向けに設計されたものとなる。

 またアーキテクチャ面では、TSUBAME 2.5がCPU:GPU比が2:3であるのに対し、TSUBAME-KFCは2:4へ変更されている点や、CPUがWestmereからIvy Bridgeへ変更されている点などを紹介。

 これらのハードウェアに加え、GPUクロックや電圧のチューニング、LINPACK実行時のパラメータを入れ替えるなどさまざまなテストを繰り返し、先述のような結果に繋げた。

 今後については、すでに表明されている通り、TSUBAME 3.0の開発を継続。2016年を目標にTSUBAME 2.0に対して20倍の電力性能、メモリ帯域幅で13.7倍ほどを目指すとしている。メモリ帯域幅の電力性能については、エクサスケール時代に近いレベルを達成することを目標に掲げており、これから3年ほどで、現在のTSUBAME 2.5/KFCからたどり着けるのを課題としている。

 松岡氏は「KFCの成果を、我が国のスパコン開発に繋げていきたい。また、波及効果としてデータセンターやIT分野に適用されればと考えている」と、世界トップを獲得した技術力で、リーダーシップを取っていく姿勢を見せている。

 また、TSUBAME 3.0については、複数のCPUやインターコネクト、メモリテクノロジなどの可能な組み合わせに加え、不揮発メモリの採用など新しいテクノロジの導入を検討しているという。特定のアーキテクチャ、製品を排除することなく検討を重ねており、かなり候補は絞られているという。「かなりアグレッシブなテクノロジを使ったマシンになる予定で、もう少し先に出てくるのではないかと見られていた技術も使われる予定」と期待を持たせている。

TSUBAME-KFCの概要。KeplerコアのTesla K20Xが計160GPU、Iyt BridgeコアのXeonが80コアなどで、理論演算性能は40ノード合計で210.61TFLOPSとなる
冷却媒体となる油は、国内の消防法に照らし合わせて、引火点が250度以上となる危険物該当外のものを選定した
熱交換器で冷やされた油を、システムの手前側から奥方向へ油を送出。システムから熱を奪った油を再び熱交換器へ排出する
通常のグリスではコンパウンドが油に溶け出すために金属シートを用いるなど、ノードにも油浸のための設計を施した
外気環境とシステムの冷媒に対する影響
ノード内部の温度。気温26度の空冷時よりも28度の油冷の方が冷え、さらにシステム消費電力も下がる結果になっているという
システムにおける、IT機器分の電力を示すPUEは、1.15という値に。水ポンプの消費電力削減を計画している
各計算ノードやスイッチで電力を1秒単位でサンプリングする測定システムを搭載
TOP 500/Green 500に当たってはさまざまなパラメータで繰り返しテストを実施
Green 500で1位を取るために有効だった、ソフトウェア面でのチューニングやハードウェア設計のポイント
LINPACK中の消費電力推移グラフ
TSUBAME-KFC
東京工業大学学術国際情報センター(情報棟)の脇にある、TSUBAME-KFCを収納したコンテナ。手前に見えるのが水のための熱交換器
コンテナ内部。手前がTSUBAME-KFC本体で、奥に見える白いボックスが油のための熱交換器
TSUBAME-KFC内部。油に完全に浸かっていることが分かる。揮発性は低いものの、多少は蒸発していくそうだ
使用されているオイル
右側がTSUBAME-KFCシステム、左側が熱交換器。黒いパイプがシステムと繋がれて油が流れており、銀色のパイプは水が通っており屋外の熱交換器へ接続されている

(多和田 新也)