富士通、世界最速を目指した次期スパコンの開発状況を説明

SPARC64 FIIIfxを手にする奥田エグゼクティブアーキテクトと井上本部長

8月25日 開催



 富士通株式会社は25日、スーパーコンピュータへの取り組みを紹介する説明会を開催した。

 先端技術開発をはじめ、航空・宇宙分野、天文、気候といった科学技術計算分野で利用されることの多いスーパーコンピュータだが、厳密なスーパーコンピュータの定義はない。

富士通株式会社 TCソリューション事業本部 奥田基 エグゼクティブアーキテクト

 「定義は毎年変わってくるものの、感覚的なものだが、現時点では10TFLOPS以上の処理能力をもつコンピュータがスーパーコンピュータとされている」(富士通 TCソリューション事業本部 奥田基エグゼクティブアーキテクト)。

 現在、文部科学省が進めている次世代スパコン開発プロジェクトでは、10PFLOPSの世界最高性能級のスパコン開発が計画されている。10PFLOPSとは、1秒間に処理できる浮動小数点計算の数が1京で、参考例としては携帯電話の組み込みCPUが処理できるものが1GFLOPS(10億)、PCが20~50GFLOPS(200~500億)相当となっている。

 「10PFLOPSとは、仮に東京ドームの観客50,000人が1秒間に1回の割合で計算を行なったとしても、10PFLOPSの計算には6,400年間計算し続けることが必要となる。また、実際には計算以外にも計算後のデータをどのように集め、それを再計算するといった複雑な処理が必要となる。単純な計算作業だけであれば、グリッドコンピューティングで代替えすることも可能だが、ある計算結果を集計し、その結果を反映させた再計算を行なうといった作業はグリッドコンピューティングで実行するのは難しい。スパコンがなければ計算できない領域はまだまだ大きい」(奥田エグゼクティブアーキテクト)。

 性能進化のスピードは速く、この11年で1,000倍の性能進化を達成している。

 日本でのスパコン開発は、'90年代後半に米国優位だった状況を打破すべく攻勢をかけ、一時は日本製スパコンが世界でトップとなっていた時期もあった。しかし、その後は米国、欧州が国を挙げて戦略を変更し、積極的な投資を行なった結果、現在の世界ナンバー1は2008年6月、世界で初めて1PFLOPSを超える性能を実現したIBMのRoadrunnerとなっている。このマシン以外も米国勢が強く、世界ベスト10のうち3位、10位のドイツ製以外は全て米国製となっている。

スーパーコンピュータの定義次世代スパコンに必要とされる10PFLOPSをPCや携帯電話搭載のCPU性能と比較スパコン性能の歴史
現在のスパコン性能 世界トップ10世界トップ500スパコンの開発国、製造ベンダー比較。富士通はHP、IBMから大きく遅れて8位世界トップ500の国別比較。最近では日本の低迷が顕著であると同時に中国の台頭が目立っている

 富士通では'77年からスパコン開発に取り組み、ベクトルコンピュータの高速方式をスカラプロセッサでキャッチアップし、現在ではスカラSMP型スパコンを開発している。富士通製スパコンの特徴は、自社開発のSPARC64 CPUを搭載したシステムを数千から数万個接続した超並列結合システムで、CPU以外にもシステム、ソフトウェアまで全て自社開発している。

富士通のテクニカルコンピューティング用プラットフォームラインアップ富士通の主なスパコン導入実績
富士通の取り組み現在の富士通のスパコン

 現在開発に取り組んでいる次期スーパーコンピュータは、(1)高性能の追求、(2)高信頼性の追求、(3)低消費電力の追求を課題としている。

富士通株式会社 次世代テクニカルコンピューティング開発本部長 常務理事 井上愛一郎氏

 これは、「現行の国内最高性能レベルのスパコンである地球シミュレータを単純に10PFLOPSにスケールアップした場合、設置面積は約162万5,000平方mと建物としては実現が難しい規模の面積、消費電力はストレージや空調を含まないで37MWと全体では火力発電所並の高消費電力が必要となり、部品数の多さから故障率も大幅に高くなることが想定される。実際の次世代スパコン開発には、こうした技術的な壁を乗り越えて10PFLOPSの性能実現が必要となる」(富士通 次世代テクニカルコンピューティング開発本部長・井上愛一郎常務理事)という現状があるためだ。

 CPUとしては、富士通フォーラムでも展示した世界最速の「SPARC64 VIIIfx」を採用。このCPUは理論性能128GFLOPS、45nmテクノロジの1CPU 8コアとなっているが、独自開発要素技術「Integrated Multi-core Parallelアーキテクチャー技術」を搭載したことで、さらに高い実効性能を追求している。

 「この独自開発技術は、8個のコアを高速な1つのCPUとして扱う仕組みで、ハードウェアバリア機構、共有キャッシュ、コンパイラ技術を組み合わせることで実現している。ハードウェアバリア機構とは、ソフトを介入することなく、ハードだけでコア間の同期を実現することで、約10倍の高速化を実現している。その結果、LINPACKベンチマークにおいて、SPARC64VIIで実装して実行効率91.19%を実現した。これはソフトからハードまで全てを自社開発しているからこそ実現できた技術だといえる」(井上本部長)。

 また、1つの命令で複数の演算を並列処理するSIMD(Single Instruction, Multiple Data)については、SPARC64 VIIIfxでは1命令で2つの演算の並列処理を実現するなどの特徴によって、1つのコアで8個の演算処理を同時に実行可能としている。その結果、計算処理の高速化とユーザーが使いやすいSIMDを実現している。

世界最速を達成した SPARC64 VIIIfxSPARC64 VIIIfxに搭載されているIntegrated Muti-core ParallelアーキテクチャーSPARC64 VIIIfx のSIMDの特徴

 浮動小数点レジスタ拡張については、レジスタ数を32個から8倍の256個へ大幅に拡張したことで、計算処理の高速化を実現した。

 セクターキャッシュについては、キャッシュを2分割し、繰り返し利用するデータと一時的に利用するデータを別々に格納し、分割するキャッシュサイズをソフトウェアから制御可能としたことで、キャッシュミスを削減して、計算処理の高速化を実現した。

 希に起こる宇宙線の衝突などによるデータエラーに対しては、SPARC64ではハードによるエラー検出によって自動修復することを可能とすることで、「他社のCPUに比べ広範囲でのエラー対応を実現している」(井上本部長)という。

SPARC64 VIIIfxの浮動小数点レジスタ拡張SPARC64 VIIIfxのセクターキャッシュCPUのエラー検出・修復機能

 システム実装における冷却技術としては、「温度を10℃下げれば半導体の寿命は約2倍向上する」というアレニウスの法則に則り、水冷方式を採用し、発熱体近傍まで冷水を敷設して部品と冷媒の温度差を高く維持するなど、部品寿命を向上させて、故障率低減を実現した。

 電力削減としては、水冷方式によるリーク電流の削減と、設計プロセス見直しによる消費電力削減を極限まで追求し、従来のCPUに比べ消費電力削減を実現している。

システム実装・冷却技術CPUの電力削減

 こうした性能向上により、世界トップ10入りを目標の1つとしているものの、「世界トップ10に名を連ねるスパコンを見ると、高スコアだけを狙ったものもあるが、我々が開発している次期スパコンは特定アプリを速く動かすことではなく、あくまでも汎用性をもったものの開発を目指している」(井上本部長)と実用を意識した製品開発を行なっている。

 これはスパコンを活用するのが科学技術計算に留まらず、車対車の衝突解析や、医療分野でのシミュレーションなど産業界に広がっていることも配慮したもの。

 「今後は、ハードウェア販売だけでなく、クラウドのような使い方を提供することもビジネスとなっていくのではないか」(奥田エグゼクティブアーキテクト)と分析している。

(2009年 8月 25日)

[Reported by 三浦 優子]