東大、1チップで512G FLOPSを達成する512コアプロセッサ
11月6日 発表 国立大学法人 東京大学は6日、1チップで512G FLOPSの浮動小数点演算が可能なアクセラレータチップ「GRAPE-DRプロセッサ」を発表した。 GRAPE-DRとは、研究者が“真に求めるシステム”を目指して「速く」、「安く」、「使いやすい」という3つの要素を融合したもので、2004年から2008年にかけて「GRAPE-DRプロジェクト」として研究されている。研究の具体的な目標は、2P(Peta) FLOPSのシステム、40Gbpsのデータ通信速度、関連アプリケーションの開発となっている。5年間の総予算は約15億円と非常に低予算である。
発表会では、東京大学 情報理工学系研究科の平木敬教授が、同プロジェクトの概要、新しく開発したプロセッサなどの説明を行なった。 今回発表されたGRAPE-DRプロセッサは、できる限り機能を絞って小型化したというコプロセッサを512コア搭載し、動作周波数500MHzで512G FLOPSの演算性能を1チップで実現。1チップで512コア、512G FLOPSは世界最高を達成し、また、消費電力は最大60W、アイドル時30Wで、こちらも汎用プロセッサとして演算速度当たり世界最低だという。 プロセッサは16の演算ブロック、共有メモリ、PLL(Phase Locked Loop)などの各モジュールで構成されたシンプルな構造。演算ブロックに32コアを内蔵し、32×16の512コアとなっている。1つのコアはレジスタ、加算(FADD)、乗算(FMUL)など、演算に必要な回路のみに切り詰めたという。演算の実行は、各コプロへのデータ分散作業、コプロでの計算、計算結果の回収、の3フェーズで行なわれ、各フェーズが重複して実行可能になっている。 プロセッサ自体は非常にシンプルなため、単体での運用ではなく、バスなどと接続し、データの受け渡しなどを行なう制御プロセッサをFPGAで用意。今回発表されたものはPCI-Xバス用のものだが、プログラム可能なFPGAを採用しているため、PCI Expressなど、より高速なバスへの移行も考えているという。このため、現行のPCアーキテクチャに追加する形で、強力な演算性能を持ったアクセラレータとして利用可能になっている。
浮動小数点の演算性能は、単精度で512G FLOPS、倍精度で384G FLOPSを達成。IBMとSonyが開発したCellは単精度256G FLOPS、倍精度25G FLOPSで、GRAPE-DRプロセッサが単精度で2倍、倍精度では約15倍となっている。また、ワット当たり性能も8.5G FLOPSで、ClearSpeedのCSX-600や、NECのSX-8を大きく上回る。これらが基本方式や命令セットなどを含め、すべて国産技術だということに大きな意義があるとした。 また、低コストなパーツで構成される汎用PCで利用できるプロセッサであることや、メモリの帯域幅を有効活用してメモリのコストも抑えているため、非常に低コストであるのも特徴。NECの「地球シミュレータ」クラスの演算性能はラック1本、費用は5,000万円で可能だとした。 プロセッサの開発に合わせて、スレッドの並列化や静的データフローを生成する「GRAPE-DR最適化コンパイラ」も開発中で、現時点では、基本的な最適化、C言語で記述されたソースを中間言語を介してGRAPE-DR用コードへの変換などが行なえるプロトタイプが動作中だという。
プロセッサのダイ(半導体本体)は17×17mmと小さく、基板へはBGA(Ball Grid Array)で実装。トランジスタ数は約3億。製造はTSMCの90nmプロセス。2006年度中には、同プロセッサ4チップ(計2T FLOPS)を1枚のボードに搭載したアクセラレータを製造するという。また、1枚当たり1T FLOPSを超えるアクセラレータボードを100万円を切る価格で出したいとした。 2008年に向け、2P FLOPSのGRAPE-DRシステム完成、コンパイラおよびシステムソフトの開発などを目標とした。GRAPE-DRシステムは、GRAPE-DRプロセッサを4,000個、512台の汎用PCクラスタとインターコネクトの構成を予定し、約40ラックで消費電力は500KW程度になるという。同時期に完成が見込まれているIBMのBlueGene/Pや、Roadrunnerなど、他のスーパーコンピュータの演算性能を上回り、TOP500の1位を目指したいと大きな目標を掲げた。 さらに今後、“予算ができれば”という条件付きだが、45nmへ微細化しトランジスタ集積度を高めた、より演算性能の高いプロセッサを開発したいという。ただし、現時点ではスポンサーが見つかっておらず、50億円を出してもらえるスポンサーを募集中だとした。 会場では、GRAPE-DRプロセッサを搭載したPCI-Xバス用ボードを装着したPCで動作デモが行なわれた。デモで使用されたPCはOpteron 2wayシステムで、汎用PCで利用できることを示している。 □東京大学のホームページ (2006年11月6日) [Reported by yamada-k@impress.co.jp]
【PC Watchホームページ】
|