Intel、HPC向けコプロセッサ「Xeon Phi」を2013年1月より一般向けに出荷開始

Knights Connerのコードネームで知られてきたXeon Phi コプロセッサ 5110Pのダイ

11月13日 発表



 米Intelは、“Knights Conner”の開発コードネームで開発してきたHPC(High Performance Computing)向けのコプロセッサ「Xeon Phi」(ファイ)を、2013年1月28日(米国時間)より一般向けに出荷開始することを明らかにした。

 HPC市場では、GPGPU(General Purpuse GPU)といわれるGPUを演算用に利用する方式が一般的になりつつあるが、IntelのXeon Phiはグラフィックス表示に必要な機能(ラスタライザエンジンやディスプレイ出力、ビデオ再生エンジンなど)は搭載されておらず、純粋にHPC用の演算器に特化した形として開発されているのが、ライバルとなるNVIDIAのTeslaシリーズとの大きな違いになる。

 GPUを武器に先行するNVIDIAのTeslaが、新しいプログラミングモデルであるCUDAを利用するのに対して、IntelのXeon Phiはx86プロセッサが60個近く内蔵されたメニーコアプロセッサとなっており、現在のx86プログラムにわずかな変更を加えるだけで、簡単に対応プログラムを作れることが大きな特徴となっている。

●専用プロセッサからx86、そしてGPGPUへと変遷していったHPC市場

 HPCとは、科学演算や医療シミュレーション、油田開発シミュレーションといった膨大な演算能力を必要とする処理のことの総称だ。非常に大量のデータを処理するため、ベクター演算が可能なプロセッサ上で、複数のスレッドを並列に処理する手法で演算が行なわれる。

 例えば、自動車の開発には、空力効果の確認などに風洞と呼ばれる特殊な施設において風の流れを研究してボディの形を決めるが、風洞を利用した開発には多大なコストと時間がかかる。だが、現在はほとんどをシミュレーション上で開発し、ある程度の候補を作って風洞に持ち込むという手順を経ている。こうしたシミュレーションに、HPC用コンピュータが利用されているのだ。

 最近では“ビッグデータ”という言葉を耳にする機会が増えているだろう。ビッグデータとは従来のデータベースという概念では規定できない膨大なデータが増えており、それらをより詳細に解析することで、新しい市場動向の研究に使われている。そうしたデータの処理には、言うまでもなく膨大な処理能力が必要となるため、ここもHPCによる処理が期待される分野となる。

 そうしたHPCは元々、スーパーコンピュータと総称されるようなベクター演算が得意なプロセッサを搭載した大型コンピュータが利用されていた。例えば、IBMのPOWER、IntelのItanium、Sun Microsystems(現Oracle)のSPARCなどがその代表例で、いずれもPCなどに使われるプロセッサとは値段の桁が違う高価なプロセッサだった。

 しかし、2000年代に入り、いわゆるx86プロセッサの性能が上がっていったこともあり、サーバー向けのx86プロセッサ(IntelのXeonやAMDのOpteron)などがこれに変わって採用され、x86プロセッサを搭載したコンピュータをクラスタ(集合体)として相互接続してスーパーコンピュータのように利用することが一般的となった。理由は言うまでもなくコストで、PCやPCサーバー向けのx86プロセッサはスーパーコンピュータ用のプロセッサに比べれば圧倒的に安価だったからだ。

 そして近年注目を集めてきたのが、GPGPUのソリューションだ。GPGPUとは、本来グラフィックス処理に利用するGPUの内部演算器のベクター演算性能が高性能であることに目をつけ、それをHPC用途に使おうという試みが2000年代後半頃から一般化していった。NVIDIAのCUDAなどのGPGPUを利用できる新しいプログラミングモデルが登場し、XeonやOpteronに比べてGPUのベクター演算性能が高かったこともあり、この方式が急速に普及していったのだ。NVIDIAが発売したTeslaシリーズは、瞬く間にHPC市場において多くの市場を獲得していった。

●GPUのLarrabeeからHPC専用コプロセッサのKnights Ferry、そしてXeon Phiへ

 Intelもこうした市場の変化に手をこまねいて見ていたわけではないが、すでにハイエンドの単体GPUという武器を持っていたNVIDIAやAMDとは違い、Intelはプロセッサ内蔵用のメインストリーム向けGPUこそ持っていたが、GPGPUにも転用可能な単体型GPUを持っていなかったため、この市場への対応は若干遅れてしまった。

 IntelがHPC市場でのGPGPUへの対抗策を公式に示したのは、2008年春に北京で行なわれたIntel Developer Forum 2008だ。この時Intelは開発コードネーム“Larrabee”(ララビー)と呼ばれるGPUにも転用できるメニーコアプロセッサの計画を公表した。Larrabeeの特徴は、Pentiumクラスのスカラー演算器とベクター演算器を持つコアが多数搭載されており、x86命令セットでハイパフォーマンスの並列演算処理が行なえること、さらにはグラフィックスの処理が可能なハードウェア(ラスタライザやディスプレイエンジンなど)を搭載していたことだ。これにより、マルチスレッド化されたx86命令の処理や、ベクター演算器を利用してのグラフィックスの処理などが可能になっていた。つまり、NVIDIAやAMDのハイエンド向け単体GPUと競合できるだけの性能と機能を備えていた、ということだ。

 しかし、Larrabeeは、開発の遅れなどもあり結果的には市場に出荷されずに終わる。また、市場の環境自体も、単体GPUが存在し得ない方向へと移行しつつある。実際、IntelもAMDも、メインストリーム向けをGPU統合型プロセッサへ置き換えていくだけでなく、世の中全体がWindows/MacのPCからタブレットやスマートフォンへと軸足が移っていく中で、1チップのSoC(System On a Chip)へと移行していくのがトレンドとなりつつある。このため、今後単体GPUの市場というのが大きくなっていくというのが想像できない状況にある。

 そうした中で単体GPUと、そしてHPC向けの両方に使える製品として計画されたLarrabeeが製品化されずに終わったというのも納得できる話だろう。ただ、単体GPUとしては消滅したLarrabeeだが、HPC向けのプロセッサとしての市場は依然としてある。NVIDIAが今やGeForceと同じぐらいTeslaの市場を重視しているのと同じく、IntelにとってもHPC向けの市場が重要なのは依然として変わりが無いからだ。

 このため、Intelは2011年から開発コードネーム“Knights Ferry”(ナイツフェリー)と呼ばれるPCI Express拡張カードを、パートナーとなるソフトウェア開発者に提供し始めた。Knights FerryはLarrabeeをベースに開発された(つまりはLarabeeだけどグラフィックス機能は使わずグラフィックス周りを省略した形の)メニーコアプロセッサとなる“Aubrey Isle”を搭載した拡張カードになる。ソフトウェア開発者はXeonベースのHPCにKnights Ferryを追加して演算が可能になり、HPCアプリケーションの処理能力を向上させられる。なお、IntelではこのKnights Ferry以降、こうした並列処理のアーキテクチャをMIC(Many Integrated Core、マイク)と呼んでいる。

 ただし、Knights Ferryのプログラムは、あくまでソフトウェア開発者に向けたパートナープログラムで、実際にKnights Ferryの販売は行なわれていなかった。例えば大学など、HPCの研究を行っている研究者に提供されることが多く、ビジネスベースというよりは先行開発プログラムというのがKnights Ferryの位置付けだったのだ。そして、そのKnights Ferryの後継として計画されていたのが、“Knights Conner”(ナイツコーナー)の開発コードネームで呼ばれてきたXeon Phi コプロセッサ(以下Xeon Phi)なのだ。

●Xeonだけを利用した場合に比べて大幅な性能向上が期待できるXeon Phi

 Xeon PhiをIntelでは“Coprocessor”(コプロセッサ)と位置づけている。コプロセッサとは、メインのプロセッサ(一般的にはCPU)に加えてアクセラレータとして動作するプロセッサのことだ。Xeon PhiはPCI Express拡張カードの形状を取っており、Xeonなどのx86プロセッサが動作するシステムのPCI Expressスロットに挿入することで利用できる。PCI Expressカード上にはOS起動用のBIOSなどが搭載されていないため、あくまでメインのプロセッサとの組み合わせで利用する形になる。

 Xeon Phiには2つのラインナップが用意されており、5110Pと3100シリーズがそれに該当する。5110Pは60個のプロセッサコアで1コアあたり4スレッドの実行が可能、クロック周波数は1.053GHz、30MBのキャッシュ、8GBのGDDR5メモリ(5GHz、320GB/sec)を搭載。ピーク時の消費電力を示すTDP(熱設計消費電力)は225W、放熱機構はパッシブ(ファンレス、ヒートシンクのみ)を採用しており、倍精度時のピーク性能は1.011TFLOPSを実現している。

 これに対して、3100シリーズは放熱機構がパッシブとアクティブ(ファン有り)の2つが用意されており、28.5MBキャッシュ、6GBのGDDR5メモリ(5GHz、240GB/sec)、TDPは300Wとなる。現時点ではコア数/スレッド数などは発表されていないが、倍精度のピーク時性能は1TFLOPSを超えるとされている。いずれの製品もIntelの22nmプロセスルールで製造され、PCI Express x16(Gen2)でシステムと接続される。

  放熱機構 倍精度ピーク性能 最大コア数 クロック周波数 GDDR5メモリ速度 ピークメモリ帯域 メモリ容量 キャッシュ TDP 販売開始
5110P パッシブ 1.011TFLOPS 60 1.053GHz 5GT/sec 320GB/sec 8GB 30MB 225W 2013年1月28日
3100シリーズ パッシブ/アクティブ 1TFLOP以上 未公表 未公表 5GT/sec 240GB/sec 6GB 28.5MB 300W 2013年前半

 Intelは5110Pをまず2013年1月28日に発売し、3100シリーズに関しては2013年前半中の市場投入を計画している。1,000個ロット時の想定価格は5110Pが2,649ドル、3100シリーズは2,000ドル以下の価格が想定されている。

 IntelはXeon Phiを利用した場合のベンチマーク結果も公表している。デュアルソケットのXeon E5と比較した場合、単精度行列演算のSGEMMで2.7倍、倍精度行列演算のDGEMMで2.7倍、数学演算のLinpackで2.5倍、メモリ帯域のSTREAM Triadで2倍という結果を残しているという。なお、この結果はいずれもXeon Phiを単体で使った場合の結果で、実際の利用環境ではXeon E5も同時に演算に利用できるため、さらに数値が高まる場合があるとIntelでは説明している。

Xeon Phi 5110P Xeon Phi 3100シリーズのファン付き版
Xeon Phiには2つのSKUが用意されている。1月28日に5110Pが販売開始され、3100シリーズに関しては2013年前半中の投入が予定されている(出典:Intel) Intelが公開したXeon Phiのベンチマーク結果。Xeon E5とXeon Phi単体で演算したときの性能だが、Xeon E5を同時に利用すれば性能はさらに向上する(出典:Intel) 実アプリケーションにおける性能向上。LosAlamosやAccelewareなどで2.x倍の性能向上を実現しているほか、金融工学系のアプリケーションでは10倍を超える性能向上を実現(出典:Intel)

●x86プログラミングモデルをそのまま利用できるMICのソフトウェア開発

 IntelのMICアーキテクチャの最大の特徴は、プログラマーが慣れ親しんでいるx86のプログラミングモデルをそのまま利用できることだ。

 GPGPUの世界でも、例えばNVIDIAのCUDAを利用すれば、C言語などを利用してプログラムを作成できる。しかし、それでもCUDAについてはある程度の勉強をしなければならないため、そのハードルは決して低いわけではない。

 しかし、MICの場合には、すでにある程度並列処理が可能なプログラムのソースコードがあれば、そこにMICを使うコードを2〜3追加するだけで、すぐに演算を行なえる。Intelが示したプログラムのソースコードの例では、プログラムに並列実行の指示を追加し、Xeon Phiで演算するようにコンパイルを再度行なうだけでよいという。さらに必要に応じて、メインのXeonだけでなく、Xeon Phiを利用する指示を追加し、やはりコンパイルし直すだけでよいのだという。現在のx86の経験を元に、そのままHPCに対応したアプリケーションを作ることができる点がMICのアドバンテージの1つと言えるだろう。

 Intelはこうしたソフトウェアの改良をより簡単に行なうためのツールとして、「Intel Parallel Studio XE 2013」をすでに出荷しており、現在あるソースコードを並列化処理に対応させたり、Xeon Phiに対応したアプリケーションにコンパイルし直したりという作業が容易になる。また、Xeon Phiに対応したクラスタシステム向けの開発ツールとして「Intel Cluster Studio XE 2013」を同時にリリースし、Xeon Phiを複数採用したクラスタシステムでのプログラム最適化をより簡単にする。

 なお、Intelによれば、これ以外にもgcc、pythonといったオープンソースの開発ツールもXeon Phiへの対応が予定されており、今後徐々に対応製品が増えていく見通しだという。

従来型のソースコードにも、並列化を指示する指示文をいれるだけでよい(出典:Intel) この例は、演算をXeon Phiへと投げて処理させる(オフロード)指示を追加している。このようにソースコードの変更は最小限ですむとIntelは主張している(出典:Intel)
Intel自身が提供するIntel Parallel Studio XE 2013だけでなく、オープンソースの開発ツールもXeon Phiに対応予定(出典:Intel) 日本国内でXeon Phiを搭載したシステムを提供予定のOEMメーカー、Cray、Dell、富士通、日立、HP、IBM、NEC、SGIが出荷予定(出典:Intel)

●国内の研究機関へ提供、米テキサス大学スパコンを構築

 IntelはXeon Phiを、すでにいくつかの大学などの研究機関の提供する先行開発のプログラムを実行している。国内では東京大学、筑波大学、京都大学、理化学研究所などに対して提供しており、すでにプログラムの研究などが行なわれているのだという。

 さらに米国ではより本格的な取り組みも行なわれており、テキサス州オースティン市にあるテキサス大学オースティン校テキサス先端計算センター(TACC)において、Xeon Phiを利用したスーパーコンピューターの構築が行なわれている。発表に先立って行なわれた見学会では、DellのPowerEdgeシリーズにXeon Phiが搭載され、それをクラスタ化してあるスーパーコンピューターが公開された。Strampedeの開発コードネームが与えられたそのシステムは、182台のラックに6,400個のXeon E5、数千個のXeon Phi、14P(ペタ)バイトのストレージ、250TBのメモリなどが実現される。

 完成する予定の2013年には実に約10P(ペタ)FLOPSの処理能力を実現するのだという。これは世界最速の理化学研究所「京」に近い数値だ。このうち、Xeon E5による分が2PFLOPS以上、Xeon Phiによる部分が7PFLOPS以上で、合計で約10PFLOPSになるとのことだった。

Xeon Phiに対する国内の研究機関からの期待の声(出典:Intel)
テキサス州オースティン市にあるテキサス大学オースティン校テキサス先端計算センター(TACC) 現在設置が薦めされているStrampede それぞれのラックにはDellのPowerEdgeシリーズが格納されている
取材時にもインストールが進められていたXeon Phi。これからラックサーバーに組み込まれて稼働する GPUと同じように8ピンと6ピンの外部電源コネクタも用意されている。このため見た目はファンとディスプレイ出力がないハイエンドビデオカードにしか見えない

(2012年 11月 13日)

[Reported by 笠原 一輝]