Power Architectureの標準化や普及を行なうPower.orgは16日、開発者向けイベント「Power Architecture Conference 2009(PAC)」を都内で開催した。
Power.orgはもともと、IBMとFreescaleの2社がコアメンバーとなって発足した、Power Architectureの標準化や普及を推進する団体である。
Power Architecture、と称しているところがミソで、ここにはPowerPC以外にIBMが製造するPowerチップも含まれる。当初はメンバーもごく限られたものしかなかった(なにせIBMとFreescale、というか旧Motorolaのみ)し、当初加盟していたP.A.Semiはその後Appleに買収されてPower.orgを脱退しているので、メンバー企業は非常に少なかった。
とはいえ、その後AMCCがIBMのエンベデッド(組み込み)向けPowerPCの資産を買収、自身で販売を始めたり、HCL TechnologyがやはりPowerPC 400シリーズの販売を始めたり、あるいはXilinxがVertexに統合する形でPowerPCのコアを提供したりと、コアを扱うベンダーは増えているし、IPとしてもSynopsisがIBMの、IPextremeがFreescaleのコアをそれぞれIPとして外販しているので、ARMやMIPSには及ばないとはいえ、それなりに供給ベンダーが増えてきた。さらに、開発ツールベンダーなども次第に増えてきており、現在ではそれなりの数のベンダーがPower.orgに加盟している。
このPower.orgは当初から企業ユーザー以外に開発メンバーを無償で募集しており、開発メンバー登録を行なうと、さまざまなリソースを利用することが可能になる。実は今回のPACも、もともとは「Power Architecture Developer Conferenceという名称で2007年に開催されたものが、2008年からこの名前に変わった。当初はPower.orgの開発メンバーに対して、技術トレンドの紹介やセミナーを行なうといった趣旨で、米国内で開催されていたものだったが、2008年からはむしろPower.orgに登録していない開発者を積極的にPower.orgコミュニティに引き込むためのプロモーション的活動を、米国以外で行なうといった方向に変わってきている。
この方向に沿い、昨年はヨーロッパ(ミュンヘンとパリ)とアジア(東京、北京、新竹)でPAC 2008を開催している。今年はというと、ヨーロッパは見送りになったようだが、アジアは昨年同様に北京(10月14日)、東京(10月16日)ときて、最後に新竹(10月19日)で開催されることになっている。
●基調講演【写真02】IBMのCTOであるKaveh Massoudian氏。Power.orgではTreasure Officer(CFOにあたるポジション)を勤める |
さて今回は、まずKaveh Massoudian氏(写真02)が、Power.orgがこれまで成し遂げてきた事の説明を行なった。
Power.orgの最大の功績は、「Power ISA」と呼ばれる標準規格を制定したことであろう(写真03)。2005年6月のPower.org設立から1年で最初の標準規格であるPower ISA 2.03を発表したことを皮切りに、2007年には主要な標準規格が(とりあえずは)出揃い、2008年以降はこれらの規格のリビジョン更新のほか、拡張規格や関連規格の策定を精力的に行なっており、今年も色々な規格が策定されている。
また、単に規格が制定されただけではなく、これらに沿った製品も登場している。FreescaleはPower ISAに沿ったe500コアを搭載したQorIQ P4000シリーズやP1022などを今年発表しているし(写真04)、IBMはつい先日SoC向けの新しいCPUコアであるPowerPC 476FPを発表した(写真05)。LSI LogicはこのPowerPC 476FP向けのコンパニオンチップを同日発表している。
また、DenaliはPLB-6向けの検証IPをリリースしている(写真06)。AMCCはTSMCと共同で、これまでIBMのSOIプロセスを使って製造していたPowerPC 400シリーズをTSMCのバルクプロセスに移行する事をアナウンスしている(写真07)。VirtutechはSimics 4.2を発表したほか、XGIのG6が新たにPowerPC向けのサポートを明らかにしている(写真08)。ここまではPowerPC関連製品だが、それとは別に今年のHotChipsで、IBMのPower7が公開されている(写真09)。これもまたPower ISAに準拠した製品である。
これに続き、主要なイベントやTechnical Initiativeに関しても説明を行なった後(写真10)、説明をFawzi Behmann氏にバトンタッチした。
【写真11】Power.orgでDirector of MarketingのFawzi Behmann氏。氏はTelNet Management Consulting, Inc.に所属する |
Fawzi Behmann氏(写真11)は、Massoudian氏よりもう少し細かくマーケットの説明を行なった。エンベデッドといっても範囲が広いのはご存知の通りで、そこにおけるシェアもまた多彩である。例えば携帯機器だとARMが圧倒的に多いが、ネットワークのバックボーンとか基地局といったマーケットではPowerが、STBなどの分野ではMIPSが伝統的に強いシェアを持っている。
もっとも、こうした明確な強者が存在しないマーケットもある。例えばモータ制御系は従来8/16bit MCUが入り乱れていたが、Green化のトレンドの中でモータの消費電力を下げる事が大きなテーマになり、ここにARMのCortex-Mシリーズを投入するベンダー(最右翼がSTMicroとかNXP)やMIPS M4Kを投入するベンダー(最右翼がMicrochip)が出てきており、従来8/16bit MCUをここに投入していたMicrochip/Atmel/TI/Freescaleといったベンダーとの激しい「殴り合い」が始まっている(MicrochipはPIC24やPIC32に主力ラインナップを移しつつあり、AtmelはATmegaを強化するほかAVR32を積極的に投入、TIはMSP430の強化で対抗し、FreescaleはColdFireに軸足を移しつつある)など、明確なマーケットデータが見当たらないほど混戦が起きているところもあるので、一概に分類するのは難しい。
そうした背景のもと、比較的安定してPower Architectureがマーケットを確保しているのがWireless Access(写真12)、Embedded communication、storage、consumer、aerospace/defence(写真13)、High Performance Computing(写真14)の分野である。Wireless Accessは上でも述べた携帯電話向け基地局やサービス側のソリューションで、現在でも3Gではかなりのシェアを握っているが、今後3.5G/3.9G/4Gといった、より高度なサービスもPower Architectureで実現できることをアピールした。
【写真12】LTEの基地局側ソリューションの例。本質的な話をすると、CPUのアーキテクチャそのものはどんなサービスであっても大差ない。どのアーキテクチャであっても、ハイエンドではそれなりの性能が出るからだ。むしろ問題は、どんな周辺回路やメモリを使えるかとか、レスポンスタイム短縮にどんな機能を持つかとか、消費電力がどの程度に押さえ込まれているか、といったインプリメントが問題なのであって、ここにPower Architecture(というか、FreescaleのQorIQシリーズ)に一日の長があるという話である | 【写真13】Power.orgのメッセージとしては、SoC向けのIPとして提供されるCPUコアの中で、PowerPCはもっとも高性能でソフィストケイトされている、ということになる。これはこれで事実なのだが、PowerPC 476を初めとする従来のコアはIBMのFoundaryで製造するのが必須になっており、ファウンダリを選ばない例としてはIPExtremeが販売しているe200コアか、PowerPC 4xxでも比較的性能の低い初期のモデルしかなかった。その意味では、AMCCがTSMCと共同でPowerPC 4xxシリーズをバルクCMOSで製造できるようにするという発表はなかなかに意味のある事だ | 【写真14】これはHotChipsでIBMが公開した、Power 7をベースとしたSystemの例。ちなみにBlue Watersの資料(PPT)を見ると、8チップのコアを2つ搭載したModuleを4枚並べたNodeが1つの単位となる。このNodeを16個並べたのがSupernodeで、このSupernodeを8枚組み合わせたものがSystem Building Blockと呼ばれる。Blue WatersはこのSystem Building Blockが38個で構成される。つまりコアの数は8×2×4×16×8×38=311,296個という計算になる。コアあたり32GFlopsだから、これで大体10TFlopsになる(正確に言えば動作周波数が4.04GHz、演算性能は32.3GFlops/Coreとされており、合計すると10.06PFlopsとなる)という、お化けシステムである |
エンベデッド向けについては、プレゼンテーションはPowerPC 476FPであるが、要するにIBMがこれまで開発・販売してきたPowerPC 4xx系列のコアが、特にSMB向けに多く利用されているという話である。最後がハイパフォーマンス向け。言うまでも無くスーパーコンピュータの分野であって、Blue Geneファミリーを始めとして、さまざまシステムがPowerPCをベースに構築されている(Cellも、一応内部にはPowerPCコアがあるわけで、実際の計算はSPEがブン廻っているとは言え、一応Power Architectureに分類されている)。
【写真15】これは今年9月16-17日にサンノゼで開催されたLinley Tech Processor Conferenceにおける資料と思われる |
このうち、一番マーケットとして大きいのはやはり2番目のエンベデッドということになる。(基地局やスーパーコンピュータは、誰でも参入できるというものではないだろう)。ここをもう少しBreakdownしたのがこちらである(写真15)。ここで想定されているのは、SMB(Small to Medium Business)向けのネットワーク機器(家庭用のブロードバンドルータとか、最近ならばIEEE 802.11n対応アクセスポイントなどがこの好例だろう)やNASなどのネットワークストレージ、STB/DTVといった機器、各種プリンタ、などとなる。
実のところこの65%のうち、少なからぬ量をゲームコンソール(なんせWii/PS3/XBox 360の全てがPowerPC)と自動車向け(エンジン制御などではほぼ独占に近い)を占めているから、実際のマーケットはもう少し混戦となるにせよ、そうシェアが小さいわけではないのも事実である。シェアが大きいという事は開発に必要なリソースやツールが入手しやすいということでもあり、なのでより多くのベンダーにPower Architectureを使ってアプリケーションを構築してもらい、よりシェアを高めてゆきたいというのが氏の説明であった。
●Freescale【写真16】フリースケール・セミコンダクタ・ジャパン(株) マーケティング本部ジェネラル・マネージャの伊南恒志氏 |
次はFreescaleによる「フリースケールのマルチコア戦略」というタイトルで、フリースケールジャパンの伊南恒志氏(写真16)より説明があった。
同社はPowerPC、ARM、ColdFireという3種類の32bitコアを持つが、PowerPCコアは自動車向けと通信プロセッサ(&汎用)向けに利用されている(写真17)。このうち自動車向けに関してはe200コアをベースに製品展開しており(写真18)、今後も積極的に製品投入する(写真19)と説明。一方通信あるいは汎用向けには、マルチコアに向けたニーズが非常に高まっている事を説明し(写真20)。こうしたニーズにあわせて、Freescaleでは1コアから8コアまでのスケーラブルなソリューションを現在展開しており(写真21)、今後は更にラインナップを拡張してゆくとしている。
ただマルチプロセッサ環境で問題になるのはソフトウェアが対応していないことである。勿論適当なHyperVisorを入れて、1つのOSが1つしかCPUを使わないという環境では従来のものがそのまま使えるが、今後性能を上げてゆく中ではマルチプロセッサ環境にアプリケーションを対応させなければならない。こうした作業を助けるのが、同社の提供する「VortiQa」である(写真22)。同社のMPUとVortiQaを組み合わせることで、マルチコアMCUを使ったアプリケーションを迅速に構築できる、というのが同氏のまとめであった。
【写真17】車載向けに関しては、ルネサスエレクトロニクスがフリースケールを抜くという話もあるが、正直いってこれがどの程度実情に沿ったものになるか(特に現時点でどうか)は正直不明である。ただ、少なくともフリースケールのシェアが自動車業界向けでかなり大きいのは事実だ | 【写真18】e200シリーズの性能そのものはそれほど高くないが、Full Synthesizableという特徴を生かし、マージンを十分に取ることで-40℃~85℃という動作温度範囲のサポートやZero Defectを実現していると説明 | 【写真19】eTPUは一種のアクセラレータで、エンジン制御に必要な定期的な割り込みを処理することでCPU負荷を軽減する。MPC56xxシリーズは、コアを複数搭載して性能と冗長性を確保したシリーズとなる |
【写真20】従来ならFirewallとWAN Optimizer、IPS/SSL Termination/Load Blanacerといった機器を個別に提供していたが、消費電力削減や低コスト化に向け、複数の機能を統合するニーズが増えてきている。こうした用途に向けて、マルチコアをAsymmetricで動作させる構成が現実的である、というのがFreescaleの主張 | 【写真21】ちなみに以前聞いた話では、P5シリーズはコアそのものの性能も若干引き上げるとともに、8コア以上のラインナップを用意するとしているが、恐らくダイサイズから言って登場するのは32nm SOIからになると思われる。ちなみに動作周波数については、性能と消費電力のトレードオフで、2次曲線的に消費電力が上がらないギリギリのところが1.5GHzなのだそうで、少なくとも現在の45nm SOIではこれを超える製品は出てこないだろう | 【写真22】VortiQaは、特定アプリケーション向けのソフトウェアスタックの集合体、と考えればいいだろう |
●IBM
【写真23】Distinguished Engineer, IBM Software Groupの浅井信宏氏 |
これに続き、日本IBMの浅井信宏氏(写真23)により、「Power.orgの最新情報、Power Architectureの差別化について」と題した講演があった。
もっとも前半は同社のPower製品を使ったスーパーコンピュータの紹介(写真24)、中盤はCellを例にとってのプログラミングモデルの話(写真25)で、このあたりまでは正直新味の無い話だったが、後半はちょっと興味を引くものだった(写真26)。
【写真24】こちらはEnergy-Efficient Top500の結果だが、当然通常のTOP500の紹介もあった。これに続きシステムの説明もあったが、さすがにBlue Watersの話はなくRoadrunnerどまり | 【写真25】これは複数のSPEを並列に処理させるStreaming Modelの場合のケース。プログラミングに関しては以前のレポートで紹介された話とほとんど差分が無かった | 【写真26】ePlatformは、Virtutechが提供するSimicsと本質的には大きな違いはない。ハードウェア構築と平行して仮想環境上でシステムのインプリメントやテストを行なうことで、開発期間を短縮しようというものだ |
組み込み向けを考えるとき、開発コスト短縮の他に「すでにあるアプリケーションのチューニングやマルチコア環境への移行」という話が今後は当然出てくる。1つの解は、先にFreescaleでも出てきた「マルチコア環境でHypervisor上に載せてSingle CPU環境として使う」方法だが、これは抜本的な解決ではない。抜本的にはやはりちゃんとアプリケーションをマルチコア環境に対応させることだが、この際に役に立つのが「Fire Tracker」と呼ばれるリバースエンジニアリングツールである(写真27)。
このFire Trackerを使うことで、ガントチャートやコールツリーなど、実際のアプリケーションがどう動いているかのプロファイルを収集できる(写真28)ので、これをベースに性能プロファイルの評価を行なうことが出来る、としている(写真29)。現時点ですぐFire TrackerやRhapsodyが提供されるというわけではないようだが、こうしたツールも将来的には利用可能になるというのがIBMの説明であった。
●Denali
【写真30】デナリソフトウェア プロジェクトマネージャ 木下仁氏 |
講演の最後は、Denali Softwareの木下仁氏(写真30)である。Denali Softwareという会社に聞き覚えが無いかもしれないが、「MemCon」を主催している会社といえばお分かりいただけるかもしれない。
Denaliは大きく分けて2種類のIPを提供する会社である。まず最初はメモリコントローラやNANDフラッシュ、PCI Express、USBといった高速I/FのIPを提供するというものである。クライアントはこれを購入して自社のSoCに組みこむ事で、こうしたそれなりにノウハウが必要なデバイスを1から開発せずに済むというものだ。
そしてもう1つの製品が今回のテーマでもある検証IP(Verification IP)である。MCUと周辺回路が全部ディスクリートで作りこまれ、ボードの上に載っているという時代であれば、端的に言えばボード上の配線にロジックアナライザを噛まして動作をトレースするなんて事でデバッグは行なえたが、SoCともなるとそんな事は到底不可能であり、結果として「テストのための回路」もあらかじめ作りこんでおく必要がある。
しかし、システムの複雑化に伴い、これも急激に無理が出てきた。こうしたマーケットに対してDenaliが提供するのが、「Verification IP」である。こちらはテストパターンの自動生成やプロトコルの監視などを行なうものであり、さらに上位ツールである同社の「PureSpec」と組み合わせることで、高度なテスト生成やプロトコルチェック/検証、カバレッジの測定などを行なってくれるものである。また複数のシミュレータと連携しての動作も可能である(写真32)。また問題が発見された場合、PureSpecのトレースファイルをDenaliに送付して、Denali側で問題解決を行なうといった事も可能としている(写真34)。
更にこのPureSpecの上位にあたる「PureSuite」と呼ばれるツールも提供される(写真35)。こちらは、チップがそもそも外部仕様を満たしているかとか、システムの他の部分との相互接続性が確保されているか、などをシリコン生成前に検証するためのツールである。こうしたツール類を使うことで、SoC開発の期間とコストを抑えられる、というのが氏のメッセージであった。
●Power Processors, Past and Future
【写真38】IBM Distinguished EngineerのH. Peter Hofstee博士。Cell SPEのChief Architect兼Cell Chief Scientistを勤めた方だ |
最後に、基調講演の後で行なわれたPeter Hofstee氏(写真38)の話を少し細かく紹介したいと思う。
Peter氏の講演は「Power Processors, Past and Future」と題されたものだが、個別の話は確かにPower系列を追ってはいるものの、基本的には半導体業界一般の話である。
まず'80年~2005年というタイムスケールは、基本的にシングルスレッドの性能向上がそのまま実現できた時期だった(写真39)。とは言え、2005年頃になるとこの性能向上も頭打ちの傾向が見えてくる(写真40)。またプロセスの微細化に伴い、Active PowerよりもPassive Powerの影響が非常に大きくなり、空冷の限界を超えつつあることも明らかになっている(写真41)。この結果として、プロセッサのマルチコア化が促進されるようになった(写真42,43)。もっとも、氏によればこうしたトレンドでも10年持つかどうかは不明(もっと早く頭打ちになるかもしれない)としているし、また動作周波数を引き上げるのは難しいとしている。
もっとも、コアの数を増やしても、それがそのまま性能アップに繋がるとは限らないというのは、これも「アムダールの法則」(コンピュータの処理性能は全体のコンピュテーション時間のうち機能の拡張によって高速化される部分の比率に依る)などでよく知られた話である。現状でマルチコアがそのまま性能アップに繋がるのは、データーベースとかWebサーバーなど、独立した多数の処理が大量に押し寄せてくる場合(これらについても、メモリアクセスなどがボトルネックになりやすい)で、通常の処理では並列度を上げるのが難しく、システム全体では高速化していると言いつつ、個別の処理はさっぱり早くならないという状況に陥りやすい(写真44)。この結果として、トランジスタの数が増えても処理負荷が増えないため、一時的に熱密度は低下するだろう、というのが氏の予測である(写真45)。
ただ、このままだと性能はさっぱり伸び悩みのままである。次に来るのは何かというと、氏はHybridであるとしている。すでに、いくつかのHeterogeneous Processorが存在しているが(写真46)、こうした構成にすることで効果的に性能を伸ばせる、としている(写真47,48)。もっともHybridにもやはり問題があり(写真49)、こちらはある意味マルチコアよりも更に深刻である。
ただ現状見えているのは、こうしたHeterogeneous構成以外の近未来が無い(写真50)ことで、無理にでもここに向かって進むしかないことだ。幸いなのは、最近のGPGPUの普及に伴い、OpenCLという新しい標準ができはじめていることで、これと従来のOpenMPを組み合わせることで対応してゆけるだろう、というのが氏の見解だった。
最後に、更にその先のトレンドとして氏が示したのはASICやSoCといった、特定用途向け進化になる(写真52)というのは興味深い。ただ同時に、さまざまな技術革新によって、頭打ちになる時期を遅らせる事ができるかもしれない(写真53)ということも付け加えた。
【写真51】この図を見ると思い出すのがIntelのLarrabee。分類としてはGPUながら、命令セットがMIMDというあたり、現在のOpenCLではちょっと扱いが面倒になりそうだ | 【写真52】この方向は、「今は性能がPoorなので汎用コアに特定用途向けアクセラレータの構成だが、長期的には全てが汎用コアで実現できると信じる」というIntelのアプローチとある意味正反対であり、非常に興味深い点だ | 【写真53】これまでの技術革新の例。大体、ITRS(International Technology Roadmap for Semiconductors)の最新のロードマップ(PDF)を見ても、2022年までしか無い(この時点でプロセスルールが10nmを切っており、そもそもCMOSで実現できるかどうかも怪しい)あたり、何らかの延命技術が必要なのは間違いない |
(2009年 10月 20日)
[Reported by 大原 雄介]