【イベントレポート】Power.org、「Power Architecture Conference 2009」レポート～PowerPCを通じて考えるCPUの未来像

Power.org、「Power Architecture Conference 2009」レポート

～PowerPCを通じて考えるCPUの未来像

10月16日開催

　Power Architectureの標準化や普及を行なうPower.orgは16日、開発者向けイベント「Power Architecture Conference 2009(PAC)」を都内で開催した。

　Power.orgはもともと、IBMとFreescaleの2社がコアメンバーとなって発足した、Power Architectureの標準化や普及を推進する団体である。

　Power Architecture、と称しているところがミソで、ここにはPowerPC以外にIBMが製造するPowerチップも含まれる。当初はメンバーもごく限られたものしかなかった(なにせIBMとFreescale、というか旧Motorolaのみ)し、当初加盟していたP.A.Semiはその後Appleに買収されてPower.orgを脱退しているので、メンバー企業は非常に少なかった。

　とはいえ、その後AMCCがIBMのエンベデッド(組み込み)向けPowerPCの資産を買収、自身で販売を始めたり、HCL TechnologyがやはりPowerPC 400シリーズの販売を始めたり、あるいはXilinxがVertexに統合する形でPowerPCのコアを提供したりと、コアを扱うベンダーは増えているし、IPとしてもSynopsisがIBMの、IPextremeがFreescaleのコアをそれぞれIPとして外販しているので、ARMやMIPSには及ばないとはいえ、それなりに供給ベンダーが増えてきた。さらに、開発ツールベンダーなども次第に増えてきており、現在ではそれなりの数のベンダーがPower.orgに加盟している。

　このPower.orgは当初から企業ユーザー以外に開発メンバーを無償で募集しており、開発メンバー登録を行なうと、さまざまなリソースを利用することが可能になる。実は今回のPACも、もともとは「Power Architecture Developer Conferenceという名称で2007年に開催されたものが、2008年からこの名前に変わった。当初はPower.orgの開発メンバーに対して、技術トレンドの紹介やセミナーを行なうといった趣旨で、米国内で開催されていたものだったが、2008年からはむしろPower.orgに登録していない開発者を積極的にPower.orgコミュニティに引き込むためのプロモーション的活動を、米国以外で行なうといった方向に変わってきている。

　この方向に沿い、昨年はヨーロッパ(ミュンヘンとパリ)とアジア(東京、北京、新竹)でPAC 2008を開催している。今年はというと、ヨーロッパは見送りになったようだが、アジアは昨年同様に北京(10月14日)、東京(10月16日)ときて、最後に新竹(10月19日)で開催されることになっている。

●基調講演

【写真02】IBMのCTOであるKaveh Massoudian氏。Power.orgではTreasure Officer(CFOにあたるポジション)を勤める

　さて今回は、まずKaveh Massoudian氏(写真02)が、Power.orgがこれまで成し遂げてきた事の説明を行なった。

　Power.orgの最大の功績は、「Power ISA」と呼ばれる標準規格を制定したことであろう(写真03)。2005年6月のPower.org設立から1年で最初の標準規格であるPower ISA 2.03を発表したことを皮切りに、2007年には主要な標準規格が(とりあえずは)出揃い、2008年以降はこれらの規格のリビジョン更新のほか、拡張規格や関連規格の策定を精力的に行なっており、今年も色々な規格が策定されている。

　また、単に規格が制定されただけではなく、これらに沿った製品も登場している。FreescaleはPower ISAに沿ったe500コアを搭載したQorIQ P4000シリーズやP1022などを今年発表しているし(写真04)、IBMはつい先日SoC向けの新しいCPUコアであるPowerPC 476FPを発表した(写真05)。LSI LogicはこのPowerPC 476FP向けのコンパニオンチップを同日発表している。


【写真03】上段の緑がPower.orgとしての成果物、オレンジが技術標準の成果物、下段の薄紫が主要なイベントである	【写真04】QorIQは、同社のPowerQUICCシリーズの後継となる通信向け(というか、自動車「以外」向け)のシリーズ。P4080は1.5GGz動作の8コア MCUである	【写真05】PowerPC系としては最高速となる2.5 DMIPS/MHzを実現する初めてのコアである。もっともこれはSoC用にIPの形で提供されるもので、今のところ単体のMPUとして提供される予定はない

　また、DenaliはPLB-6向けの検証IPをリリースしている(写真06)。AMCCはTSMCと共同で、これまでIBMのSOIプロセスを使って製造していたPowerPC 400シリーズをTSMCのバルクプロセスに移行する事をアナウンスしている(写真07)。VirtutechはSimics 4.2を発表したほか、XGIのG6が新たにPowerPC向けのサポートを明らかにしている(写真08)。ここまではPowerPC関連製品だが、それとは別に今年のHotChipsで、IBMのPower7が公開されている(写真09)。これもまたPower ISAに準拠した製品である。

　これに続き、主要なイベントやTechnical Initiativeに関しても説明を行なった後(写真10)、説明をFawzi Behmann氏にバトンタッチした。


【写真06】LSI Logicのものは、IBMの45nm SOIにあわせたL2とMemory ControllerのIP、DenaliはPowerPCに対応したプロセッサバス(SoC内部用)の高速版(ほかにPLB-4がある)である	【写真07】ところでTitanはどうなったのだろう?	【写真08】Virtutechは仮想動作環境を提供するシミュレータ。SoCの開発時に、平行してVirtutechのSimicsを使い、ソフトウェアの検証などがチップ開発前から始められる。XGIのG6は、まだ未発表の製品である

【写真09】Out of Order構成の8コアにeDRAMを使った32MBのL3キャッシュを組み合わせるという、Power6までと全く異なる構造。CPUコアはPowerISA V2.06準拠で、FPUのレジスタは128個搭載、FPUそのものも倍精度を4つ搭載するという、ある意味お化けCPU。将来的にはここから1コアを抜き出したものを組み込み向けにリリースすることも考えているそうだ	【写真10】シリコン(最下層)からアプリケーション(最上層)まで、システムを構築するのに必要なソリューションあるいは規格/コンポーネントに対してPower.orgや関連ベンダーがどんな形でソリューションを提供しているか、の図。グリーンがPower.org主導の、オレンジが一般的なソリューションということになる

【写真11】Power.orgでDirector of MarketingのFawzi Behmann氏。氏はTelNet Management Consulting, Inc.に所属する

　Fawzi Behmann氏(写真11)は、Massoudian氏よりもう少し細かくマーケットの説明を行なった。エンベデッドといっても範囲が広いのはご存知の通りで、そこにおけるシェアもまた多彩である。例えば携帯機器だとARMが圧倒的に多いが、ネットワークのバックボーンとか基地局といったマーケットではPowerが、STBなどの分野ではMIPSが伝統的に強いシェアを持っている。

　もっとも、こうした明確な強者が存在しないマーケットもある。例えばモータ制御系は従来8/16bit MCUが入り乱れていたが、Green化のトレンドの中でモータの消費電力を下げる事が大きなテーマになり、ここにARMのCortex-Mシリーズを投入するベンダー(最右翼がSTMicroとかNXP)やMIPS M4Kを投入するベンダー(最右翼がMicrochip)が出てきており、従来8/16bit MCUをここに投入していたMicrochip/Atmel/TI/Freescaleといったベンダーとの激しい「殴り合い」が始まっている(MicrochipはPIC24やPIC32に主力ラインナップを移しつつあり、AtmelはATmegaを強化するほかAVR32を積極的に投入、TIはMSP430の強化で対抗し、FreescaleはColdFireに軸足を移しつつある)など、明確なマーケットデータが見当たらないほど混戦が起きているところもあるので、一概に分類するのは難しい。

　そうした背景のもと、比較的安定してPower Architectureがマーケットを確保しているのがWireless Access(写真12)、Embedded communication、storage、consumer、aerospace/defence(写真13)、High Performance Computing(写真14)の分野である。Wireless Accessは上でも述べた携帯電話向け基地局やサービス側のソリューションで、現在でも3Gではかなりのシェアを握っているが、今後3.5G/3.9G/4Gといった、より高度なサービスもPower Architectureで実現できることをアピールした。


【写真12】LTEの基地局側ソリューションの例。本質的な話をすると、CPUのアーキテクチャそのものはどんなサービスであっても大差ない。どのアーキテクチャであっても、ハイエンドではそれなりの性能が出るからだ。むしろ問題は、どんな周辺回路やメモリを使えるかとか、レスポンスタイム短縮にどんな機能を持つかとか、消費電力がどの程度に押さえ込まれているか、といったインプリメントが問題なのであって、ここにPower Architecture(というか、FreescaleのQorIQシリーズ)に一日の長があるという話である	【写真13】Power.orgのメッセージとしては、SoC向けのIPとして提供されるCPUコアの中で、PowerPCはもっとも高性能でソフィストケイトされている、ということになる。これはこれで事実なのだが、PowerPC 476を初めとする従来のコアはIBMのFoundaryで製造するのが必須になっており、ファウンダリを選ばない例としてはIPExtremeが販売しているe200コアか、PowerPC 4xxでも比較的性能の低い初期のモデルしかなかった。その意味では、AMCCがTSMCと共同でPowerPC 4xxシリーズをバルクCMOSで製造できるようにするという発表はなかなかに意味のある事だ	【写真14】これはHotChipsでIBMが公開した、Power 7をベースとしたSystemの例。ちなみにBlue Watersの資料(PPT)を見ると、8チップのコアを2つ搭載したModuleを4枚並べたNodeが1つの単位となる。このNodeを16個並べたのがSupernodeで、このSupernodeを8枚組み合わせたものがSystem Building Blockと呼ばれる。Blue WatersはこのSystem Building Blockが38個で構成される。つまりコアの数は8×2×4×16×8×38＝311,296個という計算になる。コアあたり32GFlopsだから、これで大体10TFlopsになる(正確に言えば動作周波数が4.04GHz、演算性能は32.3GFlops/Coreとされており、合計すると10.06PFlopsとなる)という、お化けシステムである

　エンベデッド向けについては、プレゼンテーションはPowerPC 476FPであるが、要するにIBMがこれまで開発・販売してきたPowerPC 4xx系列のコアが、特にSMB向けに多く利用されているという話である。最後がハイパフォーマンス向け。言うまでも無くスーパーコンピュータの分野であって、Blue Geneファミリーを始めとして、さまざまシステムがPowerPCをベースに構築されている(Cellも、一応内部にはPowerPCコアがあるわけで、実際の計算はSPEがブン廻っているとは言え、一応Power Architectureに分類されている)。

【写真15】これは今年9月16-17日にサンノゼで開催されたLinley Tech Processor Conferenceにおける資料と思われる

　このうち、一番マーケットとして大きいのはやはり2番目のエンベデッドということになる。(基地局やスーパーコンピュータは、誰でも参入できるというものではないだろう)。ここをもう少しBreakdownしたのがこちらである(写真15)。ここで想定されているのは、SMB(Small to Medium Business)向けのネットワーク機器(家庭用のブロードバンドルータとか、最近ならばIEEE 802.11n対応アクセスポイントなどがこの好例だろう)やNASなどのネットワークストレージ、STB/DTVといった機器、各種プリンタ、などとなる。

　実のところこの65%のうち、少なからぬ量をゲームコンソール(なんせWii/PS3/XBox 360の全てがPowerPC)と自動車向け(エンジン制御などではほぼ独占に近い)を占めているから、実際のマーケットはもう少し混戦となるにせよ、そうシェアが小さいわけではないのも事実である。シェアが大きいという事は開発に必要なリソースやツールが入手しやすいということでもあり、なのでより多くのベンダーにPower Architectureを使ってアプリケーションを構築してもらい、よりシェアを高めてゆきたいというのが氏の説明であった。

●Freescale

【写真16】フリースケール・セミコンダクタ・ジャパン(株) マーケティング本部ジェネラル・マネージャの伊南恒志氏

　次はFreescaleによる「フリースケールのマルチコア戦略」というタイトルで、フリースケールジャパンの伊南恒志氏(写真16)より説明があった。

　同社はPowerPC、ARM、ColdFireという3種類の32bitコアを持つが、PowerPCコアは自動車向けと通信プロセッサ(&汎用)向けに利用されている(写真17)。このうち自動車向けに関してはe200コアをベースに製品展開しており(写真18)、今後も積極的に製品投入する(写真19)と説明。一方通信あるいは汎用向けには、マルチコアに向けたニーズが非常に高まっている事を説明し(写真20)。こうしたニーズにあわせて、Freescaleでは1コアから8コアまでのスケーラブルなソリューションを現在展開しており(写真21)、今後は更にラインナップを拡張してゆくとしている。

　ただマルチプロセッサ環境で問題になるのはソフトウェアが対応していないことである。勿論適当なHyperVisorを入れて、1つのOSが1つしかCPUを使わないという環境では従来のものがそのまま使えるが、今後性能を上げてゆく中ではマルチプロセッサ環境にアプリケーションを対応させなければならない。こうした作業を助けるのが、同社の提供する「VortiQa」である(写真22)。同社のMPUとVortiQaを組み合わせることで、マルチコアMCUを使ったアプリケーションを迅速に構築できる、というのが同氏のまとめであった。


【写真17】車載向けに関しては、ルネサスエレクトロニクスがフリースケールを抜くという話もあるが、正直いってこれがどの程度実情に沿ったものになるか(特に現時点でどうか)は正直不明である。ただ、少なくともフリースケールのシェアが自動車業界向けでかなり大きいのは事実だ	【写真18】e200シリーズの性能そのものはそれほど高くないが、Full Synthesizableという特徴を生かし、マージンを十分に取ることで-40℃～85℃という動作温度範囲のサポートやZero Defectを実現していると説明	【写真19】eTPUは一種のアクセラレータで、エンジン制御に必要な定期的な割り込みを処理することでCPU負荷を軽減する。MPC56xxシリーズは、コアを複数搭載して性能と冗長性を確保したシリーズとなる

【写真20】従来ならFirewallとWAN Optimizer、IPS/SSL Termination/Load Blanacerといった機器を個別に提供していたが、消費電力削減や低コスト化に向け、複数の機能を統合するニーズが増えてきている。こうした用途に向けて、マルチコアをAsymmetricで動作させる構成が現実的である、というのがFreescaleの主張	【写真21】ちなみに以前聞いた話では、P5シリーズはコアそのものの性能も若干引き上げるとともに、8コア以上のラインナップを用意するとしているが、恐らくダイサイズから言って登場するのは32nm SOIからになると思われる。ちなみに動作周波数については、性能と消費電力のトレードオフで、2次曲線的に消費電力が上がらないギリギリのところが1.5GHzなのだそうで、少なくとも現在の45nm SOIではこれを超える製品は出てこないだろう	【写真22】VortiQaは、特定アプリケーション向けのソフトウェアスタックの集合体、と考えればいいだろう

●IBM

【写真23】Distinguished Engineer, IBM Software Groupの浅井信宏氏

　これに続き、日本IBMの浅井信宏氏(写真23)により、「Power.orgの最新情報、Power Architectureの差別化について」と題した講演があった。

　もっとも前半は同社のPower製品を使ったスーパーコンピュータの紹介(写真24)、中盤はCellを例にとってのプログラミングモデルの話(写真25)で、このあたりまでは正直新味の無い話だったが、後半はちょっと興味を引くものだった(写真26)。


【写真24】こちらはEnergy-Efficient Top500の結果だが、当然通常のTOP500の紹介もあった。これに続きシステムの説明もあったが、さすがにBlue Watersの話はなくRoadrunnerどまり	【写真25】これは複数のSPEを並列に処理させるStreaming Modelの場合のケース。プログラミングに関しては以前のレポートで紹介された話とほとんど差分が無かった	【写真26】ePlatformは、Virtutechが提供するSimicsと本質的には大きな違いはない。ハードウェア構築と平行して仮想環境上でシステムのインプリメントやテストを行なうことで、開発期間を短縮しようというものだ

　組み込み向けを考えるとき、開発コスト短縮の他に「すでにあるアプリケーションのチューニングやマルチコア環境への移行」という話が今後は当然出てくる。1つの解は、先にFreescaleでも出てきた「マルチコア環境でHypervisor上に載せてSingle CPU環境として使う」方法だが、これは抜本的な解決ではない。抜本的にはやはりちゃんとアプリケーションをマルチコア環境に対応させることだが、この際に役に立つのが「Fire Tracker」と呼ばれるリバースエンジニアリングツールである(写真27)。

　このFire Trackerを使うことで、ガントチャートやコールツリーなど、実際のアプリケーションがどう動いているかのプロファイルを収集できる(写真28)ので、これをベースに性能プロファイルの評価を行なうことが出来る、としている(写真29)。現時点ですぐFire TrackerやRhapsodyが提供されるというわけではないようだが、こうしたツールも将来的には利用可能になるというのがIBMの説明であった。


【写真27】すでにあるPowerPC搭載アプリケーションにこのFire Trackerを組み込み、動作をEBI経由でトレースして収集、分析するという仕組み	【写真28】要するにProfilerである。ただ一般にProfilerといえば、アプリケーションの構築時にProfiler用ライブラリとリンクするとか、Profile取得用の仮想環境上でアプリケーションを動かすといったことが普通であった。勿論JTAGポート経由とかICEを繋いで、ハード的にProfileを取ることもできるが、量産機はしばしばこうした機能を(コストダウンやシステム解析防止のために)省くことも珍しくないから、必ず使えるわけではない。アプリケーションにCPU Emulatorを繋いでプロファイルを取ることもできるが、これはコスト面で非現実的である。これを手軽に出来るようにしたのがFire Trackerという事だろう	【写真29】UMLベースでモデリングを行ない、そこから性能評価を行なう「Rhapsody」と呼ばれるツールも同時に開発された

●Denali

【写真30】デナリソフトウェアプロジェクトマネージャ木下仁氏

　講演の最後は、Denali Softwareの木下仁氏(写真30)である。Denali Softwareという会社に聞き覚えが無いかもしれないが、「MemCon」を主催している会社といえばお分かりいただけるかもしれない。

　Denaliは大きく分けて2種類のIPを提供する会社である。まず最初はメモリコントローラやNANDフラッシュ、PCI Express、USBといった高速I/FのIPを提供するというものである。クライアントはこれを購入して自社のSoCに組みこむ事で、こうしたそれなりにノウハウが必要なデバイスを1から開発せずに済むというものだ。

　そしてもう1つの製品が今回のテーマでもある検証IP(Verification IP)である。MCUと周辺回路が全部ディスクリートで作りこまれ、ボードの上に載っているという時代であれば、端的に言えばボード上の配線にロジックアナライザを噛まして動作をトレースするなんて事でデバッグは行なえたが、SoCともなるとそんな事は到底不可能であり、結果として「テストのための回路」もあらかじめ作りこんでおく必要がある。

　しかし、システムの複雑化に伴い、これも急激に無理が出てきた。こうしたマーケットに対してDenaliが提供するのが、「Verification IP」である。こちらはテストパターンの自動生成やプロトコルの監視などを行なうものであり、さらに上位ツールである同社の「PureSpec」と組み合わせることで、高度なテスト生成やプロトコルチェック/検証、カバレッジの測定などを行なってくれるものである。また複数のシミュレータと連携しての動作も可能である(写真32)。また問題が発見された場合、PureSpecのトレースファイルをDenaliに送付して、Denali側で問題解決を行なうといった事も可能としている(写真34)。

　更にこのPureSpecの上位にあたる「PureSuite」と呼ばれるツールも提供される(写真35)。こちらは、チップがそもそも外部仕様を満たしているかとか、システムの他の部分との相互接続性が確保されているか、などをシリコン生成前に検証するためのツールである。こうしたツール類を使うことで、SoC開発の期間とコストを抑えられる、というのが氏のメッセージであった。


【写真31】SoCともなると、複数のバスに複数のデバイスがぶら下がり、相互に通信したりしてるわけで、当然検証は面倒である	【写真32】勿論100%全てをカバーすることはできない(例えばクライアントが独自に作った周辺回路などは対応できない)が、標準的なデバイスに対しては検証IPが提供される	【写真33】木下氏によれば「市場でメジャーなシミュレータには全て対応しており、『このシミュレータでしか動かない』といった事はない」との事

【写真34】この場合、Denali側に顧客と同じ環境が用意されていることが前提ではある	【写真35】要するにPureSpecなどで使うモデルを基に、事前に検証を行なうツールである

●Power Processors, Past and Future

【写真38】IBM Distinguished EngineerのH. Peter Hofstee博士。Cell SPEのChief Architect兼Cell Chief Scientistを勤めた方だ

　最後に、基調講演の後で行なわれたPeter Hofstee氏(写真38)の話を少し細かく紹介したいと思う。

　Peter氏の講演は「Power Processors, Past and Future」と題されたものだが、個別の話は確かにPower系列を追ってはいるものの、基本的には半導体業界一般の話である。

　まず'80年～2005年というタイムスケールは、基本的にシングルスレッドの性能向上がそのまま実現できた時期だった(写真39)。とは言え、2005年頃になるとこの性能向上も頭打ちの傾向が見えてくる(写真40)。またプロセスの微細化に伴い、Active PowerよりもPassive Powerの影響が非常に大きくなり、空冷の限界を超えつつあることも明らかになっている(写真41)。この結果として、プロセッサのマルチコア化が促進されるようになった(写真42,43)。もっとも、氏によればこうしたトレンドでも10年持つかどうかは不明(もっと早く頭打ちになるかもしれない)としているし、また動作周波数を引き上げるのは難しいとしている。


【写真39】おなじみHennesy and Pettersonの第4版から。この時期は微細化に伴いトランジスタがどんどん高速化し、かつトランジスタ数が増えることでIPCを向上できた時期だった	【写真40】PowerPC 601とPowerPC 750GXで性能(SpecInt値)を比較すると、純粋な性能という観点では30.6倍の高速化になっているが、動作周波数×トランジスタ数あたりの性能という観点では7.8倍悪化しているとも言える。つまり今後はトランジスタ数を増やしてもそれほど性能に寄与しない、というかむしろ悪化する傾向にある事が見て取れる	【写真41】これはリーク電流に起因するものであるという話は説明するまでも無いことだ。

【写真42】現在は45nm世代で8コアだが、今後32nm/22nm世代には単純計算でも16/32コアが同じダイエリアで実現できる計算になる。32nm世代は2011年、22nm世代は2013年といったあたりで、頑張れば2015年あたりまではこのまま進むかもしれない	【写真43】マルチコアが選ばれる具体的な理由あれこれ。意外とバカに出来ないのは一番最後の理由である

　もっとも、コアの数を増やしても、それがそのまま性能アップに繋がるとは限らないというのは、これも「アムダールの法則」(コンピュータの処理性能は全体のコンピュテーション時間のうち機能の拡張によって高速化される部分の比率に依る)などでよく知られた話である。現状でマルチコアがそのまま性能アップに繋がるのは、データーベースとかWebサーバーなど、独立した多数の処理が大量に押し寄せてくる場合(これらについても、メモリアクセスなどがボトルネックになりやすい)で、通常の処理では並列度を上げるのが難しく、システム全体では高速化していると言いつつ、個別の処理はさっぱり早くならないという状況に陥りやすい(写真44)。この結果として、トランジスタの数が増えても処理負荷が増えないため、一時的に熱密度は低下するだろう、というのが氏の予測である(写真45)。

【写真44】ここに書かれているのは、どちらかといえば潜在的には並列化可能な処理(科学技術計算など)に当てはまる話で、例えばエディタとかワープロの様な処理の場合、そもそもどこをどうやったら並列化できるのかというところから議論を始めないといけなくなるわけで、ハードルが高いのはしかたないのかもしれない

【写真45】実はこれのみちょっと疑問がある。というのはこの時期は微細化も進行しているからで、トランジスタ数は増えてもダイサイズは増えないという状況では、結局熱密度には大差ない気もする

　ただ、このままだと性能はさっぱり伸び悩みのままである。次に来るのは何かというと、氏はHybridであるとしている。すでに、いくつかのHeterogeneous Processorが存在しているが(写真46)、こうした構成にすることで効果的に性能を伸ばせる、としている(写真47,48)。もっともHybridにもやはり問題があり(写真49)、こちらはある意味マルチコアよりも更に深刻である。

　ただ現状見えているのは、こうしたHeterogeneous構成以外の近未来が無い(写真50)ことで、無理にでもここに向かって進むしかないことだ。幸いなのは、最近のGPGPUの普及に伴い、OpenCLという新しい標準ができはじめていることで、これと従来のOpenMPを組み合わせることで対応してゆけるだろう、というのが氏の見解だった。


【写真46】そのHetrogeneousがSPEのようなアクセラレータになるのか、あるいはFPGAやRefonfigurable Processorになるのかは色々あるのだろう	【写真47】これは65nm世代でダイサイズの比較を行なったもの。Cell BEのSPE8個分(理論性能はSPE1個あたり25.6GFlopsなので、単純に考えれば204.8GFlops)は、Power 5(1.9GHz動作で7.6GFlops)やCore 2 Duo(3GHz動作で24GFlops)、Athlon 64 X2(やはり3GHz動作で24GFlops)を1桁以上上回るスコアを出しており、ダイサイズあたりの性能が格段に向上していることが判る	【写真48】プロセス微細化の効果。PPE/SPEともに綺麗にスケーリングが出来ていることがわかる。全体のスケーリングの効果がやや鈍いのは、外部I/O Padがあまり小型化できないため

【写真49】マルチコアはまだツール類もそれなりにあるが、Heterogeneousとなると各ベンダーが出しているツールが唯一ということも珍しくない。このあたりが、普及が進まない大きな障害であるのは間違いない。とはいえ、PS3のように「それでもSPEを使わざるを得ない」という追い込み方をすると、数年でSPE Programmingが普及し始めることもあるわけで、環境の作り方次第とも言える	【写真50】この分類で言えばCell BEのSPEはpNext 2.0に属するプロセッサに相当する。その意味では登場がやはり早すぎたのかもしれない。ただこれは卵と鶏の話であり、90nm世代に頑張ってCell BEをつくり、その後も微細化やツールの整備に努めたので、45nm世代になってやっと家電に応用という話が出てきたとも言えるからだ

　最後に、更にその先のトレンドとして氏が示したのはASICやSoCといった、特定用途向け進化になる(写真52)というのは興味深い。ただ同時に、さまざまな技術革新によって、頭打ちになる時期を遅らせる事ができるかもしれない(写真53)ということも付け加えた。


【写真51】この図を見ると思い出すのがIntelのLarrabee。分類としてはGPUながら、命令セットがMIMDというあたり、現在のOpenCLではちょっと扱いが面倒になりそうだ	【写真52】この方向は、「今は性能がPoorなので汎用コアに特定用途向けアクセラレータの構成だが、長期的には全てが汎用コアで実現できると信じる」というIntelのアプローチとある意味正反対であり、非常に興味深い点だ	【写真53】これまでの技術革新の例。大体、ITRS(International Technology Roadmap for Semiconductors)の最新のロードマップ(PDF)を見ても、2022年までしか無い(この時点でプロセスルールが10nmを切っており、そもそもCMOSで実現できるかどうかも怪しい)あたり、何らかの延命技術が必要なのは間違いない

(2009年 10月 20日)

[Reported by 大原雄介]