後藤弘茂のWeekly海外ニュース

AFDSでAMDがCPUロードマップを刷新、サーバーにもAPUを投入



●APU化を進めるAMDのプロセッサ戦略

 サーバープロセッサは、CPUにGPUコアを統合したAPU(Accelerated Processing Unit)に向かう。

 AMDは米ベルビューで現地時間6月11日~14日に開催した同社の技術カンファレンス「AMD Fusion Developer Summit(AFDS)」で、今後の同社のプロセッサロードマップを明らかにした。大枠は、今年(2012年)2月のアナリスト向けカンファレンス「Financial Analyst Day 2012」で明らかにされた内容と同じだが、いくつか重要なアップデートが加わっている。

 まず、Analyst Dayで説明された「サードパーティのIPの取り込み」と「命令セットに対してフレキシブルになる」ことの手始めとして、ARMのCortex-A5 CPUコアの取り込みが明らかにされた。これは、ARMのセキュリティソリューションである「TrustZone」を採用するためだ。メインのx86 CPUコアを補佐するセキュリティ用マイクロコントローラとしてCortex-A5を使う。AMDのMark Papermaster氏(Senior Vice President and Chief Technology Officer)は、ARMとのパートナーシップで業界に広く提供されているセキュリティ技術を使うことで、プラットフォームをまたいでセキュリティを使うアプリケーションの開発が容易になると説明した。

ARMのTrustZone技術とCortex-A5コアを導入AMDのMark Papermaster氏(Senior Vice President and Chief Technology Officer)氏

 次に、2月のAnalyst Day時には空白だった2013年のサーバーCPUについて、28nmプロセスのCPUとAPUが投入されることが明らかにされた。サーバーでは初のAPUとなるが、2013年の段階では、マルチソケットに最適化された上位のサーバーは、依然としてGPUコアを持たないCPUとなる。AMDはFusion構想を立ち上げた当初から、APUをHPCまで含めたハイエンドのサーバー領域に持ち込むプランを語ってきたが、それは、まだ先となる。

 「Bobcat(ボブキャット)」系のローパワーCPUコアでは、来年(2013年)投入される第2世代の「Jaguar(ジャガー)」の後に、2世代の新コアが設計段階に入っていることが明らかにされた。第3世代コアでは3W以下を、第4世代コアでは2W以下を目指すという。また、組み込み向けに、テイラーメイドのAPUを提供する用意があることも明らかにした。このほか、ディスクリートGPUでは、「Tahiti(Radeon HD 7900)」を1GHzで動作させたと見られる4TFLOPSのGPU「FirePro W9000」が紹介された。

Radeon HD 7900で3.79TFLOPSに4TFLOPSの「FirePro W9000」

●2013年のサーバーはマイナーチェンジ

 下のスライドは、AFDSで発表されたサーバーCPUのロードマップ。これまで空白だった来年(2013年)の製品として、新たにCPU製品とAPU製品が加わった。2013年の世代からはサーバーCPUのソケットも一新されるという。

サーバーロードマップ。新プラットフォームにCPUとAPUデータセンターのマーケット推移

 まず、今年(2012年)のサーバーCPUから見ると、今年後半に、全ラインナップが世代交替し、新しいPiledriverベースのコアへと切り替わる。ハイエンドの16コア製品は、現在の「Interlagos(インテルラゴス)」から、「Abu Dhabi(アブダビ)」へと変わる。MCM(Multi-Chip Module)で2チップをワンパッケージに納める構造に変わりがないと推定される。サーバー向けCPUではこのほか、2ソケットまでの「Valencia(バレンシア)」が「Seoul(ソウル)」へ、1ソケットまでの「Zurich(ズーリック/ドイツ語ではチューリッヒ)」が「Delhi(デリー)」へと移行する。それぞれソケットも継承する。

 サーバーCPUの今年(2012年)の移行は、製造プロセスが32nm SOIプロセスのままで、CPUコア自体も、「Bulldozer(ブルドーザ)」とほとんどアーキテクチャが変わらない「Piledriver(パイルドライバー)」に置き換わるだけなので、マイナーチェンジだ。ただし、Piledriverコアは、クロック方式に「Resonant Clock」を採用しており、クロックの電力効率が第1世代のBulldozerより大幅に向上している。Resonant Clockは実用化が始まったばかりの新しい技術だ。

 2013年には、AMDのBulldozer系CPUコアは次の「Steamroller(スチームローラ)」コアとなる。SteamrollerコアはBulldozerアーキテクチャの第3世代で、28nmプロセスで製造される。つまり、SteamrollerがBulldozerのプロセス技術の変わり目となる。

Steamrollerは第3世代モジュラーコア

●28nmプロセスで増えるトランジスタをGPUコアに

 AMDは今年(2012年)3月に、GLOBALFOUNDRIESとの契約を改定、AMDが保有していたGLOBALFOUNDRIESの株式を手放す代わりに、メインストリームAPUをGLOBALFOUNDRIESで製造する独占契約を放棄した。そのため、現在のAMDは、どの製品でも、GLOBALFOUNDRIES以外のTSMCなどのファウンドリで製造できるようになった。AMDは、28nmプロセスはファウンドリの選択が可能だと説明している。

 もっとも、現実的には、CPU製品はプロセスへの最適化が必要で、それにはかなりのエンジニアリング労力が必要となるため、簡単にFabを移すことは難しい。特定の製品は、特定のFabで製造することになるだろう。例外は、IBMを中心としたアライアンスCommon Platformで、GLOBALFOUNDRIESを含むCommon Platform参加のFabの間では、比較的移行が容易だ。

Intel、AMD、ファウンドリのプロセスロードマップ(PDF版はこちら)

 28nmへ移行するAMDだが、28nmプロセスではバルクになる可能性が極めて高く、その場合は、32nm SOIプロセスに対してパフォーマンス面での利点はないか、あっても極めて少ない。そのため、Steamroller世代の利点は、トランジスタ集積度が上がり、より多くのコアを載せられるだけになる可能性が高い。実際、AMDのスライドでも、Steamrollerについては並列性が上がる(=コア数が増える)としか書かれていない。ちなみに第4世代の「Excavator(エクスカヴェイタ)」は、20nmプロセスになると予想され、その場合はトランジスタパフォーマンスの向上が期待される。それを反映してか、Excavatorではパフォーマンスの向上が謳われている。

 28nmプロセスでは、32nm SOIに対して、より多くのトランジスタを積める。そのため、8コア(4モジュール)以上の構成のダイに、GPUコアを載せる余裕ができる。現在の32nm Bulldozer/Piledriver系プロセッサでの、8コアCPUであるOrochi(オロチ)と、4コアCPU+GPUコアのTrinity(トリニティ)のダイを比較したのが下の図だ。

Trinity(左)とOrochiのダイレイアウト(PDF版はこちら)

 28nmプロセスで70%にシュリンクするなら、現在のダイサイズを維持したまま、Bulldozerアーキテクチャの8コアのダイに、Trinityクラスかそれ以上のGPUコアを統合することはできそうだ。ちなみに、現在のAMD CPU/APUのダイサイズは、サーバー向けが300平方mmクラス、メインストリームAPUが200平方mmクラス、バリューAPUが100平方mm以下となっている。

AMD CPUダイサイズ移行図(PDF版はこちら)

●APUが浸透して行くAMDロードマップ

 今回のAFDSでのアップデートを反映したAMDのCPU全体の移行図は下のようになる。目立つのは、サーバーCPUにまでAPUが食い込んだことで、AMDロードマップ全体でのAPUの比率が高まったこと。トップエンドのサーバーCPUは、まだディスクリートに留まっているが、Papermaster氏はHPCなどの市場向けの製品もAPUに移行して行くのは自然な成り行きだと説明した。その場合は、現在のG34ソケットのように、最大でx16のHyperTransportを4リンク出すことができるようなAPUが登場するかもしれない。

AMD CPU全体の移行図(PDF版はこちら)
G34ソケット16コアOpteronのHyperTransportリンク(PDF版はこちら)

 メインストリームAPUは、来年(2013年)には「Kaveri(キャヴェリ)」に移行する。Kaveriは、Steamrollerコアを4コアまでと、現在の最新GPUコアであるGCN(Graphics Core Next)を搭載する。この世代で、APU全体のコンピュートパフォーマンスは、ついに1TFLOPSのレンジに到達する見込みだ。また、Kaveriでは、CPUコアとGPUコアのメモリアドレス空間の統合が実現され、AMDの掲げる新しいプログラミングフレームワークである「HSA(Heterogeneous System Architecture)」のハードウェア側の土台が整い始める。そのため、Kaveriでは、下の現在のTrinityアーキテクチャとは、内部のバス構造が大きく変わると推測される。現在のTrinityでは、Llanoと同様に、GPUコアからDRAMコントローラへのバスが、赤で示されたように大きく2系統に別れている。

次世代APUのKaveriクライアント向けディスクリート/APU内蔵GPU
Trinityのアーキテクチャ(PDF版はこちら)

●4世代にわたるAMDのローパワーコアのロードマップ

 AFDSでAMDが示したローパワーコアのロードマップは下のスライドのようになっている。AMDはローパワーコアはプロセス技術毎に刷新すると見られる。現在の40nmプロセス世代がBobcatで、次の28nm世代がJaguar、28nmか20nmかまだわからない次の世代でサブ3WのAPUを実現するコアが登場すると推測される。AMDは、コプロセッサとしてARMのCortex-A5を導入するが、メインの汎用CPUコアは、現在のロードマップではx86系を継続する。第4世代で2W以下のAPUを実現できるレンジまで電力を落とす計画だ。電力だけを取れば、ARMベースのアプリケーションプロセッサと十分戦えるレンジに入る。

Ultra Low Powerのロードマップファンレスモバイル製品やWindows 8タブレットなどを見込む超薄型製品は大きな市場成長を見込む

 実際のAPU製品では、2013年に28nmプロセスのJaguarベースの「Kabini(カビーニ)」が登場する。GPUコアもKaveriと同じGCN(Graphics Core Next)になる。さらに、Bobcatではサウスブリッジチップに当たるFCHが付属しているが、KabiniではこれがAPUに取りこまれ、ワンチップソリューションとなる。

 AMDのプロセス技術とアーキテクチャの関係は次の図のようになる。Llano(ラノ)では、GPUコアとCPUコアのどちらも1世代古いアーキテクチャが統合された。しかし、現在はCPUコアについてはAPUへの統合で時間差はなくないどころか、APUの方が先行している。

AMDのCPU/GPUアーキテクチャ開発移行図(PDF版はこちら)

 AMDプロセッサの移行をプロセス技術別に見ると下の図のようになる。現在のAMDのCPU製品は、GLOBALFOUNDRIESの32nm SOIプロセスと、TSMCの40nmバルクプロセスに2分されている。実際には、これにGPUの使うTSMC 28nmバルクプロセスが加わる。しかし、来年(2013年)になると、プロセスは28nmバルクへと収れんして行く。ただし、ファウンドリは並列する可能性はある。

AMDのプロセス別CPU/APU移行図(PDF版はこちら)

●企業戦略を転換しつつあるAMD

 AMDは2月のAnalyst Dayで、大きな戦略転換を発表した。一言で言えば脱PCまたはPC業界的な製品開発で、「コンシューマ化(Consumerization)」、「クラウド(Cloud)」、「コンバージェンス(Convergence)」の3つのCを大きな柱として掲げた。コンシューマ向けのモバイル機器、クラウドを支えるwebサーバー、そして家電とコンピュータの技術の収斂(Convergence」のための組み込み製品に注力するという意味だ。そして、そのために、今までのようなPC型の製品開発のモデルを変更しようとしている。

 具体的には、まず、自社IPだけでなく、他社のIPを取りこむ。ISA(CPUの命令セットアーキテクチャ)回りをフレキシブルに対応する。より短期間にマーケットに投入できるSoCソリューションを確立する。

 その実例が、今回発表されたARMのマイクロコントローラの統合だった。そして、AMDは今後は、顧客のニーズに応じた、多様なIPを取りこんだテイラーAPUの製造にも向かって行く。AMDはこれまで、x86系CPUのような汎用品(量が出るASSP)とASSP(特定用途向け標準製品)を主に手がけてきた。それを、通常の半導体メーカーのようなスタイルへと切り替えて行く。