【後藤弘茂のWeekly海外ニュース】AMDが次期アーキテクチャ「Bulldozer」と「Bobcat」の概要を明らかに

■後藤弘茂のWeekly海外ニュース■

AMDが次期アーキテクチャ「Bulldozer」と「Bobcat」の概要を明らかに

●盛りだくさんの発表だったAnalyst Day

　AMDは昨夜(米国時間で11月11日)にアナリスト向けカンファレンス「2009 Financial Analyst Day」を開催した。同カンファレンスで、AMDは次期CPUアーキテクチャである「Bulldozer(ブルドーザ)」と、Atom対抗の低消費電力CPUアーキテクチャ「Bobcat(ボブキャット)」の概要を発表。Bulldozerが、効率的にマルチスレッディングを実現するクラスタードアーキテクチャを取ることを公式に明らかにした。

　また、CPUにGPUコアを統合する「APU(Accelerated Processing Unit)」の最初の製品となる「Llano(リャノ)」のダイレイアウトを公開。CPUロードマップを更新して、ネットブック市場向けにBobcatベースの「Ontario(オンタリオ)」を使った「Brazos」プラットフォームを導入することなどを明らかにした。さらに、GPUの新製品として、来週、R800系のデュアルGPU「Hemlock(ヘムロック)」を発表することや、来年(2010年)第1四半期にモバイル向けDirectX 11 GPUの「Broadway(ブロードウェイ)」などを導入することも明かした。

Llanoのダイ

●クラスタードアーキテクチャを取るBulldozerコア

　AMDは、2011年に投入する次世代マイクロアーキテクチャBulldozerの概要を、ついに明らかにした。Bulldozerは、まず、ディスクリートCPUとして、サーバー&デスクトップ向けのセグメントに投入される。従来のK8やK10(Hound)アーキテクチャの後継として、完全に新しく開発されたCPUアーキテクチャだ。製造プロセスは32nm SOIでスタートする。

　AMDはBulldozerにクラスタ(Clustered)型マイクロアーキテクチャを取ると噂されていた。今回、AMDはクラスタードアーキテクチャを公式に明らかにした。Bulldozerのクラスタードアーキテクチャでは、CPUコアがクラスタ化されている。具体的には、2つのCPUコアが融合されており、浮動小数点演算ユニットや命令デコーダなどのリソースが2つのコア/スレッドで共有されるようになっている。

　Bulldozerアーキテクチャでは、2コアの融合したクラスタを「Bulldozer Module」と呼んでいる。2スレッドを並列に実行できるモジュールがBulldozerの基本単位だ。Bulldozerはこのユニットを複数集めることで、マルチコア構成を実現すると見られる。例えば、4コアのBulldozer CPUなら、2個のBulldozer Moduleを搭載するはずだ。

　Bulldozerのクラスタードアーキテクチャは、1つのモジュールで2スレッドを同時に実行できる。これは、1つのCPUコアの中で2スレッドを実行できる、IntelのHyper-Threadingと似ているように見えるが、大きく異なる。

　IntelのHyper-Threadingでは、CPU全体のリソースを命令単位で2つのスレッドで共有する。それに対して、AMDではCPUのリソースのうち整数演算パイプは2つのスレッドがそれぞれ専用パイプを持つ。しかし、命令デコーダや、浮動小数点演算ユニットなどは2つのスレッドで共有する。整数演算では、スレッド間の競合がないため、スループットが高い。

　AMDによると、CPUの用途では、実際には浮動小数点演算はアイドルの状態が多く、整数演算パイプがビジーになるという。そのため、競合の起こる整数演算パイプを二重化し、競合の少ない浮動小数点演算パイプは共有にしたと説明する。つまり、CPUの中でよく使われる部分は2スレッドそれぞれに分離、共有にした方が効率がいい部分はシングルにしたのがBulldozerのクラスタードアーキテクチャだ。

Bulldozerのアーキテクチャ

●パフォーマンスが80%アップするBulldozer

　Bulldozerの開発をリードしたAMDのChuck Moore氏(Corporate Fellow and CTO Technology Development)は、2005年のAnalyst Dayの中で、クラスタードアーキテクチャの利点を説明。CPUコアのリソースを50%増やすだけで、80%もスループットが上がると説明していた。この時の説明では、Hyper-ThreadingのようなSMT(Simultaneous Multithreading)は、リソースも少しで済むがパフォーマンスアップも少ないと説明している。

50%のCPUリソース増加で80%のパフォーマンス増

　Moore氏は、今回のAnalyst Dayでもアーキテクチャの説明を行ない、Bulldozerが80%のスループットアップを達成できると語っている。また、AMDは、クラスタードアーキテクチャに絡んだ特許もいくつか申請(United States Patent Application 20090006814, 20090024836など)している。

　Bulldozerの具体的な構造は下の図の通り。1つのBulldozer Moduleの中に、2個の整数演算コアがある。それぞれの整数演算コアは、4つの整数演算パイプラインを持つと言う。この4つのパイプは、ALU(演算ユニット)とAGU(アドレス生成ユニット)のペアが4個なのか、それとも2個のペアで合計4パイプと数えているのか、まだ明かされていない。現在のAMDアーキテクチャでは、ALUとAGUのペアが3個で、最大3つのx86整数演算命令を実行できる。ALUとAGUのペアが4個だとすると、1つの整数演算コアが、現在のCPUコアより拡張されている。ALUとAGUのペアが2個だとすると、現在のコアの2/3の規模となる。

Bulldozerのアーキテクチャ

Bulldozerの具体的な構造

　Bulldozer Moduleの命令フェッチとデコードは、各サイクル4命令だとされている。x86で4命令が、演算命令とメモリオペレーション命令に分解されて8個のuOPs(内部命令)になると考えると、整数演算パイプがALUとAGUのペアが2個であれば、ちょうど計算が合う。

　浮動小数点演算ユニットは、128-bitのSIMD積和算ユニットが2個備えられている。2ユニットを使って256-bitのIntel AVX互換SIMD命令を実行すると予想される。AMDは、Bulldozerに独自のSSE5を実装する計画を変更、Intelの256-bit SIMD命令AVXに独自命令を加えた命令を実装することにした。浮動小数点演算ユニットは、片方のスレッドが2パイプを両方とも占有することも、両方のスレッドで1パイプずつシェアすることも可能だという。

AMDの命令拡張の変更

AVXフォーマットの命令も取り込む

●IntelのAtomとは大きく異なるBobcatアーキテクチャ

　AMDは低消費電力&低コストCPU Bobcatについても、概要を明らかにした。Bobcatは、従来のAMDのK8コアやHound(K10)コアとも異なるアーキテクチャで、Bulldozerとも異なるという。1W以下をターゲットに開発された、完全に新しいコアで、IntelのAtomに相当する。

　しかし、アーキテクチャはAtomとはかなり異なる。最大2命令発行である点はAtomと同じだが、命令のスケジューリングの点に違いがある。Atomが、複雑性を廃するために命令を順番に実行するIn-Order実行を採用したのに対して、Bobcatは命令の順序を入れ替えるOut-of-Order実行を採用している。Out-of-Order実行の方がIn-Order実行より、命令の並列実行の確率が高くなるため、IPC(Instruction-per-Clock)が高くなる。その反面、CPUのスケジューラが複雑になる。

　Bobcatは、2命令発行2命令リタイヤ/サイクルのOut-of-Order実行コアで、パフォーマンスは相対的に同クロックのAtomより高いと推定される。AMDは、今日のメインストリームパフォーマンスで比較して90%を達成できると説明している。CPUのシリコンエリアは半分で済むという。つまり、50%のダイサイズ(の面積)で、90%のパフォーマンスを実現できることになる。

　こうした背景から、Bobcatは、Atomよりやや高いパフォーマンスレンジのアーキテクチャだと推定される。命令セットでは、今日のメインストリームCPUのフィーチャをカバーするという。x86命令セットの拡張では、SSE1～3と仮想化がサポートされる。

　BobcatもBulldozerと同じく2011年に登場する予定だ。最初の製品はOntarioでノートPC向けとなる。また、Bobcatはカスタム回路を使わずに、再利用しやすいように高レベル言語で書かれている。そのため、バリエーションが多数登場することが予想される。

Bobcatのアーキテクチャ

●APUの最初のチップLlanoがいよいよベールを脱ぐ

　AMDは、CPUにGPUコアを統合したAPU(Accelerated Processing Unit)の最初の製品Llanoについても概要を明らかにした。LlanoはノートPCとデスクトップPC向けに2011年の早期に登場する。製造プロセスは32nm SOIとなる。Llanoは、1個のダイに4個のCPUコアとDirectX 11 GPUコアを統合する。設計フローとして、ディスクリートのCPUとGPUそれぞれとして成熟した技術を、APUとして融合させるという。そのため、Llanoは、CPUコアもGPUコアも、2011年時点の最先端のものではない。CPUコアは現在のHound(K10)系コアを32nmにして拡張したもの、GPUコアもDirectX 11ベースとなる。

GPUとCPUの統合

LlanoはGPUとCPUを統合したAMD初のCPU

　AMDはLlanoのダイレイアウトも明らかにした。下は、現在のクアッドコアAthlon II X4(Propus)と比較した図だ。CPUコアのアーキテクチャはほぼ同じなので、CPUコアのサイズをプロセスの微細化に準じて縮小して、縮尺を推定。ほぼ同縮尺と推定される大きさに揃えてみた。その結果、LlanoとPropusのダイサイズ(の面積)はほぼ同じ程度だと見られる。

LlanoとPropusのダイサイズはほぼ同じ

　だとすると、32nmになれば、AMDは、現在の4コアCPUに、GPUコアを入れられるようになる計算だ。価格レンジも同程度で100ドルクラスに持って来ることができるだろう。Llanoを、同じ32nmでGPUコア統合のIntelのSandy Bridgeと比較したのが下の図だ。こちらも、推定で同程度と思われる縮尺に揃えてある。

LlanoとSandy Bridgeのダイサイズ比較

　LlanoとSandy Bridgeでは、GPUコアは同程度のサイズになると推定される。メモリコントローラもほぼ同じ。CPUコアではSandy Bridgeの方が大きく、キャッシュはSandy Bridgeの方がずっと大きい。そのため、Sandy Bridgeの方がダイが一回り大きいと推定される。

Llanoの主な特徴

●CPUとGPUのロードマップも刷新

　AMDはCPUロードマップも刷新した。ロードマップ自体は、昨年(2008年)のAnalyst Dayから大きくは異なっていない。細部がより明確になった。

　デスクトップでは、2011年には、BulldozerコアのエンスージアストデスクトップCPU「Zambezi(ザンビージ)」が登場する。昨年は、「Orochi(オロチ)」というコードネームだった。Zambeziは4または8コアなので、Bulldozer Moduleが2または4という計算になる。プラットフォームは「Scorpius(スコーピアス)」で、GPUアーキテクチャも新世代になる。メインストリームデスクトップでは2011年にLlano APUをベースにした「Lynx(リンクス)」プラットフォームに移行する。

　メインストリームノートPCでは2011年にLlano APUベースの「Sabine(セイバイン)」プラットフォームが登場。ネットブックやウルトラシンノートPC向けには、BobcatアーキテクチャのOntario APUの「Brazos(ブラゾス)」が登場する。

　サーバーサイドでは、2011年に12または16コアの「Interlagos(インテルラゴス)」が登場。Bulldozerコアで、MCM(Multi-Chip Module)で2ダイを1パッケージに封止すると見られる。プラットフォームはOpteron 6000系向けの「Maranello(マラネロ)」で、2または4ソケット向けの「ソケットG34」サポート。

　また、同時期に6または8コアの「Valencia(バレンシア)」が登場する。プラットフォームはOpteron 4000向けの「San Marino(サンマリノ)」で、1または2ソケット向けの「ソケットC32」。現在は、2ソケットと4ソケット向けのプラットフォームが共通のソケットFベースの「Fiorano(フィオラノ)」で、1ソケット向けだけがデスクトップと同じソケットAM2ベースで異なっていたが区分が変わる。CPUソケット数の上限以外でのG34とC32の最大の違いはメモリインターフェイスだ。G34が4チャネルメモリ、C32が2チャネルメモリとなる。


ノートブックプラットフォームのロードマップ	デスクトッププラットフォームのロードマップ	ハイエンドデスクトップのプラットフォーム

メインストリームデスクトップのプラットフォーム	メインストリームノートのプラットフォーム	ウルトラシン向けプラットフォーム


サーバー向けプラットフォームのロードマップ

　GPUでは、DirectX 11世代のR800系アーキテクチャへの移行が急激に進む。デュアルGPU「Hemlock(ヘムロック)」が来週登場するほか、来年(2010年)第1四半期にメインストリームとバリュー向けの「Redwood(レッドウッド)」と「Cedar(シーダー)」が投入される予定だ。モバイル向けのDirectX 11系も、来年(2010年)第1四半期に登場する。コードネームは、NYマンハッタン地区のストリート名シリーズで、「Broadway(ブロードウェイ)」、「Madison(マディソン)」、「Park(パーク)」が予定されている。

GPUのロードマップ

AMD CPUダイサイズの移行図

ダイサイズの推定