後藤弘茂のWeekly海外ニュース

見えてきたAMDの次期CPU「Llano」の実像



●従来公開されていた写真より大きなダイ

 AMDは、台湾台北で10月19日に開催した技術カンファレンス「AMD Technology Forum and Exhibit (AMD TFE)」で、2011年のメインストリームPC向けCPU「Llano(ラノ)」のお披露目を行なった。同カンファレンスではLlanoのウェハを公開、また、短時間だが動作デモを行なった。これによって、Llanoの実像が明らかになり始めた。

 Llanoについて、TFEで公開されたウェハから、さまざまなことが明らかになった。まず、ダイサイズ。ウェハを見ると、4コア版のLlanoのダイは縦(CPUコアを上に見た場合)に18.x個、横に22個配置されているように見える。300mmウェハなので、ダイの各辺の長さは、計算上では縦が16mmちょっと、横が13.5mm前後となる。そのため、ダイサイズ(半導体本体の面積)は、計算上で220平方mm前後となる。

 この数字を、これまでの推定と較べると、二回りほど大きなチップであることが分かる。サイズ的には、4コア版の「Sandy Bridge(サンディブリッジ)」とほぼ同程度。ダイを詳しく見ると、新たに判明した部分のほとんどがGPUコアであることが分かる。

 下の図の左側のうち、カラーがついている部分がLlanoのダイで従来公開されていた部分。しかし、この部分だけだと面積は180平方mm程度で、実際のLlanoのウェハから導き出されるダイサイズと合わない。そこで、ウェハ写真からダイを切り出して、計算上のダイサイズに合うように整形した。すると、Llanoの実際のダイは、上3/4は従来公開されていた部分にほぼマッチするが、ダイの下の1/4の部分はこれまでの公開写真に入っていなかったことが見て取れる。

Llanoのダイレイアウト
PDF版はこちら
AMD Technology Forum and Exhibit (AMD TFE)で公開されたLlanoのウェハ(写真提供:多和田新也)

●GPUの統合でメインストリームCPUのダイが大型化

 ウェハを見る限り、Llanoは従来のAMDのメインストリームCPUのダイサイズである160平方mmまでのサイズを大きく上回る。AMDは、CPU側に内蔵グラフィックスとノースブリッジ機能を取りこんだことで、CPU自体のコストが上がっても利幅を充分確保できると踏んでいると見られる。これはIntelの戦略と同じだ。結果として、メインストリームCPUのダイサイズは、GPUを統合したAPU(Accelerated Processing Unit)世代からは、AMDとIntelとも200平方mm台に到達することになる。

 AMDは、バリューCPUセグメントでは、Bobcat(ボブキャット)コアの「Zacate(ザカーテ)」「Ontario(オンタリオ)」系を持ってきている。この2コア版Bobcatは、GPUコアを含めて70平方mm台と、これもIntelのAtom系と同程度のダイサイズに並べている。とすると、設計リソースに余裕があれば、Intelの2コア版Sandy Bridgeに対抗できる150~180平方mm程度のダイ(半導体本体)のLlanoも投入する可能性がある。ただし、記事の後半で説明するが、これには困難がある。

AMDのダイサイズ移行図
PDF版はこちら

 Llanoのダイでは、図の上の部分に4個のK10系CPUコアとL2キャッシュがまとめられている。このコアには「Husky(ハスキー)」という名前がつけられているが、実際にはほぼK10だ。若干のコンピューティング機能拡張と大幅な省電力機能拡張が加えられているほかは、K10コアと変わらない。

32nmのK10 CPUコア
PDF版はこちら

 Llanoのダイの両脇はI/O系で占められている。CPUコアから下の部分は、典型的なスタンダードセル設計部分に見える。AMDのGPUコアやI/Oコントローラの多くの部分はスタンダードセルを使っている(NVIDIAのGPUプロセッサコアはカスタム設計)ため、スタンダードセル部分はGPUコアやノースブリッジの一部(パッドなどを除く部分)であることが推測できる。

 ウェハ写真からのダイを見ると、新たに明らかになったダイ部分も同様にスタンダードセル部分のように見える。それらのブロックも、GPUコアとノースブリッジ機能で占められていると推定される。こうして全体像が明らかになると、LlanoではGPUコア部分がかなり大きいことがわかる。以前の記事でも簡単に説明したが、GPU部分のサイズは、IntelのSandy Bridge(サンディブリッジ)と比較すると明瞭だ。

●CPUコアとGPUコアのバランスが異なるAMDとIntel

 下はLlanoとSandy Bridgeを、ほぼ同一スケールで並べた図だ。どちらも32nmプロセスで200平方mm台のダイに、4個のCPUコアとGPUコア、PCI Express、2チャネルDRAMコントローラを内蔵する。似たような構成だが、GPUコア部分がAMDの方が大きく、CPUコア群の部分は逆にIntelの方が大きい。

 もう少し詳しく見ると、差はより明瞭になる。AMD Llanoの32nmプロセス版K10 CPUコアは、Intelの32nm版Sandy Bridgeコアと較べると、コア部分だけなら約半分のサイズしかない。K10コアのサイズは9.6平方mmで、1MBのL2キャッシュとパワーゲーティング回路のリング(CPUコアとL2をぐるりと囲んでいる)を含めても17.7平方mmしかない。それに対して、Sandy Bridgeコア(256KBのL2(ミッドレベル)キャッシュを統合)は軽く20平方mmを超える。サイズの差異は大きい。K10コアでは、コアサイズの小ささが武器となっている。

LlanoとSandy Bridgeの比較
PDF版はこちら

 GPUコア部分のサイズは、Llanoの方がかなり大きい。構成から見て、GPUコア側に、ノースブリッジ機能の多くが含まれていると見られるが、それでもGPUコアの差は明瞭だ。AMDは、IntelはスカラCPUコアの性能を追求して、ベクタエンジンの性能とのバランスが取れていないと主張しているが、その根拠はここにある。

 AMDは、これまでGPUをバルクプロセスの上で設計して来た。しかし、LlanoではSOI(silicon-on-insulator)プロセスにGPUも移植されている。そのため、GPUブロックは全て再設計する必要があったはずだ。新プロセスへの移植は、AMDにとっておそらく大きなチャレンジで、そのため、GPUコアは大人しいEvergreen世代の設計に止められたと推測される。

●Intelと異なるキャッシュとバスのアーキテクチャ

 Sandy Bridgeが8MBの“共有”LL(Last Level)キャッシュを搭載するのに対して、Llanoは各CPUコアに占有L2キャッシュを1MBずつ合計4MB搭載する。Intelは各CPUコアとGPUコアでLLキャッシュを共有するが、AMDではGPUコアはCPUとキャッシュを共有しない。AMDのJoe Macri氏(CTO, Fusion)は「GPUコアはキャッシュをバイパスする」と形容する。GPUコアの分離性はAMDの方が強く、Sandy BridgeのGPUコアのように大型キャッシュの恩恵は受けられない。ただし、グラフィックスタスクはキャッシュがCPUより効きにくく、キャッシュの制御もCPU用のブロックと分ける必要があり複雑になる。

 AMDでは4個のCPUコアの間に大きなロジックブロックが配置されている。伝統的なAMDマルチコアCPUの配置からすると、これはアービタとクロスバースイッチを含むCPUバス部分と見られる。ブロックの形状的にも、従来のAMDマルチコアCPUのクロスバーとそっくりだ。

 それに対して、Sandy Bridgeではそうした内部バスブロックが見当たらない。Sandy Bridgeでは、各CPUコアとGPUコア、ノースブリッジ部分を結ぶリングバスがLLキャッシュの上の配線層を使って実装されているからだ。そのため、Sandy Bridgeの方がコア部分の面積比が大きな、CPUとして効率のよい設計となっている。内部バス部分のサイズは、バスアーキテクチャを変えたSandy Bridgeの方がより優れている。

 Llanoの右、Sandy Bridgeの下に配置されたDRAMインターフェイスの面積はほぼ同じ。これは、どちらも同様に2チャネルのDDR3 PHYを実装しているためだ。I/Oで大きいのはどちらもPCI Express Gen2。物理的にはSandy Bridgeが20レーン、Llanoが24レーンのPCI Expressを実装する。LlanoのPCI Expressが多いのは、チップセットとの接続は従来のHyperTransportではなくPCI Express x4を使うからだ。また、PC向けSandy Bridgeでは、PCI Expressは16レーンとなっている。

●スケーラビリティに大きな違いがあるSandy BridgeとLlano

 LlanoとSandy Bridgeのダイでの大きな違いの1つはスケーラビリティだ。Sandy Bridgeのダイは、スケーラビリティを第1に設計されているが、Llanoはそうではない。

 下は、4コア版Sandy Bridgeから、CPUコアを2つ減らした場合の見積もりだ。2コアのレイアウトでも、DRAMインターフェイスなど各ブロックがそのままで、ぴたりと収まることがわかる。コア間を接続するリングバスはLLキャッシュの上層に配線されているため、CPUコアを減らした場合も、バスの設計や面積にほとんど影響がない。

 GPUコア内部の実行ユニットの増減はもう少しやっかいだが、CPUコアの増減だけなら、基本的に各ブロックの設計はいじらなくて済む。そのため、4コア版のSandy Bridgeでは、ダイ上にデッドスペースと見られる部分まで生じている。そうしたムダが生じても、スケーラビリティを優先したのがSandy Bridgeの設計だ。

Sandy Bridgeの4コアと2コア推定図
PDF版はこちら

 それに対して、Llanoの場合はCPUコア数を変える場合に、まずクロスバースイッチ部分の設計変更が必要となる。さらに、現状のレイアウトでは、両サイドのI/O部分の配置も変えなければならないと推測される。また、CPUコア自体が小さいため、LlanoはCPUコアだけを2個に減らしても、GPUコアを削らない限り、それほど大規模なダイサイズの削減ができない。製造コストを第1に考え、2コア版Sandy Bridgeに対抗するダイサイズにしようとするなら、GPUコアも規模を縮小する必要がある。

 こうして見ると、Llanoではバリエーションを設計するためには、かなりのエンジニアリング労力が必要になることが予想される。このことは、Llanoの製品構成にも影響を与える。AMDは、Llanoでは4コア版だけでなく2コア版も提供するとしている。しかし、2コア版を本気で設計しようとすると、それなりの開発リソースが必要になる。

 現状では、AMDはパフォーマンスCPUとして「Bulldozer(ブルドーザ)」を、バリューCPUとしてBobcatを平行して投入しており、開発リソースは極めてタイトだ。また、Llanoは、実際にはBulldozerベースの「APU」までのつなぎに過ぎない。そうした事情を考えると、AMDは、Llanoでは4コア版のダイ(半導体本体)から2コアを派生させる、つまりCPUコアを2つ無効にして2コア版とする可能性も高い。