後藤弘茂のWeekly海外ニュース

AMDが拡張版K10コアベースのAPU「Llano」を初公開



●台湾での技術カンファレンスでLlanoの動作デモを行なう

 AMDは、台湾の台北市内で開催した技術カンファレンス「AMD Technology Forum and Exhibit (AMD TFE)」で、来年(2011年)のメインストリームPC向けCPU「Llano(ラノ)」の動作デモを初公開した。また、Llanoのウェハを公開、Llanoが相対的にGPU性能を重視していることも明らかになった。

 AMDは、2010年末から2011年中盤にかけて、3つの新CPUファミリを投入する計画だ。最初に登場するローエンドCPU群は、新マイクロアーキテクチャ「Bobcat(ボブキャット)」ベース。来年中盤から後半に登場するハイエンドCPU群は、新マイクロアーキテクチャ「Bulldozer(ブルドーザ)」ベース。そして、来年前半に登場するメインストリームCPUであるLlanoは、従来のK10アーキテクチャベースとなる。3層の市場に、3層のCPUアーキテクチャで挑むのが、AMDの2011年のCPU戦略だ。このうち、Bobcatコアの「Zacate(ザカーテ)」と「Ontario(オンタリオ)」、K10コアのLlanoは、GPUコアを統合したAPU(Accelerated Processing Unit)として提供される。

AMDアーキテクチャの比較
PDF版はこちら

 3ファミリの新CPUのうち、BobcatのマイクロアーキテクチャとBulldozerの概要は8月のチップカンファレンス「Hot Chips」で公開された。また、Bobcatは9月のIntel Developer Forum(IDF)時にAMDが行なったメディアミーティングで実チップによる動作デモが公開された。Bulldozerは、製造を担当するGLOBALFOUNDRIESが開催したカンファレンスで、ダイ写真が公開された。しかし、Llanoの姿は、2月の半導体カンファレンスISSCC(IEEE International Solid-State Circuits Conference)で、CPUコアの技術が公開された以外は、これまで見えないままだった。

 AMD TFEで、同社のChris L. Cloran氏(Corporate Vice President and General Manager, Computing Solutions Group, Client Division, AMD)は、壇上でLlanoのウェハを掲げて公開。また、Llanoの動作チップを使って、円周率計算と、Blu-rayの再生、GPUを使ったn-Bodyシミュレーションといった処理を並列に行なうデモを公開した。デモ自体はごく短時間で、多様なアプリケーション性能がわかるデモではなかったが、メッセージは明瞭だ。CPUに負荷の高い処理をやらせても、ビデオエンジンと、GPUによる並列コンピューティングによって、並列処理ができることだ。

Llanoのウェハを掲げるChris L. Cloran氏(Corporate Vice President and General Manager, Computing Solutions Group, Client Division, AMD) AMD TFEで行なわれたLlanoの動作デモ

●ウェハが公開され明らかになったLlanoの姿

 今回のAMD TFEでは、Llanoについては新事実が次々に明らかになった。まず、Llanoのダイは、以前の推定よりずっと大きく200平方mm台だった。詳細は次の記事でレポートするが、Llanoダイでは、これまで公開されていなかった新たなブロックの存在が明らかになった。増えたブロックはGPUとノースブリッジ関連だ。このことから、Llanoの設計では、AMDがGPUコアの演算パフォーマンスにかなり重点を置いていることが鮮明になった。

 これは、同じ2011年前半にIntelが投入する「Sandy Bridge(サンディブリッジ)」と比較すると明瞭だ。Sandy BridgeとLlanoは、どちらも4個のCPUコアとGPUコア、PCI Express、2チャネルDRAMコントローラを内蔵する。構成は非常によく似ているが、その内容は大きく異なっている。下が同スケールで比較したLlanoとSandy Bridgeのダイだ。

LlanoとSandy Bridgeの比較
PDF版はこちら
Cloran氏

 Sandy Bridgeでは、CPU全体のうち半分以上をCPUコアとキャッシュが占めている。それに対して、LlanoではCPUコアとキャッシュは、CPU全体のわずか30%程度しか占めていない。この差のかなりの部分は、GPUコアが占めていると推定される。面積が大きければ、それだけGPUパフォーマンスが増える。AMDはLlanoのGPU性能は「(Zacateと比べるとグラフィックス性能の差は)顕著だ」(Cloran氏)「ディスクリートGPUクラスの性能がAPUのダイに載っている」(Bob Grim氏 Director, Client Product Marketing, AMD)と説明する。

 大きな内蔵GPUコアは、AMDがGPUを使った汎用コンピューティング(グラフィックス以外の汎用的な利用)に注力していることを意味する。AMDは、CPUコアによるスカラプロセッシングと、GPUコアによる並列プロセッシングを組み合わせた、ヘテロジニアス(Heterogeneous:異種混合)コンピューティングへの取り組みを強調してきた。Llanoのデモと設計からは、その主張が、単なるマーケティングメッセージではなく、本気の取り組みであることがわかる。AMDのCloran氏は、次のように語る。

 「Intelは明らかに依然としてx86スカラパフォーマンスを押し上げようとしている。そのために、(Sandy Bridgeの)GPUは小さい。それに対して、我々はバランスの取れたアプローチを取ろうとしている。x86パフォーマンスも非常に重要だが、同時に、GPUでのベクタプロセッシングで走らせた方がいいタスクも膨大にある。だから、我々は、それぞれのワークロードをコンピュータのどこで走らせるのが最も効率的かを考えてバランスを取っている」。

 簡単に言えば、Intelは大きなCPUコアで従来のx86スカラパフォーマンスを高める方向へ向かい、AMDは大きなGPUコアでこれから必要になると彼らが考えるベクタパフォーマンスを高める方向へ向かっている。そのため、IntelのGPUコアは相対的に小さく、AMDのCPUコアは相対的に小さい。ただし、Intelはx86コア側のベクタユニットも256-bit幅のAVXへと拡張しており、スカラプロセッサに付属するベクタパフォーマンスも増している。IntelのCPUコアが大きい理由の1つは、ベクタ性能を高めた点にもある。そのため、アーキテクチャの違いは、ベクタプロセッシングをどこで行なうかの、切り分けの違いと考えることもできる。

AMDダイサイズの移行図
PDF版はこちら

●徹底した省電力化が図られたLlanoのCPUコア

 AMDはLlanoを、主にメインストリームのデスクトップとノートPC向けに投入する。Cloran氏によると、Llanoは、まずノートPCに投入され、デスクトップがそれに続くという。AMDがノートPCでのLlanoを重視するのは、LlanoがAMDメインストリームCPUとしては、これまでになく省電力だからだ。

 AMDは、Llanoに搭載する32nm版K10コアの技術を公開している。それによると、LlanoのK10コアは、省電力面については、従来のAMD K10とは全く別物だ。LlanoのK10コアは、従来のK10コアと同じ消費電力だと考えてはいけない。

 Llanoでは、(1)半導体技術レベル、(2)回路設計レベル、(3)アーキテクチャレベルの3つのレベルで省電力化が図られている。

(1)半導体技術レベルでは、GLOBALFOUNDRIESの32nm SOIプロセスが「High-k Metal-Gate (HKMG)」を採用したために、トランジスタレベルでリーク電流(Leakage)の低減が実現されている。

(2)回路設計レベルでは、キャッシュメモリの8Tメモリセル化による低電圧駆動や、チャネル長の長いトランジスタ(LC-RVt)の多用によるリーク電流低減が実現されている。また、コアレベルのパワーゲーティングがサポートされ、アイドル時の電力を完全にカットできるようになった。

(3)アーキテクチャレベルでは、パワーモニタ回路がCPUコアに実装され、正確に電力消費を監視することで、よりきめ細かな電力管理が可能になった。

 そのため、45nm版K10コアと比べると、Llanoの32nm版K10コアは電力消費がかなり小さくなっている。32nm版は45nm版に比べて、リーク電流では68%、ダイナミック電流では84%に下がるという。つまり、LlanoのCPUコアは、アイドル時も動作時も、どちらも電力が低くなる。

45nmと32nmの電力消費比較
PDF版はこちら

●K10コアにアーキテクチャ拡張も

 また、パフォーマンスに関わるアーキテクチャ部分でも、LlanoのK10コアは、これまでのK10コアと比べて拡張されている。拡張部分は、それほど大きくはないが、効率の向上に寄与しそうな部分が含まれている。

 まず、32nm版ではアウトオブオーダ実行の命令ウインドウが、従来の72エントリから84エントリへと拡張された。これは、整数と浮動小数点(FP)のどちらの実行スループットも向上させる。整数演算では、除算がハードウェア化された。浮動小数点演算(FP)命令のレイテンシも短縮されている。この他、データプリフェッチが拡張され、メモリフィルとキャッシュステイトのトランジションが高速化、バーチャライゼーションの高速化のためのTLBの拡張がさらに進んだ。

32nmのK10コア
PDF版はこちら

 拡張は加えられているものの、CPUコアの基本レイアウトは従来とほとんど変わっていない。これは、45nmと32nmのレイアウトを比較した下の図を見ると一目瞭然だ。フロムスクラッチで設計された、BulldozerやBobcatとは異なり、あくまでもマイナーチェンジだ。BulldozerとBobcatに開発リソースを割いているAMDには、K10コアを大きく拡張する余裕はないものと見られる。

32nmと45nmのK10コア比較
PDF版はこちら

 コアを大きく変更しなかった利点はコアの小型化だ。AMDのK8/K10系CPUコアは、プロセス技術の微細化とともに、どんどん小型化しており、32nm版ではついに10平方mmを切る。同じ32nmのSandy Bridgeと比べると、CPUコアのサイズは半分程度となっている(ただしSandy BridgeのCPUコアはL2も含んでいる)。そのため、AMDはSandy Bridgeと同レベルのダイサイズのLlanoに、より大きなGPUコアを搭載することができた。

AMDのコアサイズの推移
PDF版はこちら