【後藤弘茂のWeekly海外ニュース】ISSCCで各プロセッサベンダーが発表、IntelはIvy Bridgeを公開へ

■後藤弘茂のWeekly海外ニュース■

ISSCCで各プロセッサベンダーが発表、IntelはIvy Bridgeを公開へ

●Ivy BridgeやRosepointなど新チップが登場

　Intelの次期CPU「Ivy Bridge (アイビーブリッジ)」のベールがまた1枚はがれた。Ivy Bridgeはモジュラー設計で4種類の異なるダイ(半導体本体)がある。パワーゲーティングやキャッシュ待避のメカニズムなどが改良され、さらに省電力になった。

　米サンフランシスコで開催されている半導体の回路設計カンファレンス「ISSCC(IEEE International Solid-State Circuits Conference) 2012」の初日のプロセッサのセッションで、IntelのIvy Bridgeを始め、各社のCPUが発表された。Intelは、Ivy Bridgeのほか、無線トランシーバを統合したAtomベースのSoC(System on a Chip)「Rosepoint (ローズポイント)」、「近しきい電圧(Near-Threshold Voltage:NTV)回路」の試験チップなどを発表。省電力化と統合SoC化へと向かう方向を示した。

　AMDは、第2世代Bulldozerの「Piledriver (パイルドライバ)」のクロックディストリビューション設計を発表。同じ32nmでも、Bulldozerより電力効率をあげたことを明らかにした。Oracleは同社のスループット系CPUの「SPARC T4 (Yosemite Falls)」のCPUコア「S3」について発表。これまで、マルチスレッド性能偏重だったSPARC Tファミリから、シングルスレッドパフォーマンスを高める方向へと転じたことを明らかにした。また、Caviumは、MIPS64コアを32個搭載したメニイコアサーバーCPUを発表。ダイ(半導体本体)の多くの面積をアクセラレータユニット群に割いた設計を明らかにした。

　ISSCCでのCPU関連の発表を、ざっとまとめてみた。

●Ivy Bridgeはモジュラー設計で4タイプに作り分け

　IntelのIvy Bridgeは、Intelの22nmプロセスの最初のCPUとなる。ISSCCでは、ダイサイズ(半導体本体の面積)を始めとする概要が明らかにされた。Ivy Bridgeはモジュラー設計によって、4種類のダイバリエーションがある。CPUコアが4個でLL(ラストレベル)キャッシュが8MB、GPUコアが大型のGT2である「4+2」、4+2からCPUコアを2個削った「2+2」、4+2からLLキャッシュ量とGPUコアのシェーダプロセッサユニットを削った小型GPUコアGT1にした「4+1」、4+1からCPUコアを2個削った「2+1」だ。Sandy Bridge同様に、モジュラー設計で、マクロを削ることでダイサイズの異なる4バージョンを産み出している。

　4コアで大型GPUコアの最大構成の4+2のIvy Bridgeは、サイズが160平方mmでトランジスタ数は14億。Ivy BridgeのGPUコアはDirectX 11をサポートし、PCH(サウスブリッジチップ)経由も含めて3ディスプレイの同時表示をサポートする。メモリインターフェイスはDDR3で1,600Mbps、DDR3Lで1,333Mbpsまでをサポートする。パワーゲーティングは、CPUコアだけでなく、DDRコントローラなどにも拡張され、アイドル時の電力をより低減することが可能になった。


4種類のIvy Bridge	Ivy BridgeとSandy Bridgeのダイレイアウト(推測)	4コアIvy Bridgeの概要

Intel CPUダイサイズとマイクロアーキテクチャの移行図

●ついに無線トランシーバの統合にたどり着いたIntel

　Intelは2002年に「ラジオフリー(Radio Free)」というコンセプトを掲げた。MEMS(Micro-Electrical Mechanical Systems)技術によって、無線通信に必要なコンポーネントを全てSoCのシリコン上に統合するという構想だ。各無線通信技術に必要なコンポーネントを、再構成可能なデジタルラジオとして統合してしまう。あれから10年、ようやくIntelの構想が現実に近づいてきたことを示すのが、同社がISSCCで発表した無線統合のAtom SoCだ。

　Rosepointと名付けられた試作チップは、2個のAtomコアと、無線のRFトランシーバモジュール、チップセットを取りこんだワンチップモバイルPCだ。このSoCで、Intelはいくつかの重要な試みを行なっている。1つは、従来困難だったRFの統合を、ノイズ問題を解決して実現したこと。SoC化で重要な周辺インターフェイスのためのスイッチの仕様標準化を行なったこと。これは、SoCでは一般的で、例えば、ARMは自社プラットフォームのオンチップインターフェイスを標準化している。また、IntelはRosepointで、電圧レギュレータの統合も行なっている。Intelが今回統合したのは2.4GHzの無線LANだが、同様の手法で3/4G無線通信などの統合も可能だと見られる。


Rosepoint	Rosepointのブロックダイヤグラム	Rosepointのダイ写真

●超低電圧駆動を可能にする近しきい電圧回路技術

　Intelの今回のISSCCでの発表で、最も重要な論文は、「近しきい電圧(Near-Threshold Voltage:NTV)回路」技術かもしれない。Intelは、2011年9月の自社カンファレンスIntel Developer Forum (IDF)で、この技術を大々的にアピールした。そして、今回のISSCCでは、技術の詳細を明らかにし始めた。

　最大のポイントは、従来の動作電圧の下限を越えた超低電圧でCPUを動作させる点にある。Intelは、しきい電圧に近い0.5V以下での動作や、しきい電圧以下の280mVでのテストチップの動作の結果などを明らかにした。その結果、通常電圧で動作している時よりも、しきい電圧近くで動作している時の方が、電力効率が5倍もアップすることを明らかにした。

　Pentiumアーキテクチャのテストチップは、1.2V時に915MHzで動作、消費電力は737mWに達する。ところが、電圧を0.5V近くにまで落とすと、動作周波数は100MHzで、電力は17mWにまで下がるため、電力効率が通常電圧時より大幅にアップした。ただし、その後、電圧をしきい電圧以下に落として行くと、次第に電力効率は悪化する。スイートスポットは、しきい電圧近くの0.45Vまでだという。トレードオフは回路の複雑化で、実際の製品に落とし込んだ場合にどうなのかが、今後は試される。


電圧と周波数/エネルギー効率の関係	最大電圧、近しきい電圧、しきい電圧以下での電力構成

●AMDは4GHzオーバーを狙うPiledriverを発表

　AMDは4GHz以上をターゲットとする第2世代Bulldozerの「Piledriver」モジュールの、要となるクロックディストリビューションモデルについて明らかにした。クロックディストリビューションは、地味ながら高速CPUの設計では、最重要の要素の1つで、動作周波数や電力効率などを左右する。下はPiledriverのモジュールの図だ。

　上の2段がフロントエンド、真ん中の2段が2つの整数演算コア、下の1段が浮動小数点演算ユニットとなっている。下のBulldozerモジュールと比べると、ユニットの配置自体はPiledriverでも変わらないことがわかる。しかし、AMDによると、クロックディストリビューションは一新され、24%も効率が向上したという。クロックは、実際にはCPUコアの電力の24%を占めるため、影響は大きい。


Piledriverのモジュール図	Piledriverのダイ

●メニイコアサーバーの新チップ群

Caviumチップの概要

　Caviumは32個のMIPSコアを統合した。65nmプロセスで最高1.6GHzで動作、消費電力は40～65Wで、4MBの共有L2キャッシュを統合する。下はチップのダイレイアウトを示したものだ。CPUコアは茶色の縦の短冊形の細長い長方形の部分で、それぞれが2命令発行のMIPS64コアとなっている。中央の水色部分はキャッシュ関係で、左側の水色がアクセラレータ群となっている。こうして見ると、チップの相当な部分がアクセラレータで占められていることがわかる。

　Caviumはもともと特定用途向けのSoCやASSPを作るメーカーで、その延長でサーバーSoCが作られていてることがわかる。

　Oracle/Sun Microsystemsは、初代のSPARC Tシリーズから、一貫してCPUコアのシングルスレッド整数演算パフォーマンスは低く抑え、マルチスレッド性能の向上だけを追求してきた。CPUコアはシンプルなインオーダコアで、性能的には非常に抑えていた。今注目を集めている、スモールメニイコアサーバーの先駆けになったシリーズだ。

　しかし、OracleはSPARC T4から方針を転換、2命令発行のOut-of-Orderコアで、整数演算パフォーマンスを一気に5倍に引き上げた。性能要求に応えるためと、レスポンスタイムを短くするためだという。もっとも、スレッド並列性は従来通りを維持しており、ワンチップに8コアを搭載し、それぞれのコアが8マルチスレッドの実行が可能だ。8コアを納めたSPARC T4は、40nmプロセスで製造され、8億5,500万トランジスタを集積する。


SPARC T4の概要	S3コアの概要	S3コアのブロックダイヤグラム