【笠原一輝のユビキタス情報局】より薄く軽く、そしてより長く動くノートPCを実現するHaswell

■笠原一輝のユビキタス情報局■

より薄く軽く、そしてより長く動くノートPCを実現するHaswell

　米国サンフランシスコで開催されたIDF(Intel Developer Forum)の目玉は言うまでもなく「Haswell」だった。今回のIDFで、Haswellのマイクロアーキテクチャ、プラットフォームなどさまざまな詳細を発表し、大きな注目を集めている。

　本記事ではそうしたHaswellの特徴をプラットフォーム(SharkBayプラットフォーム)のレベルから眺めていきたい。10Wのような新しいTDPの枠を設けてより薄く、軽いUltrabookを製造可能になった点はもちろんだが、待機電力(アイドルパワー)が従来製品に比べて20分の1になり、その結果として平均消費電力が半分になることが大きな特徴になる。

　これにより、同じバッテリ容量のノートPC同士で比較すれば、Haswellは現行の第3世代Coreプロセッサ(Ivy Bridge)の2倍の駆動時間を実現できるのだ。

●基本的にはSandy Bridge/Ivy Bridgeの改良

　今回IntelはHaswellのマイクロアーキテクチャの詳細を明らかにした。すでに報道されている通りだが、一応復習を兼ねて概要をまとめていこう。

　Intel シニアフェローのトム・ピアッザ氏はHaswellの概要を説明するセッションの冒頭で「Sandy Bridge/Ivy Bridgeのマイクロアーキテクチャの特徴を受け継いだものになっている」と、Haswellの開発方針が第2/第3世代Coreを受け継ぎ、それを発展させたものであると述べた。実際、今回発表されたHaswellの概要を見る限り、確かにプロセッサのマイクロアーキテクチャそのものに関しては、Sandy BridgeやIvy Bridgeを受け継いでいる。モジュラーデザインで、4つのx86プロセッサコアを備え、LLC(最終レベルキャッシュ、L3キャッシュ)、DDR3メモリコントローラ、第4世代のIntelの内蔵GPUをリングバスと呼ばれる内部バスで接続されている構造はSandy Bridge/Ivy Bridgeと共通だ。

　もちろん世代が新しくなっていることがあり、プロセッサコアの内部構造にも手が加えられており、同じクロック周波数での性能は向上している。具体的には新しい実行ユニットが追加されたり、分岐予測まわりに手が入れられ、キャッシュのスループットが倍になるなどの改良が加えられている。また、新しい拡張命令セットとしてIntel AVX2(Advanced Vector eXtentions 2)が追加され、AVXを利用して演算を行なう際の効率が改善される。

　内蔵GPUも、基本的には従来製品の拡張版となる。GPUの基本設計は32nm世代のデュアルコアNehalem(第1世代Coreプロセッサファミリ、Arrandale/Clarkdale)で、MCMで1チップ統合されたIronlake(アイアンレイク、Intel的には第4世代Intel Graphicsコアと呼んでいる)の発展系で、APIとして新たにDirect 3D 11.1(Ivy BridgeはD3D 11)、OpenCL 1.2(Ivy Bridgeは1.1)、OpenGL 4.0に対応していることが新機能となる。

　ただし、Haswell世代のグラフィックスコアは特徴として、新たにGT3と呼ばれる上位のグラフィックスコアデザインが追加される。Ivy Bridge世代までは、GT1/GT2というSKUが用意されていたが、GT1はGT2の演算ユニットを半分無効にするという形になっていた。これに対して、HaswellではGT3という内部のユニットをGT2の倍にしたデザインが用意されており、GT2とは別デザイン(つまりGT3の半分を無効にしたGT2は存在しない)として提供される。

　GT1は依然としてGT2の半分を無効した形で提供されることになるので、実質的にHaswellのプロセッサのダイにはGT2とGT3という2つのGPUデザインが存在する。

●Haswell最大の特徴は待機電力20分の1

　今回IntelがHaswellの発表で最も力を入れていたのが、待機電力の大幅な削減だ。中でもIntelが強調していたのは、Haswellでは待機電力が、従来世代の20分の1になるという点だ。Intelは、Clover Trailの記事でも解説したS0ixという新しいSステートの追加など、複数の省電力技術を追加しており、その結果として待機電力が20分の1になっているのだ。

　半導体の消費電力というのは、いくつかの段階があり、それぞれ数値が異なっている。その代表的な例としては、熱設計消費電力(TDP、Thermal Desgin Power)、通常電力(Active Power)、待機電力(Idle Power)、平均消費電力(Average Power)などがある。実際にはもっと色々あるのだが、話を単純化するためにこれらを取り上げている。

プロセッサ電力の指標
熱設計消費電力	TDP	設計者が熱設計時に参照するピーク時電力、数値が大きければ大きいほど強力な放熱が必要になりノートPCは厚くなる
通常電力	Active Power	OSが通常稼働しているときの電力。さほどプロセッサやGPUなどに負荷がかかっていない状態
待機電力	Idle Power	OSが待機状態にあるときの電力
平均消費電力	Average Power	バッテリ駆動しているときに、平均的に消費している電力、この数値が低ければ低いほどバッテリ駆動時間が延びる

　半導体が消費している電力は一定ではない。プロセッサやGPUがフルパワーで演算を行なっているときと、そんなに負荷が高くないとき、さらにはプロセッサがほぼ停止している時では消費電力の大きさは全然異なる。

　通常PC用のプロセッサはWindowsが動作しているときに消費している電力が通常電力で、CPUにもGPUにも負荷がかかりプロセッサ全体が全力で動いているピーク時の電力量がTDPとなる(より厳密に言うならIntelのTDPは本当のピークではなく、若干ピークよりは低い。が、ここではピーク時の電力という意味でTDPを扱うことにする)。これに対して、OSやアプリケーションが何も処理を行なっておらず、待機状態にあるときを待機電力と呼んでいる。

　これに対して平均消費電力というのは、それぞれのシステムがバッテリで動いていた時に平均して消費している電力の値となる。具体的には次のような式で求めることができる。

平均消費電力＝(TDP×稼働時間＋通常電力×稼働時間＋待機電力×稼働時間)÷稼働時間

　こうして求められた平均消費電力の値は、バッテリ駆動時間への影響の指標となる。バッテリ駆動時間は、下記の式で求められるからだ。

バッテリ駆動時間＝バッテリ容量(Wh)÷平均消費電力

　同じ容量のバッテリが搭載されているシステム同士であれば、平均消費電力が低い方がより長時間のバッテリ駆動が可能になる。

●平均消費電力が2分の1になり、バッテリ駆動時間が倍になる

　ここで重要なことは、ノートPCやタブレットなどのデジタルデバイスがバッテリで稼働しているとき、稼働時間のうち90～95%程度は待機電力状態にあるということだ。

　具体的な例で考えて見よう。例えば、PCが10時間バッテリで動作するとして、2.5%がピーク状態にあり、2.5%が通常電力状態、95%が待機電力にあると仮定。Ivy BridgeのUシリーズではTDPが17W、通常電力が2W、待機電力が0.4Wだったとしよう。お断りしておくが、通常電力と待機電力は想定値でIntelが公開している数値ではなく、あくまで筆者の想定値としての数値だ。すると、図のような平均消費電力になる。

Ivy Bridgeの平均消費電力シミュレーション

　以前、PC用のプロセッサの平均消費電力は1Wより低いと書いたら、読者の方から「自分の持っているPCで調べたら常に2W近くを消費しているのに1Wだなんて納得できない」というメールを頂いたのだが、それに対する答えがこれだ。PCのプロセッサは実際には待機電力状態が90～95%なので、平均消費電力は1Wを切るのだ。

　では、HaswellでTDPが15Wに下がり、通常電力は同じ2W、待機電力がIvy Bridgeに比べて20分の1になるとして、どうなるのかを示してみると、以下のようなシミュレーション結果になる。

Haswellでの平均消費電力のシミュレーション

　待機電力が下がることで、平均消費電力もそれにあわせて下がることになる。筆者のシミュレーション結果では約半分だ。

　Intel 副社長兼PCクライアント事業本部事業本部長カーク・スコーゲン氏は「Haswellではパフォーマンスも、バッテリ駆動時間も倍になる」と発言したが、性能が倍になるのはともかく、バッテリ駆動時間が倍になるというのは、十分実現可能なことがよくわかるだろう。平均消費電力が半分になるということは、バッテリ駆動時間が倍になると言えるからだ。

●プラットフォームレベルでも待機電力を削減、LPDDR3をサポート

　さて、ここまで話を単純化するために、プロセッサ単体での待機電力の削減に話を絞ってきたが、Intelの言う待機電力が20分の1という数字は、実際にはプロセッサ単体で20分の1というのではなく、システム全体の待機電力が20分の1であると明言されている。つまり、その削減分には、プロセッサのアーキテクチャだけでなく、メモリなどの周辺部分も含めた待機電力の削減が実現されているのだ。

　そうしたことに最も貢献しているのが、メモリの待機電力の削減だ。IntelはHaswellにおいて、従来のDDR3/DDR3Lに加えて、モバイル機器向けDRAMとして開発されてきたLPDDR3のサポートを追加する。

	Sandy Bridge	Ivy Bridge	Haswell
DDR3	○	○	○
DDR3L	－	○	○
DDR3 RS	－	○	○
LPDDR3	－	－	○

　現行製品の第3世代Coreプロセッサ(Ivy Bridge)ではDDR3とDDR3の低電圧版であるDDR3L(1.35V)をサポートしている。さらに、DDR3Lには、待機電力を削減したDDR3L RS(RSはReduced Standbyの略)というバージョンが用意されており、待機時のセルフリフレッシュに要する電力を通常のDDR3Lに比べて大幅に削減できている。Intelが公開した資料によれば、待機電力が通常のDDR3Lに比べて約半分に削減できるという。

　なお、Intel シニアメモリエコシステム課長ジェフ・フィンデリー氏によれば「DDR3LとDDR3の価格差はもう無いが、DDR3L RSとDDR3Lの価格差は10%程度ある」とのことで、現状のIvy BridgeベースのノートPCではDDR3Lが標準の選択肢となり、DDR3L RSはハイエンドなモバイル向けのみという位置付けになっているようだ。

　Haswell世代ではこれらに加えて、LPDDR3という選択肢が加わる。LPDDR3は、現在タブレットやスマートフォンなどで一般的に利用されているLPDDR2の発展版で、通常電力が低いだけでなく、待機電力がDDR3Lに比べて4分の1程度になるというメリットがある。LPDDR3のサンプル出荷はすでに始まっており、IDFでもSamsung Electronicsなどが実際に展示してデモを行なっていた。

　ただし、LPDDR3に関しては、SO-DIMMのオプションは用意されず、マザーボード上の実装のみとなり、かつ「DDR3Lに比べて30%の割り増し価格となる」(フィンデリー氏)とのことで、非常に小型のノートPCやタブレットなどハイエンドモバイル向けという位置付けになるだろう。


Samusng Electronicsが展示したLPDDR3のデバイス	Samusng Electronicsが展示したのウェハ	Samusng Electronicsが展示した、DDR3LとLPDDR3の消費電力の比較

LPDDR3のスペック、クロックビンは1,600Mbsのみとなる予定	待機電力の比較、DDR3Lに比べて4分の1程度の待機電力を実現	SK HynixもLPDDR3のデバイスを展示

●HaswellのSoCがMCMで提供される故の制限

　このように、Haswell世代では、いろいろな段階で待機電力を削減する仕組みが導入されている。しかし、それでもすべてが解決したわけではなく、次世代以降に解決が回されている課題もある。具体的には本当の意味でのSoC化、つまりシングルダイ化だ。

　SoC版のHaswellがダイとしては1つではなく、プロセッサとチップセットがMCMの形で1つのパッケージに封入される形になっている。Intelは、HaswellやClover Trailにおいて、新しいSステートであるS0ixと呼ばれるステートを追加し、Haswellではプロセッサの新しいCステートとなるC7を追加するなどして待機時電力の削減を行なうほか、MicrosoftがWindows 8で導入するConnected Standbyに対応させる。

　Clover Trailの記事でも解説した通り、Clover TrailではシステムがS0i3モードに移行した時、プロセッサは完全にオフになり、GPUやビデオエンジンなどSoCのほとんどの部分はオフになる。事実上、省電力のコントロールエンジンだけがシステムからの復帰要求に備えるために起きているという、徹底的な省電力化が行なわれている。しかし、これはClover Trailが完全なSoC、つまり1つのダイだからこそできる話であって、パッケージの中で2つのチップが動いているHaswellでは、CPU側の省電力エンジン、チップセット側の省電力エンジンが個別に制御するため、ネイティブのSoCと比べると効率は良くない。


基調講演で展示されたSoC版のHaswell。PCHがボード上に搭載されていないことに注目。メモリはLPDDR3ではなくDDR3だった	展示会場に展示されていたデスクトップPC版のHaswell。こちらにはPCHがボード上に存在していることがわかる

●SoCに統合されるチップセットは古い世代のプロセスルール

　そしてもう1つの課題は、プロセッサは22nmプロセスルールという最新のプロセスルールで製造されているのに対して、チップセットはそれよりも1～2世代は遅れたプロセスルールで製造されているという事実だ。IntelはHaswell世代のチップセット「Lynx Point」について、今回のIDFでは何も語らなかった。

　OEMメーカー筋の情報によれば、IntelはLynx Pointの製造プロセスルールは45nmになると説明しているという。筆者は公式な情報ではないが、Lynx Pointが45nmというのはほぼ間違いないと考えている。Intelのチップセットは伝統的に、新マイクロアーキテクチャのCPUの時に、ノースブリッジが1世代前、サウスブリッジが2世代前のプロセスルールで製造されるという仕組みが継続されてきたからだ(現在のPCHはサウスブリッジ相当)。

Intelのチップセットの製造プロセスルール
プラットフォーム名	Santa Rosa	Montevina	Calpella	Huron River	Chief River	Shark Bay
プロセッサ	Merom 65nm	Penryn 45nm	Arrandale 32nm	Sandy Bridge 32nm	Ivy Bridge 22nm	Haswell 22nm
ノース	Crestline 90nm	Cantiga 65nm	Ironlake(GPU) 45nm
サウス	ICH8 130nm	ICH9 90nm	Ibex Peak 65nm	Couger Point 65nm	Panther Point 65nm	Lynx Point 45nm

実際、現在のSandy Bridge用Couger Point(Intel 6シリーズ・チップセット)およびその改良版(実際には同じダイ)となるIvy Bridge用Panther Point(Intel 7シリーズ・チップセット)は65nmで製造されている。Sandy Bridgeが32nmなので、ちょうど2世代前となる。Lynx Pointもプロセッサ(Haswell)の2世代前だと考えれば、45nmで辻褄が合う。

　しかし、技術的に見れば、Lynx Pointが2世代古いプロセスルールで製造されることは、消費電力の増加というデメリットがあるはずだ。もし仮にチップセットをSoCに統合して作るか、チップセットも同じ22nmで製造すれば、Haswellはさらに省電力を実現できる可能性があると言えるだろう。

　Intelがこうした仕組みを採用している最大の理由は、すでに原価消却の終わったラインの有効活用のほか、プロセッサに比べて利幅の小さいチップセットをコストの高い最先端ラインで作ることが利益率の低下を招くからだ。これは純粋に技術論ではなく、経済論の問題だ。

●2ダイSoCの課題が解決されるのは14nm世代以降か

　ただし、おそらくIntelは、こうした問題を、HaswellのSoCにMCM実装するLynx Pointの機能のいくつかを制限することにより回避するのだと筆者は考えている。現代のチップセットでは、USB 3.0コントローラやPCI Expressコントローラなどの消費電力が大きいので、これらを標準でオフにする(例えばUSB 3.0のコントローラの数を制限するなど)ようにすれば、通常電力を抑え、チップセット側にもより細かな省電力が可能なコントローラを追加すれば、ある程度待機電力も抑えられる。実際、SoC版のHaswellに統合されるLynx Pointには、Lynx Point-LPという別のコードネームがつけられており、そうした省電力向けの何かが施されたバージョンだと考えることができるだろう。

　この2ダイによるSoC(MCM)がいつまで続くかだが、少なくともHaswellの14nm版になると言われているBroadwellまでは、この状態が続くことになりそうだ。Broadwellに用意されているチップセットのWildcat Pointは、Lynx Pointと同ダイになる見通しで、同じ45nmプロセスルールで製造される可能性高い。

　従って、この問題が解決するのは、早くとも14nmのマイクロアーキテクチャ改良版となるSkylake世代以降ということになるだろう。

□バックナンバー

(2012年 9月 20日)

[Text by 笠原一輝]