後藤弘茂のWeekly海外ニュース
IDF Beijingで公開されたHaswellの省電力&オーバークロック機能
(2013/4/17 13:22)
Intel CPUでは大きなジャンプとなるHaswell
Intelの次世代CPU「Haswell(ハスウェル)」の強力な省電力機能の一端が、また明らかになった。
Haswellは、今年(2013年)中盤にIntelが投入する新マイクロアーキテクチャだ。大きな特徴はパフォーマンス面でのアーキテクチャ拡張と、省電力技術の両面で、これまでにない大規模な拡張を行なったこと。Intelは漸進的に段階を踏んでCPUの拡張を行なっているが、今回のHaswellは、Intelアーキテクチャの系譜の中では、大きなジャンプとなる。
Haswellのマイクロアーキテクチャは、命令発行ポートを2ポート拡張し、演算ユニットを増やして命令並列性を上げた。スーパースカラプロセッサでの命令発行ポートの拡張は、通常はCPUの命令制御回路の複雑性をポート拡張分の3乗に比例して増大させると言われており非常に重い。そのため、Intelは命令発行ポートの拡張を避けてきたが、ついにHaswellで増大させた。さらにHaswellでは、SIMD(Single Instruction, Multiple Data)演算ユニットを積和算対応にして、浮動小数点演算ピークパフォーマンスをクロック当たり2倍に高めた。また、トランザクショナルメモリ技術を導入した。
こうしたマイクロアーキテクチャ面での改革だけでも、かなり大規模だが、Haswellは省電力技術でもこれまでにない新展開を行なう。最大のポイントは、電圧レギュレータをオンパッケージに移して、より細粒度の電力制御を導入すること。加えて、より低電力で復帰の速い省電力ステイトを新設し、CPUを長時間スリープステイトに置くことができる割り込み制御を行ない、ローパワーのDRAMもサポートする。特に、統合電圧レギュレータ(iVR:integrated Voltage Regurator)は、半導体のFabを持つIntelならではの技術で、他社は追従できない。Intelは下のスライドにあるように、統合電圧レギュレータの試作を進めてきている。
IDF BeijingでHaswellの技術セッションを開催
Intelは同社の技術カンファレンス「Intel Developer Forum(IDF) 2013 Beijing」で、リリースまで秒読み状態となったHaswellについて、さらに突っ込んだ情報を公開した。技術セッションだけで、Haswellに深く関連するものが10セッションあった。大半は昨年(2012年)秋のサンフランシスコでのIDFで説明されたもので、新しい話題は限られる。しかし、新しい情報の中には、注目の統合電圧レギュレータに関するものが含まれていた。
ちなみに、Intelはつい最近までHaswellの電圧レギュレータ統合技術を「FIVR(Fully Integrated Voltage Regulator)」と呼んでいた。しかし、今回のIDF Beijingでは「iVR」となっていた。“Fully”の部分が、誤解を産む可能性があると判断したのかも知れない。HaswellのiVRは、完全なオンダイ統合ではないと見られている。
下のスライドにあるように、現在のIntelやAMDのCPUには、合計で5系統の異なる電圧での電力供給が、マザーボード上の電圧レギュレータから行なわれている。実際には、このほかにDRAMインターフェイスの電圧系統があるので、合計で6系統となる。
図中の電圧レーンは、Intel用語では、正確には下のようになる。スライド中でVcoreとなっているのがVcc、VgfxとなっているのがVAXG、VioがVCCIO、VpllがVCCPLL、VsaがVCCSAだ。従来は、外付けの電圧レギュレータが、これら5系統プラス1系統それぞれの電圧の出力レーンを備えて、CPUに供給してきた。
VCC:CPUコアとキャッシュへの供給電圧。スケーラブルに可変
VAXG:GPUコアへの供給電圧。スケーラブルに可変
VCCSA:ノースブリッジ機能を持つシステムエージェントへの供給電圧
VCCIO:I/Oパッドへの供給電圧(DRAMは含まない)
VCCPLL:PLLへの供給電圧
VDDQ:DRAMインターフェイスへの供給電圧
現状では、この6系統の電圧が限界で、これ以上に電圧レーンを増やすことができない。電圧レギュレータの複雑性を増してしまうことと、CPUパッケージの制約があるからだ。下は、IntelのライバルAMDが、2011年のCPUカンファレンス「Hot Chips」で示したスライドだ。IntelもAMDも同じ問題を抱えており、CPUに統合するコアや機能が増えるにつれて、問題がますます膨れ上がりつつあった。
想定と異なるHaswellの統合電圧レギュレータ
CPUへの電力供給での電圧レーンが限られることは、CPUの省電力機能にとって大きな制約だった。CPUの各ユニット毎に最適な電圧で調整しようとしても、ほかのユニットに引きずられて、一定の電圧にせざるを得なかったからだ。例えば、これまでのIntel CPUでは、CPUコアがアイドルになり低電圧に落ちると、内部のリングバスの電圧も落とさなければならず、その結果、リングバスの転送帯域が低下し、リングバスの末端にあるGPUコアの性能が制約されることがあった。
しかし、Haswellでは、統合電圧レギュレータの搭載によって、CPU内部の電圧制御を、より細かな粒度で行なうことができるようになった。下のスライドが、IDF Beijingで公開された統合電圧レギュレータの概念図だ。これを見ると、リングバスの電圧レーンは、完全にCPUコアとは分離されていることが分かる。また、I/Oへの電圧も2系統になっている。チップ外部からの供給電圧は、DRAMインターフェイス以外はVccinに統合され、Vccinから統合電圧レギュレータが電圧変換を行ない、各ユニットに供給する仕組みとなっている。
このチャートは、以前の記事で想定したHaswellの統合電圧レギュレータとは若干異なっている。以前の記事では、下の図のように、CPUコアそれぞれに異なる供給電圧が実現されると予想していた。左が従来型の外付け電圧レギュレータによるソリューションで、5系統プラス1の電圧レーンが電圧レギュレータからCPUへと提供されている。右が、想定したHaswell世代の統合電圧レギュレータで、オンチップの電圧レギュレータからコア単位で多数の異なる電圧プレーンに分離されると見ていた。
しかし、今回公開されたスライドから想定されるHaswellの電圧レギュレータの統合は下の図のようになる。スライドを見る限りは、CPUコア群とキャッシュは共通の単一電圧プレーンとなるように見える。リングバスはCPUコアから分離されるため、従来のようなバスとコアのパフォーマンスや電圧の問題は発生しない。しかし、もしスライドの通りなら、CPUコアは、負荷がそれぞれのコアで異なる場合にも、最適な電圧には調整されず、最も高い周波数のコアに電圧は合わせることになる。
Intelは、2011年のHot Chipsで、電圧レギュレータの統合の目標を、下の簡潔なスライドで表現した。コア単位での電圧供給による、パフォーマンスと電力の最適化がIntelの目標だ。もし、Haswellの実装が、コア群を同一の電圧プレーンとするものであれば、かなりおとなしいことになる。
ちなみに、Haswellでもオフチップの電圧レギュレータが2つ残り、実際には、これをなくすことはできない。これは、統合電圧レギュレータが低い電圧での電力供給を必要とするためだ。iVRへのVccinは通常で1.8Vとなっており、外部VRが必要となる。また、DRAMインターフェイス側はDRAMと共通の電力レーンが必要であるため、こちらはCPUに統合できず分離される。
オーバークロックと関係するIntelの細粒度電力制御
このように、Haswellの電圧プレーンの構成は、電圧レギュレータを統合したにしては、おとなしい設計となっている可能性が高い。Haswellが統合電圧レギュレータの最初の実装であることを考えると、これも無理はないかも知れない。CPUコアの電圧プレーンをそれぞれ可変にすることは、設計上は難しいことも多いためだ。
ただし、統合電圧レギュレータの利点は、空間的な細粒度の制御だけでなく、時間的な細粒度の制御にもある。電圧のスイッチを従来のオフチップの電圧レギュレータより高速に行なうことができるようになる。もし、Intelが、インダクタ部分をCPUダイの外に備えていたとしても、比較的高速なスイッチングが可能になると見られる。
IDF Beijingで面白かったのは、統合電圧レギュレータについての説明が行なわれたのが、「Enhancing the Overclocking Experience on Intel Enthusiast Desktop and Mobile Platforms」と題したオーバークロックについてのセッションであったこと。Haswellについては、電圧レギュレータの統合が伝えられて以来、ユーザー側で電圧や周波数をチューンしてのオーバークロックができなくなるのでは、という懸念が盛んに囁かれていた。このセッションは、そうした不安に答えるものだ。
結論から言えば、Haswellでは、これまで以上にオーバークロックの自由度が増える。ここで重要な点は、これが実はオーバークロッカーだけを対象とした機能拡張ばかりではない点だ。CPU内部の電力制御を、より細粒度に行なうことができるようにして行く過程で、オーバークロックに有利な機能が副次的に産まれている側面もある。
各ユニットをどんどん分離してきめ細かく制御できるようにして行けば、各ユニットの動作速度の上限を極めようとするオーバークロックも容易になって行く。例えば、CPUコア単位の電圧の制御が可能になれば、各CPUコア毎に上限の電圧を見極めて調整するオーバークロックも可能になるだろう。その意味では、省電力化は、オーバークロックへもある程度通じる道でもある。