【後藤弘茂のWeekly海外ニュース】Tegraの省電力技術を応用したNVIDIAの次期モバイルGPU

■後藤弘茂のWeekly海外ニュース■

Tegraの省電力技術を応用したNVIDIAの次期モバイルGPU

●省電力技術での進歩が始まるNVIDIA GPU

　NVIDIAのFermi(フェルミ)アーキテクチャの次期モバイルGPUは、省電力の面では極めて優秀なチップになりそうだ。「GeForce GTX 460M」の型番が予想される次期モバイルGPU「N11E-GS」は、6月のCOMPUTEXで初めて公開された。

　N11E-GSなど、Fermi世代のノートPC向け新GPUの大きな特徴は、携帯機器向けプロセッサ「Tegra(テグラ)」に採用した省電力技術などを盛り込んだこと。パワーゲーティングや電力管理プロセッサ、パフォーマンスモニタ、小アイランド単位の電力制御など、Intel CPUのような省電力機能を盛り込む。Tegraの技術の応用は、NVIDIAが、省電力化に向けて、本格的に動き始めたことを示している。NVIDIA GPUの省電力化では、おそらく、この世代が大きなターニングポイントとなる。

　NVIDIAによると、モバイルGPUだけで、2～3個の新しいFermi(フェルミ)系GPUダイが登場するという。今のところ見えているのは、192個のプロセッサ「CUDAコア」を搭載するN11E-GS。また、その下には96コアと見られるN11P-GSクラスのチップがある。それぞれ、異なるパフォーマンスと消費電力のレンジをカバーする。

Kaushik氏

　N11E-GSは、エンスージアスト向けで比較的高TDP(Thermal Design Power:熱設計消費電力)の製品。N11E-GSの「E」というアルファベットは、このチップのTDPレンジが30W以上であることを示している。その下のパフォーマンス市場をカバーするN11P-GSなどは、「P」レンジの14～20W台をカバーする。NVIDIAは、まずは、ここまでをFermiに入れ替える。しかし、14W以下の「M」はFermiにまだ変えない。メインストリーム向けのダイサイズが100平方mm前後、プロセッサ数では48個と推測されるダイの予定が、まだ見えていない。NVIDIAでノートPC向け製品を担当するRavi Kaushik氏(Product Marketing Manager, NVIDIA)は、その理由を次のように説明していた。

　「今年の後半に、Fermiは低い価格帯、低い消費電力帯に浸透するが、ATIのようにボトムの価格帯には達しないだろう。理由はいくつかある。まず、Fermiが完全に新しいアーキテクチャであることが原因の1つだ。一定の価格ポイントまではスケールダウンできるが、ボトムラインの製品に要求される電力効率とパフォーマンスまでは、すぐには下げられないだろう。また、ボトムの市場も、そうした製品を受け容れる準備はできていないと考えている。

　もう1つの理由は、Fermiの登場が遅れたため、全体のスケジュールが遅れてしまったこと。下位の製品は今年のノートPC製品のリフレッシュには間に合わなくなってしまった。ボトムの製品は、CPUベンダーが来年の前半にプラットフォームをリフレッシュするタイミングに合わせることになるだろう」。

　パフォーマンスGPUのダイまでは、年内に登場。メインストリームGPUダイは来年早期になるのがNVIDIAのモバイルGPUのロードマップだ。同ダイを使うデスクトップGPUも、基本は似たロードマップとなる。ただし、ノートPC向けGPUは、デスクトップ向けGPUからの選別になるので、デスクトップの方が通常1四半期先行する。

NVIDIA GPUのダイと製品(PDF版はこちら)

●Tegraの回路設計をノートPC向けGPUにも応用

　NVIDIAは、携帯機器向けのTegraでは「パワーゲーティング(Power Gating)」などを効率的に使うことで、電力消費を抑えている。従来は、プロセッサ内のアイドル状態のユニットに対しては、クロック供給を停止するクロックゲーティングで低消費電力化を図っていた。ところが、クロックをストップしても、止められるのはアクティブ電力だけで、オフステイトのリーク電流(Leakage)を止めることはできない。そのため、リーク電流が支配的な現在は、クロックゲーティングだけでは、充分な省電力化が望めなくなってしまった。

　そこで、リーク電流を止めることができるパワーゲーティングの採用が有効になりつつある。アイドル状態ブロックへの電力供給自体を止めるパワーゲーティングでは、トランジスタのアクティブ電流とリーク電流の両方を止めることができる。NVIDIAのTegra系プロセッサは、この機能を有効に使っており、今回、それをPC向けGPUへと転移した。Kaushik氏はCOMPUTEXの時に次のように説明していた。

　「我々は携帯機器向けプロセッサのTegraで、省電力の回路設計を行なっている。回路設計技術者は携帯機器向けとGPU向けの両チームで共通なので、そうした携帯機器向けの設計をGPUにも適用しやすい。

　パワーゲーティングはそうした技術の1つで、FermiクラスのGPUにも採用する。モバイルGPUでは、現在FermiはハイエンドのGeForce GTX 480Mしかないが、今後数カ月でより低い価格帯のバージョンが登場する。我々は、パワーゲーティングをそれらの新GPUにも採用して行く予定だ。今後のFermiファミリは、はるかに電力効率の高い製品になるだろう」。

パワーゲーティングを採用したTegra

●コア単位でスリープさせて電力をカット

　これまでのGPUでは、パワーゲーティングは効率的な採用が難しかった。なぜなら、GPU全体で1つのカーネルプログラムを一斉に走らせる構造になっていたからだ。GPUの個々のプロセッシングブロックを、個別にスリープステイトにするといった制御はできなかった。GPUのスケジューリング機構はハードウェア制御で、そうした柔軟性を備えていなかったからだ。

　しかし、FermiではGPUの中でプロセッサを束ねたコア「SM(Streaming Multiprocessor)」単位で、個別に柔軟な制御ができるようになった。例えば、個々のSMは、それぞれ同じコンテクストの中の依存性のない異なるカーネルプログラムを個別に走らせることができる。マルチコアCPUが、それぞれのCPUコアで異なるスレッドを走らせるのと、少し似ている。

　そのため、Fermiではワークロードに応じて、SM単位でスリープさせるといった制御が原理的に容易になった。これにパワーゲーティングを組み合わせると、スリープさせたSMに対する電力供給をオフにして、リーク電流をほぼ完全に抑えることができると推測される。Intel CPUでパワーゲーティングを採用したNehalem(ネヘイレム)が、個々のCPUコアの電力をパワーゲートすることで、リーク電流をカットしたのと同じ原理となる。

　N11E-GS世代は、こうした機能を使って、アイドル時だけでなく、ワークロードが小さい場合も電力を抑えることが可能になると見られる。アイドル時の電力削減は、バッテリ駆動時間に大きく影響する。Optimus(ハイブリッドSLIの拡張)テクノロジで、NVIDIA GPUと内蔵グラフィックスの切り替えを行なわなくても、ある程度の電力低減は期待できることになる。

Fermiのスレッド制御方法(PDF版はこちら)

●パフォーマンスをモニタして最適な電力制御を行なうプロセッサ

　パワーゲーティング以外にも、N11E-GSとその前世代から、電力を制御するためのさまざまな仕組みが取り入れられた。Kaushik氏は次のように説明する。

　「パフォーマンスモニタリングユニット(Performance Monitoring Unit)が、各アーキテクチャ上のブロックに1個ずつ実装されている。このユニットが、各実行ユニットの占有率をチェックする。そのモニタ結果によって、例えば、動作周波数を変えるといった、電力制御を行なう。全てはハードウェアで、数ms(ミリ秒)と低レイテンシに行なわれる」。

　パフォーマンスモニタリングユニットは、各コアのスケジューリングユニットの一部として組み込まれているという。また、NVIDIAのN11E-GS世代GPUには、GPU全体の省電力制御を行なうために、32-bitの組み込みプロセッサコアを使った、プログラマブルなパワーマネージメントユニット(Power Management Unit)が実装されているという。これも、IntelのNehalemと似ている。クロックゲーティングなどの制御の単位を小さくしたことも特徴だ。

　「従来のGPU設計と異なるのは、粒度だ。これまでの製品より、Fermiの方がずっと細かな粒度で省電力制御を行なっている。アイドル状態になれば、小さなブロック単位で寝かせてしまうため、電力の効率がいい」(Kaushik氏)。

　電力制御のアイランドを小さくすることは、省電力設計の常套手段だ。アイランドが大きいと、その中に少しでも動作状態のユニットが含まれていれば、アイドル状態にすることができない。アイランドを小さく区切れば、効率的にアイドル状態のユニットだけを寝かせることができる。

　もちろん、新世代のNVIDIA GPUの電力効率が高いと言っても、あくまでも、従来のGPUダイと比べての話だ。また、トランジスタ数が多いため、アクティブ電力は大きく、TDP(Thermal Design Power:熱設計消費電力)は依然として高い。しかし、N11E-GSは、ピークTDPはともかくアイドル時電力は、これまでよりかなり下がるケースが出てくると推測される。

●ノートPC向けGPUの派生が難しくなりつつあるプロセス技術

　現在のモバイルGPUにとって最大の壁はプロセス技術の壁だ。プロセス技術の微細化とともに、モバイルGPUを派生させることは、どんどん困難になりつつある。

　GPUベンダーは、通常、デスクトップGPUとノートPC GPUを同じダイから派生させる。ノートPC向けには、低い電圧でも動作するダイを選別して使って来た。そうした派生が容易だったのは、GPUが安定動作できる電圧にかなりの幅があったからだ。

　しかし、過去数プロセス世代、半導体ベンダーはソースとドレイン間のオフステイトリーク電流(Ioff)を抑えるために、トランジスタのしきい電圧(Vt)を徐々に上げてきた。ダムのしきいが高ければ水が漏れ出す量が少ないという論理だ。しかし、そのために、チップの駆動電圧を下げにくくなってしまった。

　Vtが上がると、必然的に最低駆動電圧Vminを下げることが難しくなる。一方、最高駆動電圧Vmaxは微細化にともない徐々に下がってくる。するとGPUの動作電圧の幅がどんどん狭くなり、結果として、ノートPC向けチップを派生させることが難しくなるという。これが、今のGPUメーカーの抱えている問題だ。

プロセスごとの駆動電圧のしきい値

　「トランジスタを小さくしたり、Vtを下げると、リーク電流が激増する。そのため、今では各プロセス世代で、パフォーマンスと電力のバランスを注意深く取る必要がある。駆動電圧について言うと、現在のモバイルGPUはスペックでは0.9Vだが、次のプロセス世代で下げられるとしても50mVかその程度になるだろう。100mVも下げることはできないと考えている」(Kaushik氏)。

　Vtを下げられないと、駆動電圧を下げることができない。駆動電圧を下げることができなければ、アクティブ電力を下げることができない。つまり、リーク電流を抑えるために、アクティブ電力の削減も制約されている。また、電圧ウインドウの幅が狭まるので、デスクトップGPUとモバイルGPUの電力の違いも小さくなる。この問題は、今後も続くことが、NVIDIAの説明からわかる。

　これまで、GPUベンダー、特にNVIDIAは省電力設計にはそれほど熱心に取り組んでは来なかった。少なくとも、Intelのような、次々に新しい電力制御機構を取り入れる勢いはなかった。しかし、今回のFermi世代では、NVIDIAは省電力化に対する姿勢がかなり異なる。回路設計上のコストをかけても、積極的に電力を削ろうという意図が見える。おおまかに言うと、NVIDIAはFermi世代で、IntelがNehalem世代で達成したような省電力技術に追いつくことになる。

●GPUにとって困難が増す一方のプロセス技術移行

　NVIDIAの新ノートPC向けチップは、いずれも40nmプロセスで製造される。次の28nmプロセスへの移行は、1年以上先と見られており、今回はハーフノード(TSMCの高速ロジックでは40nmと28nmが実質メジャーノード)もなく、プロセスの移行に時間がかかることも浮き彫りになった。

　そもそも、NVIDIAは今回のTSMC 40nmプロセスで非常に苦労をした。2009年の後半には出ているはずだったFermiベースGPUは、大幅にずれ込んだ。「Fermiは、製品化が少し遅れてしまった。本当は6カ月早く出すはずだった」(Kaushik氏)という。TSMCでダイを試作してもきちんと動作しないため、一時はNVIDIAとTSMCの間が険悪になったほどだったと、ある業界関係者は言う。当初、その原因はTSMCの40nmの欠陥密度(defect density)が高いためだと報じられていた。

　「40nmプロセスは、最初は歩留まりが極めて悪かった。今は歩留まり自体は良くなっている」(Kaushik氏)。

　しかし、NVIDIAの物理設計の担当者John Y. Chen氏(Vice President Technology & Foundry Operations, NVIDIA)が昨年(2009年)11月の半導体カンファレンス「IEDM」で行なった講演「GPU Technology Trends and Future Requirements」によると、原因はもっと複雑で複合したものだった。特に、40nmプロセスになって、冗長配線の比率を低くせざるを得なくなったことで、欠陥率が大きく歩留まりに影響するようになったという。つまり、65nmと45nmを同じ欠陥密度(defect density)で比べた場合でも、45nmの方が歩留まりのロスがはるかに大きくなる。

　これは重大な問題を意味している。つまり「TSMCの今回のプロセスは歩留まりがたまたま悪かった」という類の問題ではなく、微細化とともにGPUのような複雑なチップの製造がどんどん難しくなることを意味しているからだ。Chen氏は、今後、良好な歩留まりを確保するためには、欠陥を限りなくゼロに近づけなければならないと警告していた。

プロセスの微細化と複雑なチップ製造

　このように、40nmプロセスで問題が顕在化したことで、微細化のペースは弱まった。欠陥密度が改善され、小型ダイの製品が登場したことで歩留まりが向上した今も、それは続いている。まず、生産量の移行のペースが鈍化している。「現在の問題は、ファウンドリ側の40nmプロセスの製造キャパシティの増加がスローペースなので、我々のデマンドの急増に追いつかないことだ」(Kaushik氏)。

　また、プロセス世代の移行のペースは、当初の見積もりよりも遅くなった。

　「次は28nmプロセスだが、28nmの量産は少し時間がかかることになるだろう。1年以内に移行できるとは考えていない。しかし、(同じ40nmプロセスでも)Fermiアーキテクチャで充分18カ月間は持たせることができるだろう。多分、あと1チップ世代程度は40nm世代で、それから28nmになりそうだ」(Kaushik氏)。

TSMCのプロセスロードマップ(PDF版はこちら)