後藤弘茂のWeekly海外ニュース

NVIDIAがスマートフォンに切り込むための「Tegra 4i」の秘密

（2013/2/28 14:01）

Tegra 4と4iの両輪でスマートフォン市場まで視野に入れる

　NVIDIAはPC向けグラフィックスチップの企業から大きく変身しつつある。モバイルからスーパーコンピュータまでの、グラフィックスと汎用並列プロセッサの企業へと転身を図っている。HPC(High Performance Computing)市場に対する「Tesla」とモバイル市場に対する「Tegra」は、脱PCのための両輪で、重要な戦略だ。NVIDIAのここ1～2年は特にモバイルに注力しており、どんどん投資を増やしている。

　NVIDIAはTegraシリーズでタブレットでは一応の成功を収めた。しかし肝心のスマートフォンでは、まだ成功にはほど遠い状況(中国市場では一定の成功)にある。NVIDIAがTegra 4世代で目指すのは、タブレットを強化しつつ、スマートフォン市場にもっと浸透して、Qualcommと戦えるようにすることだ。そのための切り札が、LTEモデムをダイに取りこんだモバイルSoC(System on a Chip)「Tegra 4i(Grey)」だ。

　NVIDIAはMWC 2013に合わせてTegra 4iを発表。Tegra 4(Wayne)との両輪でモバイル市場を攻める。チップアーキテクチャを見ると、Tegra 4とTegra 4iは兄弟のようだ。CPUコアはどちらもクアッドコア+1省電力コアの構成、GPUコアは共通の新アーキテクチャ、コンピュテーショナルフォトグラフィをサポートし、どちらも28nmプロセスに載っている。

　しかし、両者はパフォーマンスで差別化がなされており、CPUコアはTegra 4が強力なCortex-A15で、Tegra 4iはメインストリームのCortex-A9。GPUコアはTegra 4の方が強力で、メモリインターフェイスもTegra 4が2倍である。

2種類のTegra 4

TegraファミリのALU
PDF版はこちら

Tegra 4iの概要

Tegra 4

Tegra 4iでも「Tegra 3」より大幅にパフォーマンスアップ

　重要なポイントは、Tegra 4iであっても、「Tegra 3」よりずっとパフォーマンスが高いチップ構成となっている点で、特にグラフィックス性能は全く別物だ。正確に言えば、Tegra 3が、この世代としてはグラフィックスパフォーマンスが相対的に低かったため、Tegra 4iでも性能レンジは大きく伸びる。

　NVIDIAは660MHzでGPUコアを動作させるTegra 4iでは、416MHz動作のTegra 3 T30Lに対して、頂点シェーダの性能で4.5倍、ピクセルシェーダ性能で9倍の違いが出ると説明している。もっとも、ピクセル出力のレートやテクスチャフィルタリングレートは1.5倍に留まる。それは、ピクセル出力とテクスチャフィルタユニットの数はTegra 3と同等のままで、高クロックで動作させるだけだからだ。ちなみに、Tegra 3でも、より高パフォーマンスのT30やT33と比較すると、差はもっと縮まる。

Tegra 4のGPU構成

　Tegra 4iのGPUコアをTegra 4のそれと比較すると、ジオメトリパイプラインはTegra 4の2分の1だが、ピクセルシェーディングの演算能力はTegra 4と同等クラスとなっている。ただし、ピクセル出力とテクスチャフィルタリングはTegra 4の半分で、ピクセルシェーディングだけが突出している。これは、ピクセル出力やテクスチャフィルタリングがメモリ帯域に縛られるためで、Tegra 4iの狭いメモリ帯域に合わせていると見られる。Tegra 4iの場合は、メモリインターフェイスがTegra 4の半分のx32であるだけでなく、統合したモデムも共有メモリの帯域を消費してしまう。

　ピクセルシェーダプロセッサの数が多い、もう1つの理由は、ピクセルシェーダのコストが安いことだ。タイリングアーキテクチャのほかのGPUコアアーキテクチャでは、効率性を考えてシェーダプロセッサの構成をユニファイドシェーダにしなければならず、その場合、演算精度を頂点に合わせるためプロセッサを32-bit精度に上げなくてはならない。しかし、NVIDIAの場合はイミーディエイトモードで非ユニファイド型のパイプラインであるため、ピクセルプロセッシングの方は演算精度を下げることができる。つまり、演算精度を下げて軽くしたプロセッサを多数積むという「ズル」をすることができる。Tegra 4iは、それを使って、ピクセルシェーディングの演算性能を上げている。

Tegra 4のGPU
PDF版はこちら

Tegra 4iのGPU
PDF版はこちら

Tegra 4とTegra 4iはプロセス技術が異なる

　Tegra 4はタブレットとパフォーマンススマートフォン、Tegra 4iは主にスマートフォンだがタブレットも視野に入れる。両チップの位置付けはこのように、パフォーマンスレンジで切り分けられており、プロセッサの構成もそれに準じている。しかし、動作周波数だけは別で、Tegra 4iの方が高クロックで回る。

　具体的にはTegra 4iはCPUコアが2.3GHzで動作するが、Tegra 4は1.9GHzとなっている。Tegra 4iはCortex-A9の最新版であるCortex-A9 R4、Tegra 4はCortex-A15とCPUコア種の違いはある。しかし、Cortex-A15の方がパイプラインが浅いわけではなく、また、Cortex-A9 R4も特にパイプラインが深いわけでもない。CPUアーキテクチャだけを見ると、両チップの動作クロック差は説明がつかないが、実は明瞭な理由がある。それは、Tegra 4iの方が、より高速なプロセス技術を使っているからだ。

TSMCのロードマップ
PDF版はこちら

TSMCの製造プロセス技術

　Tegra 4とTegra 4iはどちらもTSMCの28nmノードのプロセス技術を使っている。しかし、Tegra 4は低消費電力の「CLN28HPL」を使っているのに対して、Tegra 4iはモバイルでハイパフォーマンスの「CLN28HPM」を使っている。どちらもHigh-k/Metal Gate(HKMG)をゲート絶縁膜に使ったプロセスだが、28HPMの方がハイパフォーマンスに振られている。NVIDIAのPhil Carmack氏(SVP, Mobile BU, NVIDIA)は次のように説明する。

　「28HPMと28HPLの最大の違いは、HPMではトランジスタに歪みシリコン(Strained Silicon)を使っている点だ。そのため、HPMでは高いパフォーマンス/電力を達成できる。だから、Cortex-A9程度の大きさのCPUコアなら、28HPMは理想的なプロセス技術だと考えている。とりわけ、Tegra 4iの場合は、ソフトウェアディファインレディオ(SDR)のモデム部も高速に動作させる必要があるため、28HPMは合っている。

　しかし、28HPMには危険もある。それはアイドル時のリーク電流量が増えることだ。我々は、電力セーバーコアへと切り替えることで、使わない時はハイスピードトランジスタを使ったパフォーマンスコアをオフにすることができる。しかし、CPUコアのサイズがCortex-A9より2倍以上大きいCortex-A15の場合は、それでも電力が増える危険がある。CPUコアが大きい分だけトランジスタ数が多く、よりリーク電流(Leakage)が増える可能性があったからだ。Tegra 4ではその危険を避けるために、28HPLを採用した」。

　28HPMでは、歪みシリコンにドーピングされているためトランジスタはより高速だが、リーク電流が増す危険があったという説明だ。Cortex-A15ではロジックトランジスタ数が多い分だけ影響を受けるため、大事を取って28HPLの採用にしたという。確かに、下のスライドを見ても、28HPMのトランジスタは28HPLのトランジスタより、同じオプションでも高速だがやや電力消費が大きい傾向がある。四角が28HPMで、菱形が28HPLだ。

28nmの各プロセスにおける動作電圧

各プロセスの消費電力

　しかし、ARMの「POP(Processor Optimized Packages)」などは28HPMプロセスをターゲットに提供されている。そのため、NVIDIAはPOPのような物理設計を手助けするサービスは使わなかったという。物理設計はNVIDIAで行ない、GPUで行なっているようにカスタム回路も使ったという。

小さく収めたTegra 4/4iのダイサイズ

　28nmで製造する利点は、40nmプロセスよりトランジスタ密度が高く、その分、パフォーマンス当たりのダイを小さくできる点。NVIDIAはTegra 4のダイサイズを80平方mm台中盤、Tegra 4iを60平方mm台前半だと説明する。ディスクリート版のチップでダイサイズを測ってみると、Tegra 4は86平方mm前後、Tegra 4iは62平方mm前後であるように見える。

　Tegra 4のダイは40nmのTegra 3のダイの81.9平方mmからそれほど大きくはなっていない。異OSのライバルである「iPhone 5」の「A6」は32nmプロセスで95平方mm、第4世代「iPad」の「A6X」は123平方mmであり、特にA6Xと比べるとTegra 4はかなり小さい。Android陣営のSoCではやや大き目だが、極端に大きいわけではない。PC向けCPUと比べると、ローエンドのデュアルコア版よりもサイズが小さい。

モバイルSoCのダイサイズ移行図
PDF版はこちら

　一方のTegra 4iは、メインストリームのLTEモデム統合版SoCとしてはかなりダイが小さい。Tegra 4iのダイを小さくできた最大の理由は、ソフトデファインレディオのLTEモデム部分のダイエリアが非常に小さいためだとNVIDIAは説明する。他社は、面積効率が悪いハードワイヤードのモデムを統合するため、モデム統合チップはダイが大きくなりがちだ。NVIDIAが買収した英国のモデムチップベンチャーのIceraは、Deep eXecution Processor(DXP)と呼ぶ特殊なプロセッサで、ソフトウェアによりモデムを実現することで、ダイを小さく留めている。

IceraのLTEモデム

Tegra 4iはパッケージも小さい

　パッケージサイズは、Tegra 4がディスクリートの14×14mmのFCCSP(Flip-chip Chip Scale Package)と23×23mm BGA(Ball Grid Array)。Tegra 4iが12×12mmで、DRAMと積層したPoP(Package On Package)とディスクリートのFCCSPで提供される。スマートフォンを戦場とするTegra 4iでは、実装面積を減らすことができるPoPが用意されている。

　下の写真はTegra 4iのパッケージだ。いずれも12×12mmのパッケージ。左はPoPで、Tegra 4iのパッケージの上にエルピーダのLPDDRパッケージを積層したもの。真ん中はPoPのDRAMパッケージを載せていない状態のもので、下側のTegra 4iのパッケージが見えている。右はディスクリートのTegra 4iパッケージで、ベアダイが見える。

Tegra 4iのパッケージ

　Tegra 4iの強みは、クアッドコアでLTEモデムを内蔵していながら、12×12mmのパッケージに収まるダイサイズにできたこと。NVIDIAは、他社のクアッドコアでLTEモデム内蔵のSoCのサンプルはダイサイズがTegra 4iの倍で、15×15mmのPoPであり、Tegra 4iが有利だと説明する。

　パッケージが小さい分、実装面積を小さくして小型の筐体に配置しやすくなる。これは、モバイル機器では想像以上に重要で、Tegra 4iの利点となっている。NVIDIAがTegra系で、小型ダイサイズにこだわる理由は、チップの製造コスト以上に、パッケージの小型化にある。Tegra 4はモデム抜きでも12×12mmには収まらないが、それでも14mm角のパッケージだ。

競合他社との比較

リファレンスデザイン「Phoenix」を提供

　NVIDIAはTegra 4/4iでは、スマートフォン開発用に「Phoenix(フェニックス)」と呼ぶリファレンス設計サンプルボード兼開発システムを提供している。5型の1080pディスプレイスマートフォン向けの基板で、LTEモデムやTegra 4ファミリのコンピュテーショナルフォトグラフィ機能を含んで、8mmの薄さが実現可能となっている。

Phoenixのデザイン

　Phoenixの基板は5型フォームファクタに収まるように設計されており、長さは134mm、幅は22mm。PCのリファレンス設計と同様に、この通りに作れば市場に出せるように、電気、熱、パッケージング、エミッションなどを全て解決してある。NVIDIAは、同じサイズの基板で、Tegra 4i版とTegra 4版の両方のリファレンスを準備している。下の写真の上がTegra 4で下がTegra 4iだ。スライドはTegra 4版のデバイス配置を示している。基板設計は似ているので、Tegra 4版とTegra 4i版の選択が簡単にできるとNVIDIAは説明する。

Phoenixの基板デザイン

　写真のTegra 4i版はPoP版ではなくディスクリート版で、中央のTegra 4iチップの横にDRAMパッケージが並んでいる。しかし、LTEモデムは統合しているため、その右側のモデム部とモデム用メモリの部分は空白となっている。実際には、この基板設計はTegra 4に合わせたもので、Tegra 4iでは空きスペースができている。NVIDIAは、Tegra 4iでは、もっと小さなフォームファクタや、極薄設計にも合わせることができると説明する。

　Tegra 4/4iからわかるのは、NVIDIAが、モバイル向けのチップの作り方を、同社が飲み込んで洗練させつつあることだ。10年前の2003年に携帯機器向けのGPUベンダーMediaQを買収した当初は、NVIDIAのモバイルプロセッサビジネスは、よちよち歩きで、方向も定まらなかった。しかし、アプリケーションプロセッサを統合してTegraにリブランドして以降は、段々と戦略の骨子を固め、そしてTegra 3以降は一気に加速を始めた。

　今回のTegra 4/4iでは、Qualcommのようなモバイル一筋で進んで来たベンダーに匹敵するラインナップとなった。もはや、TegraがGPUベンダーの余技ではなく、NVIDIAの新しい柱であることは明白だ。それだけに、NVIDIAはここで成功しなければならない。しかし、市場にはQualcommやSamsung、あるいはTexas Instruments(TI)やMarvell、それに独自路線を行くApple(現在の製造ファウンダリはSamsung)、そして参入を狙うIntel、ローエンドから広がろうとするMediaTekと、多数のメーカーがひしめいている。

　そして、この市場は競争が非常に激しく、各メーカーのシェアも、あっと言う間に入れ替わるほど動きが速い。ここ4～5年を見ても、王者TIがガタガタ崩れるのと入れ替わりにQualcommが台頭し、Samsungが急伸するという構図となっている。NVIDIAにとって、極めて激しい戦いになることは必至で、そのために同社はTegra戦略を加速させている。

Tegra 4ファミリの仕様

（後藤弘茂 (Hiroshige Goto)E-mail）