■後藤弘茂のWeekly海外ニュース■
Hot Chipsの会場となったStanford大学のMemorial Auditorium 1 |
ARMは米カリフォルニア州スタンフォードで開催されたチップカンファレンス「Hot Chips 23」のキーノートスピーチで、同社の技術方向性を示した。今後も急ピッチで新アーキテクチャ新CPUコアとGPUコアを投入して行き、CPUコアとGPUコアなどの間で処理を分散するヘテロジニアスコンピューティングへと向かう。2015年までには、CPUコアとGPUコアの間でメモリコヒーレンシを取り、プログラミングを容易にするソフトウェア層を整える。
簡単に言えば、ARMも、AMDなどが行なっていることと同じことをやろうとしている。AMDは2013年までにAPU(Accelerated Processing Unit)の中でCPUとGPUのフルコヒーレンシを取るので、1~2年の差でほぼ同じ路線を行こうとしている。それに合わせてCPUコアとGPUコアやバスを進化させるロードマップだ。
ヘテロジニアスコンピューティングへ向かうARM |
Hot Chipsでキーノートスピーチを行なったARMのSimon Segars氏(EVP & GM, ARM)は、ヘテロジニアスコンピューティング化へのマイルストーンを示した。現在のARMのハイエンドソリューションは2~4コアの「Cortex-A9」コアと、ARMの自社GPUコアではジオメトリパイプとピクセルパイプにわかれた旧来型パイプラインの「Mali-400」コアの組み合わせとなる。CPUコア同士はメモリコヒーレンシが保たれているが、CPUコアとGPUコア、あるいはGPUコアとビデオ系のコプロセッサの間でのコヒーレンシは取れていない。
ARMのロードマップ |
Cortex-A9のコア PDF版はこちら |
ARMによると、2013年までにデバイスは4コアあるいはそれ以上の次世代のARM CPUコア「Cortex-A15(Eagle)」と次世代GPUコア「Mali-T604」を搭載するようになるとARMは説明する。Cortex-A15は3命令デコードのOut-of-Order実行パイプラインのCPUコア、Mali-T604はユニファイドシェーダアーキテクチャでOpenCLをサポートする次世代のGPUコアだ。Segars氏は、2013年のハイエンドデバイスの“スーパーフォン”では、ノートPCを置き換えられるだけのパフォーマンス域に達すると説明する。
2013年に登場する“スーパーフォン” |
この世代では、ARMは複数のCPUクラスタ(各クラスタは最大4CPUコアをバインド)の間でもフルコヒーレンシを、取れるようにする。これはARMのSoCバスアーキテクチャ「AMBA 4 ACE」で新たに導入される「CoreLink CCI-400」インターコネクトで実現する。一方、GPUコアと他のサブコアの間でI/Oコヒーレンシを取れるようにする。また、Mali-T604アーキテクチャでは、GPUコアの中の複数のシェーダプロセッサコア間でのキャッシュコヒーレンシも保たれる。ただし、この世代ではCPUコアとGPUコアの間のコヒーレンシは、まだ取られない。
Mali-T604のアーキテクチャ |
Cortex-A15のスケーラビリティ |
2015年のデバイスではCortex-A15の次世代となる新CPUコアと、Mali-T604の後継世代のGPUコアの組み合わせとなるとARMは見る。この世代では、CPUコアとGPUコアやその他のコアの間で、フルコヒーレンシが保たれるようになる。また、ヘテロジニアス構成でソフトウェア開発を容易にするためのプログラミングモデルを整備して行くという。
ARMはGPUコアについては、毎年新コアを投入して行くロードマップを発表している。CPUについても、明確になっていなかったCortex-A15の先のアーキテクチャが、2015年までには市場に登場することが明らかになった。つまり、2~3年で新CPUアーキテクチャを投入して行くペースを継続することが明瞭になった。ちなみに、NVIDIAも、ARMコアの開発に当たって、将来のARMアーキテクチャをベースにすると説明している。
Maliシリーズのロードマップ |
Cortex-A15のブロックダイアグラム PDF版はこちら |
●AMDのカンファレンスでの説明と密接につながる
ARMがヘテロジニアスコンピューティングに向かうという宣言は、ARMの昨年(2010年)までの展開からすると唐突に見える。しかし、ARMは今年(2011年)に入ってからヘテロジニアスコンピューティングを強調し始めており、Hot Chipsでのスピーチもその流れにある。実際、Hot Chipsでのスピーチは、ARMが2カ月前にAMDの技術カンファレンス「AMD Fusion Developer Summit(AFDS)」で行なったスピーチの続きのように見える。ARMはAFDSで、なぜヘテロジニアスコンピューティングに行かなければならないかを説明した。今回は、その部分は簡単な説明に飛ばして、ヘテロジニアス化のステップを説明した。この2つのスピーチをつなげると、ARMの意図が明瞭に見えてくる。
AFDSでは、ARMのJem Davies氏(ARM Fellow, VP of Technology,Media Processing Division, ARM)がムーアの法則は継続するものの、CMOSスケーリングでムーアの法則に追従できない要素が出るために、“ダークシリコン”が発生すると説明した。微細化によってコアサイズが小さくなっても、コア当たりの消費電力があまり下がらないためだ。
その一因は、微細化したCMOSプロセスのスケーリングが難しくなってしまったことにあり、Hot ChipsでもSegars氏が下のスライドで「毎世代、新しい要素が加わっている」と指摘している。40nmプロセスまでに歪みシリコンが、32nm前後からHigh-kゲート絶縁膜が、そして、露光ではダブルパターニングに加えて、さらにトリプルパターニング(EUVを先送りにするため)まで浮上している。しかし、露光がなんとかなっても、電源電圧を下げることが難しい(しきい電圧を下げられない)ため、電力の低減が難しい。そのため、従来通り、微細化でダイにより多くの機能を載せて行くことが難しくなっている。
プロセスルールと露光技術の進化 |
例えば、下の図のように45nmから22nmへの移行でコアサイズが4分の1になったとしても、動作周波数を1.6倍に引き上げるとコア当たりの消費電力は同じになってしまう。そのため、ムーアの法則で同じダイサイズに4倍のトランジスタを載せることができるにも関わらず、同じ電力枠では4分の1の面積のコア部分しか使えなくなる。残りの部分は、実際には使えないダークシリコンとなってしまうという。Davies氏は、多少の数字の違いがあっても、これが半導体業界の共通認識だと説明した。
このことは、微細化しても、同じチップサイズで機能を増やしてパフォーマンスを上げることが難しくなることを意味する。今までのアプローチを続けるなら、小さなダイのチップしか作れなくなってしまう。状況は、プロセス世代毎にさらに悪くなって行く。11nmになると45nmに比べてコアサイズは16分の1になり、周波数は2.4倍に上げることができる。しかし、コア当たりの電力は0.6倍にしか下がらないので、10%しかダイを使えないことになる。また、一定の電力でダイが小型化することは、電力密度の上昇を意味し、電力密度が上がると廃熱が難しくなるという問題を引き起こす。
プロセスルールの進化によるシュリンク |
シュリンクの効果 |
●ヘテロジニアスコンピューティング化の必要性に迫られるARM
ダークシリコンの問題点は、ムーアの法則でチップに載せられるトランジスタが増えても、それを同時に使うことができない点にある。逆を言えば、同時に使わないアーキテクチャを取れば、ダークシリコン問題は解決できる。また、載せるプロセッサを、より電力効率の高いものにすれば、電力の問題を緩和できる。ARMのSegars氏は、この問題を解決するには、「違った考え方」が必要だと説明する。それが、ヘテロジニアスマルチプロセッシングだと言う。
AMDのDavies氏は、解決手段は非常に限られており、それは、マルチコア/メニイコア化であり、ドメインスペシフィックプロセッサを混載するヘテロジニアスコンピューティング化だと説明した。
1つのCPUコアを、どんどん複雑で大きなコアへと発展させても、CPUコアの消費電力が増えて、チップの電力を引き上げてしまう。CPUコアの性能は、コアのダイ面積の増加比率の、平方根分しか上がらないからだ。CPUコアの規模は一定に止め、コアを多数載せる方が、電力効率は高くなる。
コア数を増やすアプローチ |
さらに、ドメインスペシフィックプロセッサへとオフロードすれば、さらに電力効率が上がる。ここで言っているドメインスペシフィックプロセッサは、幅広くGPU、ビデオプロセッサ、その他の特定用途ユニットも含む。ARMは、個々のコンピューティングを、そのタスクを最も効率的にできる場所(=プロセッサや固定機能ユニット)で実行するべきだと説明する。
ARMは、“コンピューティングを最も効率的な場所で実行する”ために最重要となる要素はシステムレベルの統合だと見ている。Hot Chipsのキーノートスピーチで、ARMのSimon Segars氏が示したロードマップは、まさにそのポイントを示している。CPUコアと、GPUコアや他のコアの間で、メモリコヒーレンシが保たれ、同じページテーブルを使えるようになれば、データのやりとりが簡単になる。そうすると、CPUから小さなタスクであっても、他のコアにオフロードしやすくなる。データを移動しなくて済むため電力効率も高くなる。
こうした背景から、ARMはヘテロジニアスコンピューティングへと大きく舵を切ろうとしている。モバイルでは、電力効率は、PC以上に切実で、そのために、ARMは、コンピューティングをできる限り効率的なプロセッサ/ユニットで実行させる必要に迫られている。