後藤弘茂のWeekly海外ニュース

ISSCCでSamsungが32nmプロセス版のスマートフォン用チップを発表



●32nmへと移行するSamsungのアプリケーションプロセッサ

 現在、45nmプロセスでメインチップが製造されているiPad 2/iPhone 4Sは、次の世代でどうなるのか。そのヒントが、米サンフランシスコで開催されている半導体の回路設計カンファレンス「ISSCC(IEEE International Solid-State Circuits Conference) 2012」で示された。

 ISSCCでは、2日目にスマートフォンやタブレットをターゲットとしたアプリケーションプロセッサ関連の発表が行なわれた。Samsungはモバイル向けのSoC(System on a Chip)「Exynos」シリーズの32nmプロセス版の概要を発表。Samsungは、AppleのiPad/iPhoneにアプリケーションプロセッサを供給するほか、自社のNexusシリーズやGalaxyシリーズのアプリケーションプロセッサの多くを自社開発する。そのため、同社のアプリケーションプロセッサの技術は、次世代のiPad/iPhoneを始めとしたスマートフォン&タブレットの技術動向を占うカギとなる。

 Samsungの現行のアプリケーションプロセッサ製品は45nmプロセスで、iPad 2/iPhone 4SのA5も45nmだ。同社は2011年9月に32nmデュアルコア版のExynosを発表していたが、詳細は明らかにしていなかった。今回Samsungは、クアッドコア版を含めたExynosの概要を明かした。Samsungが公開したExynosの姿は、地味ながら特徴の“てんこ盛り”と呼んでいいSoCだった。

 Samsungのチップは、ARMv7ベースの「Cortex-A9」コアを2個または4個搭載する。ISSCCでは4コア版のデモを行なっていた。GPUコアはARMの半固定パイプラインの「Mali-T400MP4」で、構成はジオメトリシェーダプロセッサが1に、ピクセルシェーダプロセッサが4。メモリインターフェイスはLPDDR2のデュアルチャネル(2x32=64-bit)でメモリ帯域は6.4GB/sec(800Mbps時)。

ARM Cortex-A9ブロックダイヤグラム(PDF版はこちら)

●32nmでは省電力を徹底的に強化

 Samsungのプロセス技術は、32nmからHKMG(High K/Metal Gate)技術になった。そのため、リーク電流が減少し性能も向上したという。同リーク電流時にパフォーマンスは1.4倍で、同パフォーマンスならリーク電流を最大1/10に下げることが可能だという。また、Cortex-A9コアも、物理設計で32nmプロセスに最適化した。そのため、動作周波数は2コア版と4コア版のどちらも最高1.5GHzに達し、GPUコアの動作周波数も上がったという。

 CPUコアは個々にパワーゲーティングでオフにすることが可能で、1MBの共有L2キャッシュも半分ずつオフにすることができるという。また、負荷に応じて電圧と動作周波数を切り替える「DVFS(Dynamic Voltage and Frequency Scaling)」も実装。さらに、トランジスタのボディ領域にかける電圧を動的に制御することで電位差を変化させる「Body Bias(ボディバイアス)」も採用。トランジスタがオン時にはチャネルに電流が流れやすくし、オフ時にはリーク電流を抑えている。その結果、パフォーマンスは13.5%向上し、リーク電流は21%抑えることが可能になったという。

 さらに、冷却能力に限りがあるモバイル機器で、熱容量の小さな小型ダイのプロセッサを安全に動作させるために、「温度管理ユニット(Thermal Management Unit:TMU)」を組み込んだ。温度をモニタして上昇時にはCPUをスロットリングし、一定温度を超えた場合には迅速にプロセッサをシャットオフして損傷を防ぐ。

 Samsungでは、45nm版のExynosはパフォーマンスにフォーカスして設計したが、32nm版は省電力にフォーカスした。そのため、同じ処理を行なう場合も、電力消費がずっと小さいと説明する。もし、Appleが次世代iPad/iPhoneにSamsungの32nmプロセスを使うなら、同じ特長がある程度当てはめられることになるだろう。

SamsungのExynos、左が32nm版のテストボードで右が45nm版のテストボード

●Texas Instrumentsのスマートフォン用チップOMAP4の動画エンジン

 スマートフォンやタブレット関係では、このほか、Texas Instruments(TI)のOMAP4の動画エンジンが発表された。OMAP4はCortex-A9デュアルコアにPowerVR SGX54xグラフィックスを載せたアプリケーションプロセッサだ。OMAP4の特長の1つに、フルHD(1080p)での動画のエンコードとデコード両方と、幅広いフォーマットのサポートがある。この機能のために、TIはOMAP4のビデオエンジンを自社開発した。

 問題は、膨大な種類の動画フォーマットスタンダードをカバーしつつ、フルHDでのコーディングを高画質で実現し、しかも省面積で省電力に抑えることにあったという。フルハードワイヤードのソリューションでは、柔軟なフォーマット対応が難しい。しかし、フルプログラマブルでは高パフォーマンスなフルHD動画を、低消費電力かつ省エリアで実現することが難しい。

 そのため、TIはハードウェアとソフトウェアを注意深くパーティショニング。「IVA-HD」と呼ぶアクセラレータ群とローパワーの専用CPUを用意した。IVA-HDのアクセラレータ群は非同期に並列動作させることで、パフォーマンスを稼ぐ。TIは現在、ARMの次世代CPUコア Cortex-A15デュアルコアのOMAP5の開発を行なっており、そちらにもIVA-HDエンジンが組み込まれる。


●京のシステムの電力最適化なども発表

 ISSCCでは、ハイパフォーマンスのCPU関連の発表もいくつか行なわれた。1つは、富士通がCPUを担当し理化学研究所が開発したスーパーコンピュータ「京」についてのもの。京の巨大システムの運用を開始し始めて直面した問題と、それをどう解決したかが説明された。

 京は8コアの「SPARC64 VIIIfx」を80,000ノード以上、6次元メッシュ「Tofu」インターコネクトで接続している。最大の課題の1つは電力で、さまざまな手法を組み合わせて電力の低減を図ったという。2011年11月にLINPACKで10.51 PetaFLOPSを達成した際には、705,024個のコアで、実効効率は93.2%、ジョブランニングタイムは29時間28分。この時、トータルの電力は12.66MWに抑えたという。ラック単位(102CPU)では14.7kWとなる。

 まず、低電力化のために水冷システムを導入、9%の電力低減を実現したという。少ないようだが、システム全体では1.3MWに達する。また、80,000以上のノードそれぞれのプロセスばらつきによるリーク電流の違いを、それぞれの電圧を調整することで最適化したという。その結果、京のシステムを10PetaFLOPSで、消費電力を抑えながら安定稼働させることができたという。

プロセスのばらつきを、電圧を制御することでCPUコアパワーを50Wに揃えて稼働させることに成功したSPARC64 VIIIfxの概要