後藤弘茂のWeekly海外ニュース

ヘテロジニアスマルチコア構成となったiPhone 7のA10

パッケージ技術の大革新となったiPhone 7のA10

 AppleのiPhone 7のモバイルSoC「Apple A10 Fusion」は、半導体の世界では1つのマイルストーンのチップとなっている。それは、パッケージ技術の革新という点で、大きな節目にあるチップだからだ。A10が採用した、「Fan-Out Wafer Level Package(FO-WLP)」技術は、それだけ大きな変化だ。FO-WLPは、オーガニックサブストレートを使わない新しいパッケージ技術で、パッケージの特性を大幅に向上させ、パッケージの厚さを減らす。つまり、パッケージだけで性能効率を上げ、システムの薄型化を容易にする。

 FO-WLPでは、パッケージにオーガニック材料基板ではなく、極めて薄い「Redistribution Layer(RDL)」を使う。ただし、従来のチップスケールパッケージ「WLCSP(Wafer Level Chip Scale Package)」とは異なり、パッケージサイズがダイサイズと同一である必要がない。ピン数が多くパッケージサイズがダイサイズより大きなチップにも使うことができ、応用の幅が広い。

 FO-WLP系技術では、厚いサブストレートがなくなる分、パッケージの厚み(Zハイト)が薄くなる。また、配線が短くなるため、配線抵抗が減り、I/O性能が高くなり、消費電力も削減できる。iPhone 7のA10を製造するTSMCでは、InFO-WLP技術によって、20%パッケージの厚みを削減し、20% I/Oスピードを引き上げ、10%の熱低減になると説明している。A10では、チップ自体だけでなく、パッケージによっても、性能向上と電力の低減がなされていることになる。

 A10については、以前からFO-WLP技術の採用が予想されていた。これは、現在のApple Aシリーズを製造するTSMCが、同社の新しいパッケージ技術「InFO WLP(Integrated Fan-Out Wafer-Level Package)」に大型顧客がついたことを明かしていたからだ。TMSCは、昨年(2015年)10月のファイナンシャルカンファレンスコールで、2016年からInFOの大量生産が立ち上がり、第4四半期には1億ドルの売り上げになると説明した。そのため、A10がInFO WLPを採用することは、ほぼ予想されていた。

ASM Pacific TechnologyによるFO-WLP技術の説明

 iPhone向けのAxシリーズSoCは、DRAMと積層したPoP(Package On Package)で搭載されている。A10は、InFOベースのPOPとなっている。

 半導体チップとして見た場合、A10の最大の特徴はこのパッケージ技術だ。iPhoneは、これまでも様々さまざまな技術のけん引車となって来たが、今回のiPhone 7ではFO-WLP技術の立ち上げをけん引する。FO-WLPは、パッケージ技術の久々の大改革で、今後は大きな波となることが予想される。また、半導体産業的には、ファウンドリのインハウスパッケージへの移行という動きになる。

 システム的には、FO-WLPはパッケージのZハイトを抑えることで、筐体の薄型化を容易にする。スマートフォン内での最大の熱源であるアプリケーションプロセッサチップがFO-WLPで薄くなると、スマートフォン自体をより薄くすることが容易になる。Appleの筐体基本デザインの設計サイクルは2年なので、今回のiPhone 7では筐体サイズ自体の変化はほとんどない。しかし、今後の薄型化は期待ができる。今回、イヤフォンジャックを排除したことで、物理的なI/Oポート的には薄型化の準備ができている。

big.LITTLEライクなヘテロジニアスマルチコア構成のCPUコア

 A10のチップアーキテクチャ上の最大のハイライトは、大型CPUコアと小型CPUコアのヘテロジニアスマルチコア構成になったことだ。ARMの「big.LITTLE」アーキテクチャライクな、大小コアの組み合わせとなった。Appleの発表では、2個の高性能CPUコアと2個の高効率CPUコアの組み合わせとされている。高電力効率のCPUコアは、高性能CPUコアの5分の1の消費電力で走るという。

 big.LITTLEライクと書いたのは、ARMのbig.LITTLEは、割り込み処理などのハードウェア設計とOS側のスケジューラ拡張やパッチなどを含めたソリューションだからだ。Appleは、ARMからのアーキテクチャルライセンスを受けて、CPUコアのマイクロアーキテクチャ自体を自社開発している。OSも自社OSだ。そのため、大型コアと小型コアの構成の制御は、Apple独自になっていると見られる。

 タスクを負荷に応じて大小のCPUコアに動的に振り分けて、高効率を維持することは、それなりに難しい。Appleはパワーコントローラによって、自動的に制御されると発表時に説明している。アプリケーションからはCPUコアの大小は隠蔽されるのは当然として、その下のOSとハードウェアがどういった制御を行なっているのかは、まだ明確ではない。ARMのbig.LITTLEのソフトウェアモデルの場合は、OSのスケジューラをフックして大型CPUコアと小型CPUコアをペアにして切り替えるモデルから、タスク毎にCPUコアに振り分けるモデルへと進化した。

ARMのbig.LITTLEでのソフトウェアモデル
PDF版はこちら

 いずれにせよ、大型コアと小型コアの組み合わせの利点は明確だ。それは、CPUコアのマイクロアーキテクチャを高性能と低電力のそれぞれに最適化できることだ。単一のCPUコアでカバーしようとすると、負荷が高い時には高性能を発揮し、低負荷の時には電力を徹底して抑える必要がある。そうしたCPUコアのマイクロアーキテクチャと回路設計は非常に複雑になる。Intelのように、マイクロアーキテクチャレベルから回路設計、プロセス技術に至るまで全ての領域でチューンしたCPUコア開発ができなければ、高性能から低電力までを単一マイクロアーキテクチャでカバーすることは難しい。

ARMのbig.LITTLE型の大型コアと小型コアの組み合わせの利点

 となると、CPUコアを2タイプに分けてしまい、それぞれ高性能と低電力に最適化した方が、結果としてCPU設計が容易になり、効果的になる。高性能コアは、低電圧時の駆動をあまり考慮せずに、高性能に最適化した設計ができる。スタンダードセルライブラリや回路設計、トランジスタオプションから、上位のマイクロアーキテクチャの最適化まで、全ての面に渡る。パイプラインを深くして高クロック化に振ることができるし、命令の並列実行幅を広げることもできる。パフォーマンスライブラリを選ぶこともできるし、高速な低Vt(低しきい電圧)のトランジスタの比率を高めることもできる。実際、iPhone 7では、ピーク時の高性能CPUコアの動作周波数は、iPhone 6s世代より大幅に上がっている。

 一方の、低電力コアは、高電力効率に最適化した設計だけを行なえば済むため、こちらも設計が容易だ。セルライブラリレベルから低電力ライブラリを選ぶことができる。トランジスタのVt選択も、リーク電流を抑えた選択ができる。設計側にとって、単一アーキテクチャよりもぐっと容易になる。

 もちろんCPUコアアーキテクチャを2つに分離することでの難点もある。OSのスケジューラがタスクをインテリジェントに振り分けたり、あるいは、CPUコア間でのタスクをマイグレートを高速に行なう必要がある。しかし、CPUコアの最適化の利点は大きいため、現状のモバイルでは大小のヘテロジニアスマルチコアが主流となりつつある。

命令並列度が高いAppleの独自マイクロアーキテクチャCPUコア

 そもそも、AppleのCPUコアは、ARM系モバイルCPUコアの中では格段に命令並列度が高く、シングルスレッド性能が高い。これはARM自身のフラッグシップCPUコア「Cortex-A72」よりも、命令並列度が高い。Appleは低電力CPUコアの開発で有名になったベンチャー企業P.A. Semiを買収し、その開発陣が中心となってApple AシリーズのCPUコアを開発していると言われる。P.A. Semi自体は、DECのAlpha 21064やStrongARMの開発者が設立した企業で、同社が開発したPowerアーキテクチャのCPU「PA6T」は、低電力ながら4内部命令(uOPs)ディスパッチで、5実行パイプと2ロード/ストアパイプを持つ、パワフルなコアだった。

 Appleの現在までのCPUコアは64-bit(ARMv8)命令セットアーキテクチャになったiPhone 5sのApple A7のCPUコア「Cyclone」がベースとなっていると見られる。Cycloneは、6uOPsディスパッチで、整数演算パイプが4本、シフタパイプが2本、整数乗算パイプが1本、除算パイプが1本、ロード/ストアパイプが2本。モバイルCPUコアとしては最大級にパワフルなCPUマイクロアーキテクチャだ。

 比較すると、QualcommがSnapdragon 820以降に搭載している自社開発のコア「Kryo」が、5uOPsのイシュー幅。SamsungのM1が4命令デコード3整数演算。NVIDIAのDenverは、命令デコーダは2命令だが、いったんデコードした命令に最適化スケジューリングを行ない、最大7uOPsの並列実行が可能だ。これらと比較しても、AppleのCPUコアのマイクロアーキテクチャはパワフルだ。それだけロジック回路規模が大きく、省電力化にテクニックが必要となる。そのため、大型コアと小型コアのヘテロジニアスマルチコア化は、理にかなっていると言える。

AppleのAxシリーズ移行図
PDF版はこちら

iPhoneのメモリ帯域の伸びは今後はやや鈍化

 iPhone 7のDRAMメモリはLPDDR4。スタックドDRAM技術の「Wide I/O 2」はiPhoneへの採用を逃したことで、浸透できずにいる。iPhoneのDRAMは、ほぼ2年の周期で新世代のメモリ規格へと移行して来た。iPhone 4のA4までのLPDDRから、iPhone 4sのA5からiPhone 5のA6までのLPDDR2、iPhone 5sのA7からiPhone 6のA8までのLPDDR3、そして、iPhone 6sのA9とiPhone 7のA10のLPDDR4。

 しかし、今後は次世代DRAMまで間隔が開く。次世代のLPDDR5は、仕様公開が来年(2017年)の予定で、製品に実際に載るのは2018年のタイムフレームになる見込みだからだ。そのため、DRAM業界では中継ぎとなるLPDDR4Xを準備している。LPDDR4Xでは、コア電圧(VDD)はLPDDR4と同じだが、I/O電圧(VDDQ)を下げる。LPDDR4の1.1Vから0.6VへI/O電圧を引き下げて、I/O電力を40%ほど低減する。LPDDR4XはLPDDR4の3.2Gbpsと同レベルの電力で転送レート4.266Gbpsを実現する。iPhone 8がLPDDR4Xを採用するなら、メモリ帯域はピークで34.1GB/secを達成できることになる。しかし、従来のような倍々の伸びにはならない。

SamsungがHot Chipsで示したLPDDR4Xの仕様
SamsungがHot Chipsで示したLPDDR5の仕様

 こうして見ると、スマートフォンのメモリ帯域の伸びは、これまでの2年で2倍のペースより遅くなる。同じメモリインターフェイス幅なら、メモリ帯域は2年で2倍ではなく、3年で2倍程度のペースになる。メモリ帯域の伸びの鈍化は、モバイルSoCのグラフィックスパフォーマンスに影響する。現在のグラフィックスアーキテクチャはメモリ帯域イーターであるため、メモリ帯域は逼迫している。特に、PC並かそれ以上の高解像度となったiPad Proへの影響は大きい。

モバイルDRAMのロードマップ
PDF版はこちら