後藤弘茂のWeekly海外ニュース

iPhone 11のSoC「A13」はなぜ性能向上幅が小さいのか

これまでのパターンとは異なるトランジスタ数の増加

Apple AシリーズなどモバイルSoCのトランジスタ数の移行
PDF版はこちら

 AppleはiPhone 11系スマートフォンに搭載する「A13 Bionic」で、性能をおよそ20%引き上げた。CPUコアとGPUコア、それにニューラルネットワークエンジンがそれぞれ20%高速化される。逆を言えば、新iPhoneは前世代に比べて20%しか性能が上がらない。

 なぜ、A13は性能の向上幅が小さいのか。理由は明瞭で、チップに搭載しているトランジスタ数がそれほど増えていないからだ。前世代のiPhone XR系の「A12 Bionic」では、ダイに69億個のトランジスタを搭載していた。それに対して、A13のトランジスタ数は85億、A12と比較すると約23%トランジスタ数が増えた。単純に言えば、23%多くの機能をA13に搭載できることになる。

 GPUやニューラルネットワークエンジンは、トランジスタを並列演算リソースの増加につぎ込むことで性能を引き上げられる。ただし、A13はA12に対して、GPUコア数は増えていない。コア内部の演算リソースが拡充された可能性はあるが、まだ詳細はわかっていない。CPUコア群については、性能コアが2つ、省電力コアが4つで構成は同じ。Appleは1兆オペレーション/秒(1 Trillion Operations per Second)という性能について言及している。

 詳細はまだわからないが、明白な点はA12からA13ではトランジスタ数が23%しか増えておらず、そのために性能向上の幅もおとなしいということだ。23%というトランジスタ増加率は、過去のAppleのSoCのトランジスタ増加率と比較すると小さい。

 トランジスタ数で比較すると、iPhone XRの7nmのA12はiPhone 8の10nmのA11から60%増えた。A11はiPhone 7の16nmのA10から30%増加、A10は16/14nmのiPhone 6sのA9からおそらく30%程度増えたと見られる。

 なお、A9からA10が明確でないのは、A9のトランジスタ数が発表されていないためだ。ちなみに、iPhone 5sの28nmのA7からiPhone 6の20nmのA8では、2倍近くトランジスタ数が増えていると見られる。A7は10億以上、A8は20億と発表されている。

 これまでAppleは、1世代SoCを進化させるごとに、トランジスタ数を30%以上、ときには60%以上も増やしてきた。それによって、CPUコアの数を増やし、性能コアのシングルスレッド性能を高め、GPUコアのリソースを拡張し、新しいニューラルネットワークエンジンの搭載を実現してきた。

 ところが、今回については、トランジスタ数の増加は23%と、従来よりずっと抑えた数字となり、結果として性能向上も小さくなった。

 A13のトランジスタの増加が少ないことは、2つの要素が絡んでいる。1つはチップを製造する半導体プロセス技術が、前世代の「A12 Bionic」と同じ7nmプロセス世代であるため、トランジスタ密度がそれほど上がらない。つまり、単位面積当たりに搭載できるトランジスタ数がそれほど増えない。

 こうした場合、これまでAppleは、チップのダイサイズを大きくすることでトランジスタ数を増やしてきた。A9に対するA10などがその例だ。しかし、今回はその方法が採りにくい。それは、7nm世代のプロセスの製造コストが高いため、ダイを大きくするとチップのコストが上がってしまうからだ。モバイルSoCのダイコストは世代ごとに増加しており、王者Appleであってもコスト的にダイを大きくすることが難しい。

半導体チップの製造コストの急上昇でダイサイズの大型化が制約されている

 Apple A13に見える状況は、今後のスマートフォンの進化が、これまでの路線で進むことが難しくなりつつあることを示している。

 ここ数年のAppleのSoC進化には一定のパターンがある。新プロセスへ移行すると、いったんダイが小型化する。しかし、トランジスタ数は増えるので、その分、機能が強化される。次のチップは同じプロセス世代だが、ダイを大型化することで、トランジスタ数を増やして再び機能を強化する。

 さらに、iPad用のチップを派生させる場合は、ダイをiPhone用よりさらに大きくし、トランジスタ数を増やした。増えたトランジスタは、CPUコアの性能向上やCPUコア数の増加、GPUの演算リソースの増加につぎ込んだ。

モバイルSoCのダイサイズの変遷
PDF版はこちら

 これが今までのパターンだが、iPhone XRのA12で状況が変わった。AppleのモバイルSoCは、A12で7nmプロセス世代に入り、チップの製造コストが跳ね上がったからだ。

 TSMCの7nmプロセスは、現在のArFエキシマレーザー光源で液浸多重露光だけを使う最後のプロセスとなる。下層の配線層(M4まで)を「SADP : Self-Aligned Double Patterning」マルチパターニング技術を使うことで、もっともせまい配線の間隔を40nmにまで詰めている(トランジスタのフィンはSAQP : Self-Aligned Quadruple Patterning)。

 そのため、半導体製造工程の露光プロセスが複雑になり、製造コストが高い。下はIMECがVLSIシンポジウムで示したウェハレベルの製造コスト比較だ。10nmも非常に高コストだが、7nmプロセスはさらに33%もコストが高く、28nmと比べるとコストは約2倍になる。

先端プロセスのウェハレベルのコスト比較

 このように7nmは、高コストであるためAppleとしてはダイサイズを大幅に増やしてトランジスタをより多く搭載して機能を強化するという選択肢を、A13で採ることが難しかったと見られる。Appleは実際にiPad Pro用のA12Xでは100億ものトランジスタを積んだ7nmチップを製造している。A12Xは120平方mm以上のダイサイズと推測されるが、これは、高価格なiPad Pro用なので許容される。これでも、PC向けのチップよりはダイサイズが小さいので競争力がある。

 しかし、iPhoneに積むメインストリームのAシリーズは、コストを抑える必要がある。A13のダイサイズはまだわかっていないが、おそらく100平方mm前後のダイにまで抑えていると推測される。AppleがA13でトランジスタを23%までしか増やすことができなかった背景には、こうしたコスト事情がある。

Appleが採用してきたプロセス技術
PDF版はこちら

A13の採用するTSMCの改良型7nmプロセス

 もっとも、A13の7nmプロセスは、同じ7nmでもA12のプロセスとは異なる。iPhone XRのA12はTSMCの最初の7nmプロセスである「N7(CLN7FF)」で製造されていた。今回のiPhone 11のA13は、TSMCの新しい7nmの「N7+(CLN7FF+)」で製造されていると言われている。

 N7とN7+の違いは露光プロセスで、N7+ではEUV(Extreme Ultraviolet : 極紫外線)露光を採用している。ただし、6月の半導体学会 VLSI シンポジウムでは、TSMCの7nmにはN7+以外に、N7の改良版である第2世代N7が存在することが明らかにされている。

 この第2世代N7プロセスは、ArF多重露光技術だが、特性が大幅に改善されており、同じ電力なら5%以上周波数を上げることができる。また、同じ周波数なら電力を10数%下げることができる。

TSMCの第1世代の7nmプロセスと2019年の第2世代7nmプロセスの比較。プロセスだけで同電力時に5%のスピードゲインがある
TSMCの第1世代の7nmプロセスと2019年の第2世代7nmプロセスの比較。駆動電圧も50mV下げることができる

 iPhone 11のA13が、どちらの7nmプロセスを使っているのかは、まだ明確になっていない。しかし、第2世代N7でもN7+でも、A12のN7より特性が上がることは明らかで、それはA13での電力消費の低減や性能向上につながっている。N7+だった場合は、トランジスタあたりのダイサイズがよりコンパクトになる。N7+はN7よりもトランジスタ密度が上がると、TSMCが説明しているためだ。

 原理的には、EUV露光はArF多重露光よりもプロセスがシンプルになり、工程が短縮されコストが下がる。そのため、EUVからコスト問題は軽減されるはずだ。しかし、EUV露光装置自体が非常に高価格であるため、当初はN7+のコスト効果は限定的だ。

 またN7+は、EUVを使うレイヤーが約4層と限定されており、とくに配線層の間をつなぐヴィア(via)周りに使っている。ライン&スペース(配線とスペース)部分に本格的にEUVを導入するのはまだこの先だ。

 この点は、ライン&スペースにEUVを最初から導入しようとするSamsungとの大きな違いとなっている。同じEUVプロセスでも、TSMCとSamsungでは中身が大きく異なる。ちなみに、TSMCにはさらに後継として6nmプロセス「N6」があるが、これはN7と互換性があり(N7+は互換性が低い)、N7より多層にEUVを導入するプロセスだ。N6はN7でチップを設計したユーザーのコスト削減の移行パスとなる。

 TMSCの本当の新ノードは2020年の前半に量産開始する5nmプロセスで、5nmからTSMCは本格的にEUVをライン&スペースの多くの層に導入する。EUVを配線に本格導入すると、現在は1D(1次元)配線で設計している下層の配線が、2D(2次元)配線となり、回路設計がコンパクトになり、配線抵抗でも有利となる。TSMCのプロセスでは、5nmからこのEUV露光配線の利点を得られるようになる。

 iPhone 12が、TSMC 5nmの立ち上げビークルになる可能性が高い。つまり、iPhoneシリーズでEUVプロセスの本当の真価が発揮されるのは、iPhone 12からとなるだろう。

ファウンドリ各社とIntelのプロセスロードマップ
PDF版はこちら

CPU、GPU、NNEともに20%の性能向上

 A13は、2個の性能コアと、4個の省電力コアのヘテロジニアスマルチコア構成となっている。Armのbig.LITTLEと同様にアウトオブオーダーのワイドスーパースカラCPUコアと、インオーダーの小さなCPUコアの組み合わせだ。

 Appleの発表では、高性能コアは20%の性能向上で、30%省電力とされている。このパーセンテージは、半導体プロセスのよくある数字のマジックで、同じ消費電力時に20%の性能ゲイン、または同じ性能時に30%の電力低減の意味であると推測される。

 もし、20%の性能ゲインと30%の電力低減が同時に実現できるのなら、ピーク時の性能ゲインは20%よりはるかに大きな数字となり、通常はそちらの数字を謳うからだ。

 省電力コアについては、同様に20%の性能向上と40%の電力低減となっている。これもたとえば、同じ性能やワークロード時に40%の電力低減で、同じ電力時に20%アップと推測される。プロセス技術やマイクロアーキテクチャの改良幅を考えると、そうでなければつじつまが合わない。

 同様に、GPUは4コアで20%の性能向上と40%の電力低減。GPUコア数についてはA12と同じだが、内部の構成が同じとはかぎらない。Metal APIに最適化されているとなっているが、レガシーAPIを切り捨てるとは思えない。GPUコアはまだAppleコアになってからの成熟度に余裕があるはずで、ドライバの最適化でも性能の引き上げが可能なはずだ。

 CPUコアの20%の性能向上については、第2世代N7でもN7+でも、プロセス技術だけで5%から10%台の周波数向上の恩恵は受けられる。そのため、マイクロアーキテクチャ側の拡張が小さくても20%と謳えるだけの向上は得られそうだ。実際、Apple CPUでは、周波数あたりの性能であるIPC(Instruction-per-Clock)については、向上の余裕がそれほどあるとは思えない。というのは、AppleのCPUコアは、Arm系CPUコアのなかでは異例にIPCにフォーカスした設計だからだ。

 AppleはCPUコアのシングルスレッド性能の向上にこだわってきた。A12の性能CPUコア「Vortex」は命令デコード幅が7-wideとされており、Arm命令セットアーキテクチャのモバイルCPUコアのなかでは飛び抜けて広い。Arm自身のCPUコアIPでは、現状はCortex-A77の4-wideが最大だ。これは、アウトオブオーダーマシンとしてAppleの性能CPUコアは、すでに効率的な性能向上の限界に近づいてきていることを示している。

 命令の並列度を引き上げるには、命令スケジューリングなどのコストが必要となるため、投入したトランジスタに見合うだけのシングルスレッド性能の顕著な向上はもはや難しいだろう。そのため、A13でもCPUコアのマイクロアーキテクチャのシングルスレッド整数性能の向上には、それほどリソースは割かれていないことが予想できる。

 ちなみに、AppleはA13の紹介時に、CPU群の性能について「1兆オペレーション/秒(Trillion Operations per Second)」としていた。これをプロセッサ的な単位に直せば「1TOPS(Tera Operations Per Second)」となる。CPUの性能をTOPSで測るのは、ニューラルネットワークのワークロードが増えた現在では、意味のある数字かもしれない。もちろん、このTOPSは、桁数から考えてデータ並列のSIMD(Single Instruction, Multiple Data)の性能で間違いがない。

 ここでは、1TOPSという数字がどこから出てきたのかが、ポイントの1つだ。仮にA13の性能コア2個が、2.6GHzで動作して、それぞれ128-bit幅でフルスループットのNEON SIMDエンジンが3パイプで、8-bitの積和算を行なったとしても、0.5TOPSのピーク性能にしかならない。省電力コアで残りの半分の性能を提供できるとは思えない。とはいえ、この部分はすぐに明らかになるだろう。

【お詫びと訂正】記事初出時、A11 SoC搭載端末の例に一部誤りがありました。お詫びして訂正させていただきます。