後藤弘茂のWeekly海外ニュース

Appleデバイスの次の心臓となるSoC「Apple A14」

後藤弘茂 (Hiroshige Goto)

2020年9月30日 06:50

ニューラルネットワークプロセッシングに焦点を据えたA14

　Appleが新世代のモバイルSoC(System on a Chip)「Apple A14 Bionic」を発表した。5nmプロセスチップで、トランジスタ数は11.8B(118億)。モバイルSoCは、HiSiliconのKirin 990 5G (N7+プロセス)で100億トランジスタの大台に乗ったが、Appleも100億を超えた。

　CPUコアは、ビッグコアが2個にスモールコアが4個のヘテロジニアス(Heterogeneous:異種混合)構成で、ディープラーニング向けのマトリックス積和算命令拡張を備える。Arm命令セットアーキテクチャでは「Armv8.6-A」相当と推測される。CPU性能は40%アップとAppleは説明する。

ArmのV8-A命令セットの進化
PDF版はこちら

　GPUコアはAppleアーキテクチャコアで4コア構成、30%の性能向上。もっとも拡張されたのはニューラルネットワークエンジンでユニット数はA13の8コアから16コアへと倍増。性能は11TOPS(Tera Operations Per Second)と、A13の5TOPSの倍以上に上がった。

　チップ全体で見ると、プロセッシングユニットでとくに強化された部分は、CPUコア内部のGEMM演算ユニットとニューラルネットワークエンジンの倍強化。ディープラーニング向けの機能強化版と言っていい。トランジスタバジェットが費やされた部分も、このあたりと推測される。

　現在のプロセッサのトレンドは、特定のドメインに特化した処理能力の強化だ。現状では、半導体技術のスケーリングに制約があるため、アーキテクチャ上で性能を向上させなければならない。プロセス技術の進化で、回路設計の基本となるスタンダードセルの密度は上がるが、それに見合うほど電力は低減されないからだ。

　単純にプロセッサコアを増やすだけでは、電力の増加を招く、ダークシリコン問題を抱えている。そのため、ヘビーなワークロードを、メインのプロセッサコア群からオフロードするドメインスペシフィックなハードウェアの搭載が有効となる。そして、現在急増しているワークロードはニューラルネットワークであり、そこに特化したハードウェアの強化が最適解となる。

　こうしたトレンドを理解するには、そもそもA14シリコンのプロセス技術自体を知る必要がある。

最先端の5nmプロセスで製造

　半導体チップとして見た場合のA14の最大のポイントは、5nmプロセスで製造されている点だ。Appleは2018年のA13で7nmプロセスに移行したが、あれから2年で、次の5nmプロセスへと移る。AppleのAシリーズSoCは、ファウンドリの最先端プロセスをいち早く使う製品であり、今回もそのパターンを踏襲する。つまり、もっとも進んだ半導体プロセスで製造されるチップがApple A14だ。

　しかし、プロセスノードが1世代進んだわりには、A14のトランジスタ数は増えていない。5nmのA14の11.8B(118億)というトランジスタ数は、7nmのA13の8.5B(85億)に対して32%増。プロセスが1ノード進んで、トランジスタ数が2倍になるわけではない。

モバイルSoCのトランジスタ数の推移
PDF版はこちら

　これは、Appleが意図してコントロールしていると推測される。Appleの最近のAシリーズのトランジスタ数の増加にはパターンがある。プロセスノードを移行した最初の世代は、チップのダイサイズを抑えてトランジスタ数の増加も抑える。そして、同じプロセスノードで2世代目のチップは、ダイをやや大きくしてトランジスタ数を増やす。

　たとえば、7nmノード世代の最初のN7プロセスのApple A12はダイが83.27平方mmで69億トランジスタ、7nmの2世代目のN7PプロセスのApple A13はダイが98.5平方mmで85億トランジスタとなっている。

　今回は、5nmノード世代への移行の最初のチップなので、ダイサイズを抑えているはずだ。この手法は、毎年SoCを進化させなければならないためのトランジスタ予算の制御であり、また、製造コストが高騰している先端プロセスを経済的に使うための手法でもあり、チップ全体の消費電力を抑えるためでもある。プロセスの成熟によって、1年後には歩留まりがさらに上がり、ダイを大きくしやすくなる。

　また、同じプロセスノードでも、2世代目のプロセスは特性が向上しており、その分性能と省電力が進む。来年(2021年)には第2世代の5nmプロセスに移行することで、さらにトランジスタ数を増やして機能をアップさせてくると予想される。

TSMCの先端プロセスとApple AシリーズSoCの関係
PDF版はこちら

TSMCの新メジャーノードプロセス「N5」

　Apple A14の5nmプロセスは、従来どおりTSMCと見られる。TSMCは現在、5nm世代の最初のプロセスである「N5」プロセスの製造を開始している。TSMCのN5プロセスは、TSMCのプロセスのなかでは、EUV(Extreme Ultraviolet:極紫外線)露光技術を広く採用したプロセスだ。

　TSMCは、7nmプロセス世代のN7+とN6でEUVを採用しているが、限定された使い方となっている。対して、5nmは、ライン&スペース(配線と配線間)も含めて広くEUVを使っている。下は、EUVによって、従来の液浸多重露光ArFエキシマレーザー光源プロセスに比べて、マスク枚数を5枚から1枚に減らすことができると説明したTSMCの図だ。マスク枚数を減らすことで、原理的にはコスト増を抑え、スループットを上げることができる。

TSMCのIEDM 2019での5nmプロセスでのEUVの説明。「5nm CMOS Production Technology Platform featuring full-fledged EUV, and High Mobility Channel FinFETs with densest 0.021μm2 SRAM cells for Mobile SoC and High Performance Computing Applications」(G. Yeap, et al., IEDM 2019)。5nm EUVでも1D配線であることがわかる

TSMCのIEDM 2019での5nmプロセスでのEUVによるマスク枚数削減の説明

　N5プロセスのスペックは以下のとおり。TSMCの7nmプロセスの最初の世代である「N7」に対して、同じ電力なら15%スピードがアップし、同じスピードなら電力が30%下がるとTSMCでは説明している。

　また、ロジック回路の密度については、N7からN5への移行で、モバイル仕様の場合、最大1.84倍まで密度が上がる。SRAMセルの密度も、1.35倍に上がる。SRAM密度が1.35倍でしかないのに、ロジック回路の密度が1.8倍になるのは、プロセス技術と回路設計の協調最適化である「DTCO (Design-Technology Co-Optimization)」によってロジックセルの面積を小さくするためだ。

　TSMCによると、15%スピードアップは、1.84倍の高密度ロジックセルで実現できるという。また、スピードアップでは、ハイパフォーマンスコンピューティング向けのオプションである「extremely Low Vt (eLVT)」しきい電圧のトランジスタを使う場合は、同じ電源電圧時に最大で25%の性能向上を望むことができるという。

ARMTechcon 2019で公開されたN5プロセスの概要

しきい電圧オプションを拡張しビアピラーも導入

　先端プロセスは、高速だがリーク電流が多い低しきい電圧トランジスタと、低速だがリーク電流が少ない高しきい電圧トランジスタのオプションを備える。しきい電圧が異なるトランジスタを使い分けることで、クリティカルパスの最適化を行ない性能を向上させる。N5プロセスでは、今回、さらに高速なeLVTをオプションで用意している。A14のようなモバイル製品ではなく、高性能が要求されるチップ向けだ。

IEDM 2019で発表されたN5プロセスのトランジスタオプションと、N7に対するエリアとスピードの比較。「5nm CMOS Production Technology Platform featuring full-fledged EUV, and High Mobility Channel FinFETs with densest 0.021μm2 SRAM cells for Mobile SoC and High Performance Computing Applications」(G. Yeap, et al., IEDM 2019)

IEDM 2019で発表されたN5でのCPUコアとGPUコアのスピード

　TSMCのN5は、DTCO技術の1つである「ビアピラー(Via Pillars)」を広範に採用したプロセスとなっている。TSMCはビアピラーをN7で試験的に導入したが、5nmでは本格的に採用している。現在の先端プロセスでは、配線層の下層部分は配線が細いために抵抗が大きい。そのため、トランジスタディレイよりも配線ディレイのほうが支配的となっている。ビアピラーは、配線を上層のピッチが広い配線層へと逃すことで、配線抵抗を低減するDTCO技術だ。

2017年のISSCCで発表されたTSMCのビアピラー技術。「A Smart Design Paradigm for Smart Chips」C. Hou, ISSCC 2017)

N5プロセスでのビアピラーの実装

2年ごとにメジャーノードを導入するTSMCロードマップ

　ちなみに、A12のN7プロセスは、A11の10nmの10FFプロセスに対して、同じ電力なら10%スピードがアップし、同じスピードなら電力が35%下がるとされていた。N7と16nm世代の16FF+を比較すると、同じ電力なら35%スピードがアップし、同じスピードなら電力が60%下がるとされていた。また、ロジック回路の密度は、16FF+からN7で3.3倍とされていた。これらの比較を視覚化すると下のようになる。

TSMCの各先端プロセスの相対スペック比較、N7を1とした場合
PDF版はこちら

　こうして見ると、ロジックセルのサイズはプロセス世代ごとに順調に小さくなり、トランジスタ密度が上がり、性能/電力も順調に向上しているように見える。トランジスタ密度は、実際にはプロセスのスケーリングではここまで上げることができない。そのため、DTCOによってスタンダードセルのサイズを小さくすることでロジック密度を上げる。これが現在のプロセス技術のトレンドだ。TSMCのN5も、この流れに沿っている。

DTCOによるセルスケーリング
PDF版はこちら

　ちなみに、TSMCの先端プロセス全体を見ると、下のようなロードマップになっている。各プロセスの帯の先端が、試験的な生産であるリスク生産(Risk Production)の開始時期、ノードの数字のあたりが、本格量産(Volume Production)の開始時期となっている。

　現在、TSMCは次の世代の3nmプロセスの開発を進めている。また、平行して5nmプロセスの改良版である「N5P」と派生プロセス「N4」の開発も行なっている。7nmも、A12を生産したN7と、A13を生産したN7Pのほかに、AMDが採用した「N7+」、今後立ち上がる派生プロセス「N6」が続いている。このロードマップに沿うなら、A15はN5P、A16はN3プロセスが予想される。

TSMCの10FF移行のプロセスロードマップ