元半導体設計屋 筑秋 景のシリコン解体新書

Intelにとって重要な試金石となる「Intel 4」プロセス

CPU、GPU、NPUそれぞれでAI処理を効率化するMeteor Lake

 前回までの記事で、Intelの次期プロセッサ「Meteor Lake(コードネーム)」が最も電力効率の高いクライアントSoCを構築することを目指しており、それを実現する上で重要なスレッドディレクターとOSとのスレッド管理について解説した。本稿では、前回までの記事でカバーできなかった省電力機能も解説しつつ、Meteor Lakeで採用された最新のIntel 4プロセス技術に焦点を当てる。

CPU、GPU、NPU全てでAIの高性能化と高効率化を図ったMeteor Lake

 AIワークロードの電力効率化についてみてみよう。IntelはMeteor Lakeの電力効率を改善するため、AI周りでに大きなてこ入れを行なった。AIはこれから非常に重要なワークロードの一部となっていく。OSやアプリがAIを使用して性能や体験を向上させることを実行したり、あるいは「AIを使うぞ」といったユーザー主導での使い方も増えていく。Meteor Lakeでは、これらのさまざまなAIの使い方を実現するため、低消費電力なAIエンジンを低電力アイランドに統合した。それがニューラルプロセッサユニット(NPU)だ。

 NPUは、AIワークロードをフォアグラウンドとバックグラウンドの両方でアクティブに実行しつつ、高い電力効率を実現する。ただ、NPUはAIワークロードを実行するために非常に重要なのは事実だが、多くのAIワークロードはNPUだけでなく、CPUでも、GPUでも実行される、Meteor Lakeでは、CPU/GPUでのAI処理についても多くの改善を図っている。

 CPUは今後も、低レイテンシーで軽量なワークロードや、単一の推論ワークロードで使用されることが多くなると考えられている。それはアプリケーションやデータがCPUの近くにある可能性が高いからというのが理由のようだ。

 NVIDIA製品の例からも分かる通り、GPUも重要なAI処理エンジンになる。メディアや3Dレンダリング、ビデオ再生などビデオパイプラインで行なわれるAI種類の最適化については、OSやアプリケーションプロバイダと連携して、高いパフォーマンスと電力効率を実現しているという。

 つまり、Meteor Lakeでは、CPU、GPU、NPUのすべてにおいてAIワークロードの効率化がなされている。まさにこれからのAI PCを見据えた設計と言える。

Instant Display技術の概要

 Meteor Lakeには、ビジュアル品質を向上させながらバッテリ駆動時間を改善する「インテリジェントディスプレイ」が実装された。これもAIベースの機能強化だ。基本的には電力効率の高い方法でコントラストを自動調整することで、深い黒を実現しつつ彩度を確保する。

 インテリジェントディスプレイの実現にあたって、多くのパネルベンダーと協力し、センサーの種類も増やし、プラットフォームレベルで電力効率を改善した。Intelらしいプラットフォームレベルの技術の進化といえる。

ダイナミックチューニングテクノロジーの概要

 もう1つは、ダイナミックチューニングテクノロジー(DTT)だ。DTTは一種のドライバで、PCメーカーがDTTについて検証し、各PC用に最適化する。それにより、CPUとGPUの間で電力が自動的に割り当てられ、パフォーマンスが最適化され、バッテリ駆動時間が延びる。ここでもAIベースのアルゴリズムが活用されている。

Intel 4がIntelのプロセス技術のリーダーシップの再確立において重要なステップとなる理由

 ここからはIntel 4について説明する。Intel 4はMeteor Lakeの高性能を実現するコンピュートタイルで採用されるプロセス技術だ。半導体業界的に最先端となるプロセス技術の1つになり、高い性能が期待できることが分かってきた。

IntelはIntel 7から4年間で5つのノードを展開していく

 Meteor Lakeの開発には、設計と最適化に2年以上かかったようだ。Intelは、プロセス技術において4年間で5つのノードを製品化することを目標としている。Intel CEOのパット・ゲルシンガー氏は、2年前にIntelに戻ってきて、そのロードマップを実現するため、Intelとしての原点に立ち返ってプロセス技術への投資を増やした。

 その中でIntelは世界の各ベンダーと協力し、半導体のリーダーシップを再確立することをスタートさせた。その第1弾がIntel 7になる。Intel 7はAlder Lakeで採用され、処理性能を大幅に向上させた。

 そしてIntel 4がいよいよ登場する。Intel 4は5つのトランジスタノード進化の2番目のステップであり、プロセス技術のリーダーシップの再確立という観点からも重要なステップである。その理由は3つある。

 プロセス技術の進化において、エリアスケーリング(微細化が進むことで面積あたりのトランジスタの搭載数が多くなる)は、ムーアの法則の基本であり、約2年で同面積に約2倍のトランジスタ数を搭載するこいとが期待されている。Intel 4ではまずこのスケールメリットが得られる。

 なお、エリアスケーリングでは、面積をスケールすることだけが注目され、電力もスケールすることについて十分に説明されていないことが多い。スケーリング領域では、チップ上のダイナミックキャパシタンス(動的静電容量)の大きさもスケールすることを意味する。微細化により、小さくスケールされる動的静電容量をうまく取得、利用することで、ダイナミック電力のヘッドルームとして戻し、それをどのように使うかを決定する。その電力の余裕を消費電力削減に振るのか、それともパフォーマンスに振るのかということだ。

 2つ目の理由がEUVリソグラフィーの採用。Intelの過去の例では10nmプロセスにおいて、このプロセスの複雑さが製品開発の遅延につながっていた。「複雑さに対処する能力がなければ、複雑さに翻弄されてしまう」という言葉があるように、管理するか翻弄されるかのどちらかになるが、EUVリソグラフィーにより、プロセスの複雑さを管理することができるようになる。

 そして、Intel 4が非常に重要である理由の3番目は、Intel 4が次のIntel 3の足がかりになっているという点だ。Intel 3は Intel 4の延長線上に構築される。Intel 3世代では、高密度ライブラリを提供し、より多くのトランジスタVTオプションを提供する。これにより製品の柔軟性が高まり、製品開発の幅を広げられる。

Intel 4プロセスの詳細

Intel 4の特徴
Intel 7とIntel 4の標準セルのサイズ比較

 では、Intel 4の詳細を解説しよう。プロセスが1世代進化するということは、2倍のエリアスケーリングが可能となる。標準セルにおいて、Intel 7のセル高は408nmだが、Intel 4では240nmにスケールダウンできた。これにより約40%削減でき、さらにセル幅を17%削減を実現した。これら2つの数値を掛け合わせると、50%のエリアスケールが得られる。さらに重要なことに、小型化は電力削減を意味する。

フィン数を4から3に減らした

 Intel 4におけるスケーリングの最初のステップは、”thin depletion”(薄い空乏層)と呼ばれるものだ。Intel 7の標準セルとパフォーマンスセルは通常は4フィンになっている。これがIntel 4では、3フィンプロセスに移行する。実はIntel7 では3フィンが4フィンよりも優れていた。フィンが少ないほどトランジスタをより強く駆動でき、より高い性能を発揮するという。Intel 4ではフィンの1つを取り除くことができたので、それによりセルの高さを減らすことができた。

 また、EUVリソグラフィーの採用で、ゲートエンドの間隔を狭くし、ピッチスケールを薄くすることができた。Intel 4のトランジスタフィンは、上のブロックと下のブロックの間のゲートエンドの間隔を見ると、よりタイトで、互いに接近している。そこから細いピッチを取り除くことで、さらなるスケーリングを可能にしている。

 そして、Intel 4はIntel 7 で実装したいくつかの根本的な変更も引き継いでいる。具体的には、アクティブゲートでコンタクトをとり、セル面積を縮小。また、セル境界でのダミーゲート除去を行なっている。これもまた追加のスケーリングを可能にした。これらにより、面積を半分に減らすことができたわけだ。

Meteor Lakeのインターコネクト

 小さな標準セル用に金属スタックが採用された。堅牢なメタルスタックにより、信号ルーティングと電力供給が改善される。図に示されているのが実際の断面だ。高さ18層で、メタル0から2層の巨大な銅RDL層になる。メタル0は30nmピッチで非常に幅が広く電力供給用になる。このメタルスタックの中でエンハンスドCu(e-Cu)と呼ばれる新しい技術を採用した。

 e-Cuは、最もタイトなメタルピッチ層であるメタル0からメタル4に使用されている。これによりダイ面積をスケーリングすると、これらのワイヤは断面積が小さくなるため、電流が減少することになる。その電流が減少するのを補うため、ワイヤの金属伝導率を向上させる必要がある。

 そして、これらのワイヤはエレクトロマイグレーションにも対応する必要がある。エレクトロマイグレーションに強いコバルトや、導電性に優れた銅もあるが、銅だけでは高い信頼性は得られないという。Intel 7では、コバルトか銅を使用するかの2択だったが、最終的にはコバルトを使用し、導電率を多少犠牲にする選択をしたという。

 Intel 4ではメタライゼーション技術の進歩により、e-Cuが開発され、これによりコバルトと銅の両方の長所を活かすことができたようだ。e-Cuによりこれら最もタイトな金属層でも、高い導電性の提供とエレクトロマイグレーション要件を満たすことができたという。そしてIntel 4に続くIntel 3ではオングストローム世代に向けた最適化が続く。

EUVリソグラフィーにより、プロセスが簡易化できた

 EUVリソグラフィーについて触れておく。EUVリソグラフィーは真新しいものではない。現時点で、Intel以外のファウンドリでも使用を始めている。EUVリソグラフィーのメリットは、ピッチスケーリングが可能となることだ。これにより、ライン分解能が向上し、プロセスの複雑さが軽減される。Intel 10では、メタル0層には5つのマスクまたは5つのリソプロセスが必要だったが、EUVリソグラフィーを利用できるようになったIntel 4では、それが60%以上減少しているらしい。

Intel 7とIntel 4(EUVありなし)の総マスク数とプロセスステップの比較

 前述の通り、Intel 10世代での開発でのボトルネックとなっていたのはプロセスの複雑さだった。EUVリソグラフィーに期待されるのは、マスク数の削減になる。マスク数を減らすと複雑さが軽減され、歩留まりが向上するからだ。Intel 4では結果として予定通り開発を進めることができた。

グリッドインターコネクトアーキテクチャ

 Intel 4では、グリッドインターコネクトアーキテクチャと呼ばれるシステムを実装している。これはメタルスタック内のビア配置を制限し、メタル接続を設計を助けるためだ。なぜそれが必要かというと、EUVの導入と同じように複雑性を簡素化するためのようだ。

 たとえとして、最近のレゴは特殊な部品(特定用途用ブロック)が存在していているが、かつてのレゴには標準的なブロックしかなかった。メタル層の設計はこのレゴブロックの組み立てのようなものだという。標準的な部品の組み合わせの方が予測可能な結果を可能にするということらしい。そのための設定としてビア配置が制限されている。

 たとえば10種類のテンプレートがまだ解決していないとする。ビアの設置のソリューションを最適するにあたり、配置できる場所に何百もの異なるバリエーションがある場合、解決するのに何十ものテンプレートがあり、その何十ものテンプレートを使用するための管理も必要になる。10種なら最適化できるが、何十種の最適化は複雑すぎるということだ。

各世代での歩留まりと性能の比較

 Meteor Lakeの製品化発表の時点でIntelは、歩留まりがどの程度なのかを開示している。ということはよほど自信があるのだと言える。ということで、これらすべてをまとめると、どのように見えてくるかをプロセスごとの歩留まりで見てみよう。

 上記の図は、の見方が少々難しいのだが、Intel 4はプロセスとしての最初の頭出しの時点で14nmスタートアップの14nm Tick(Broadwell)を大きく引き離し、14nmのTock(その世代で最も最適化が進んだプロセス、具体的にはSkylake)を凌駕する歩留まりと性能を実現しているという意味だ。

 14mmのTockは、おそらくTickから3四半期から4四半期の時間がかかった。これは言い換える14nmタイム0(最初の製品化)から14nm+(最適化が最もすすんだプロセス製品)までで3四半期から4四半期かかったということらしい。10nmタイム0から10nm+までは4四半期から5四半期かかった。そして、Meteor Lakeは、過去2世代の最初の2つの製品のいずれよりも優れたスタートになる。

パフォーマンスより電力効率に振ったIntel 4

 パフォーマンスについて説明する。トランジスタとメタルスタックの進歩により、性能改善と静電容量低減を行ない、電力効率を大幅に向上させたのがIntel 4だ。現時点で、Intel 7よりも20%以上電力効率が向上しているらしい。Meteor LakeはIntel 4の利点を最大限に活用し、電力を削減することに焦点を当てて開発されている。電力効率を向上させてユーザーエクスペリエンスの向上につなげたいからだ。

 Intelは長年パフォーマンスを追い求めてきたが、今回は電力効率向上によるバッテリ寿命延長と、バッテリ動作時のユーザーエクスペリエンスの向上を選択している。ノートPCを使用する誰もが1日の終わりにだけコンセントにつなげばいいというこを目標にしている。

 Intel 4 では追加のVTオプションも提供する。通常、Intelでは新しいプロセス技術での最初のトランジスタノードでは6つのVT(しきい値電圧)を提供していた。Intel 4では、前もって8つのVTを提供しており、設計者はより簡単に最適化できる。スピードパスに対処する有効な方法としては、超低VTトランジスタがある。

 低VTでボトルネックがある場合、設計者は超低VTに入れ替えることで改善できる。超低VTトランジスタがない場合は、回路の上流でトランジスタドライバビリティを大きくするためのセルの改変が必要となる。超低VTトランジスタがある場合は、この上流でのセルの改変による回路変更の必要がなく、トランジスタの入れ替えという簡単な方法が選択できるわけだ。

高密度MIMによって、より高い電力供給を実現

 Intel 4に関して、最後に説明するのは高密度MIMになる。高密度MIMは、チップの最上位に位置し、電力供給を改善するために使用するMIMコンデンサだ。Haswell世代からIntelは長年使用しており、その過程で製品を最適化するために静電容量を増やすことが有効だと分かってきた。

 10nm Super-finのTiger Lakeで性能の大きな上昇が見られ、その後Alder LakeとRaptor Lakeでも大きな上昇が見られた。つまりMIM容量を追加することで予想をはるかに上回る性能向上が得られた形だ。

 Intel 4ではその静電容量を再び増やし、前世代からほぼ2倍にしている。これもIntel 3に引き継がれ、オングストローム世代に向けて強化を続けてくという。高い電力供給を実現することが重要で、それにはトランジスタの電圧を下げる必要があるが、高密度MIMはそれの実現に非常に有効だという。

Intel 7は10nmプロセス相当なのか?

 プロセスに関連して、Intel 7は10nmだという話をよく聞くのでトランジスタの大きさの比較を調べてみた。

  • TSMCのN7/N7Pの単位面積当たりのトランジスタの搭載密度: 91.2–96.5(MTr/平方mm)
  • IntelのIntel 7の単位面積当たりのトランジスタの搭載密度: 100.76–106.1(MTr/平方mm)

となっているようで、Intel 7の方が搭載密度が高い、言い換えるとIntel 7の方が多くのトランジスタが詰め込める、あるいは同じトランジスタ数ならサイズが小さくなると言える。サイズも比較してみる。

  • TSMCのN7/N7PのトランジスタのGateのピッチ: 57nm
  • IntelのIntel 7のトランジスタのGateのピッチ: 54nm

となっている。どちらの数字もWikipediaの数字を参照させてもらった。この数字からトランジスタの積み込める密度、トランジスタのゲートピッチともに、Intel 7はTSMCのN7/N7Pと同等か小さいと考察できる。つまり、Intel 7を10nmテクノロジーとする根拠はなく、7nm相当のテクノロジーだと言えるだろう。プロセス技術が半導体の性能に大きく影響する。そのため、や印象だけでなく実際のデータをもとに判断していくことがいいと常々考えている。

 以上、Intel 4について説明した。前述の通り、Intelは10nm世代で大きくつまずいたが、学びも多かったようだ。その学びから、Intel 4では大きな前進を感じられる。Intel 4プロセス技術のタイル(チップレット)を採用したMeteor Lakeが予想を超える歩留まりと性能を手に入れているということで、Intel 4以降の製品も楽しみになってきた。

 また。Intel 3ではファウンダリ展開も行なうということから、Intel以外の採用製品にも期待が高まる。