元半導体設計屋 筑秋 景のシリコン解体新書
トランジスタレベルで設計を変えたLunar LakeことCore Ultra Series 2
2024年10月4日 06:21
Lunar Lakeのデザインコンセプト
Lunar Lakeのデザインのコンセプトから話を始めてる。コードネームRaptor Lake(第13~14世代Core)とAlder Lake(第12世代Core)の2つのアーキテクチャは、モバイルとデスクトップの両方のプラットフォームにまたがることを考えて設計された。
対してLunar Lakeは、設計を始める際に、電力効率を高めることを念頭に置いたという。そして、低電力エンベロープ(消費電力が少なく動作する範囲)、低消費電力プラットフォームセグメント(低消費電力を重視するユーザー層や市場)をターゲットにした。その上で、電力効率を高める方法、電力を削減する方法、製品のカスタマイズを最適化する方法、そして単純に既存の製品セグメントのスケールアップするのではなく、既成概念にとらわれずに実現したいすべてのベクトルを実現できるように設計をスタートしたという。
プレミアムな製品設計
Alder Lakeはデスクトップの65W製品の設計から始め、続いて消費電力ターゲットを縮小していく最適化により8W製品までを達成した。
一方、Lunar Lakeでは、特定のパワーエンベロープ(製品のTDP、Average Power)を初めから狙った。具体的には、ファンレスから高出力パワーエンベロープまで、各セグメントでのクラス最高の製品を目指したという。
そして、プレミアムローパワーの実現については、既存の手法の変革から始めた。モバイルからデスクトップまで対応するスーパーセット的な製品ではないプレミアムローパワーにとっては不必要なトランジスタを特定し、そのすべてを取り外すカスタマイズとなったのだ。このトランジスタレベルでの設計変更アプローチを見ると、Lunar Lakeはプレミアム製品であると言えるだろう。
実際、Lunar Lakeに実装されるすべてものがプレミアムを目指しているという。同社製品として最高のGPU、最高のNPU、プレミアムローパワー用途向けに最適化された最高のCPUコアを搭載。それらが協調して機能することで消費電力も大幅に改善された。
それに加えて、パッケージ内にメモリを実装することで、DRAMの消費電力の効率を最大化した。プラットフォーム側からはマザーボード上の新しいPMICを実装し、非常に贅沢な電力供給レール構成が可能になるようにしている。この電力供給によって有益なレールの構成が可能になり、電力効率が非常に高くなった。プラットフォームレベルの省電力化という観点から、ここは従来のノートブックPCから大きく進化した点だろう。
メモリの効率化
前述の通りLunar Lakeでは、電力を低く抑えるためにDRAMをパッケージ上に搭載した。オンパッケージにしたことによりメモリデバイス分のフットプリント(実装面積)をはるかに小さくなった。
そして、DRAMとデバイス側のDRAM PHY(メモリコントローラ上の)間の接続ラインは非常に短くできる。メモリバスを非常に短くすることで消費電力も少なくすることができる。メモリバスが短いと、信号を送って到達するための電力が少なくて済むからだ。しかも、特定のDRAMタイプ専用に最適化されており、DRAM PHYの消費電力を40%削減することができたという。
それだけではなく、短いトレース(メモリバスの配線長)によって、より少ないエネルギーでより高い周波数も実現できる。つまりDRAM PHYは物理層で40%省電力しながら、DRAM動作スピードが速くなるということだ。Lunar Lakeではシステムメモリの帯域幅は最大8.5Gtpsを実現している。
細分化されたデザインとタイル
Meteor Lake(Core Ultra Series 1)では4つの異なるタイルで構成されているが、Lunar Lakeでは電力効率をより向上させるためタイルの数を減らし、2つになった。大きなタイルはコンピュートタイルで、もう1つはPCT(プラットフォームコントローラータイル)タイルになる。
コンピュートタイルには、CPU、GPU、NPU、イメージング、ディスプレイ、メディア、メモリコンポーネント、メモリサブシステム、キャッシュ、メモリコントローラ、DRAM PHYなどがまとめられている。1つのコンピュートタイルに戻した理由の1つは、すべての機能において最新プロセスノードで製造されたトランジスタを最大限に活用するためだ。消費電力が最適化され、より高い動作速度が得られることになる。
2つ目の理由は、レイテンシを最適化するためだ。レイテンシはパフォーマンスにとって重要である。同じタイル上に存在することで各ブロック/機能は可能な限り最短距離で配置されることになり、最短のレイテンシを得られる。
コアとクラスタ
CPUコアは、Alder Lakeから始まってRaptor Lake、Meteor Lakeと続き、Lunar LakeはPコアとEコアを持つ4世代目のハイブリッドアーキテクチャとなっている。
Pコアは新しいLion Coveのコア4基を搭載する。Lion Coveはハイパースレッディングを止め1スレッドだけの実行になるが、IPCは大きく改善されている。また、面積あたりの電力効率とパフォーマンス(PPA)も向上した。そして大きなキャッシュを搭載している。これまでの製品と同じ構造のLLC(ラストレベルキャッシュ)も存在するため、レイテンシとパフォーマンスが向上した強力なユニットになっている。
シングルスレッドコアになった理由は電力効率と性能を向上させることを選択したためだという。Intelは、ハイブリッドアーキテクチャの進化により、シングルスレッドコアのパフォーマンスコア内のハイパースレッディングのサポートは必要ないという考えに至った。パワーエンベロープが上がるにつれて、より多くのEコアを使用してマルチスレッドでスケーリングするほうが効率が良くなるからだという。
これによりパワーとパフォーマンスに最適化されたシングルスレッドパフォーマンスコアを使用することが可能になった、より多くのスレッドでのパフォーマンスを高めたい場合はEコアを使用する。
そしてLunar Lakeのハイブリッド アーキテクチャでは、Eコアのパフォーマンスが従来よりはるかに高くなっている。Lunar LakeでもEコアとは呼ばれているが、それはPコアよりも性能が低いということではない。
このハイブリッド アーキテクチャでの変更点について掘り下げてみよう。効率とは電力エンベロープごと、つまりワット当たりの性能となる。Eコアは性能、電力効率も向上させて、ワット当たりの性能が向上している。
効率が優れているということは、使用可能な電力の制限がある場合での絶対性能は高くなる。この条件ではEコアが選択される。低電力エンベロープではEコアがPコアの性能を上回ることになるからだ。負荷の高いパフォーマンスが必要になった場合のみ、Pコアに切り替えてピークパフォーマンスを利用する。そうではない場合のほとんどの利用シーンではEコアで処理をする。
Meteor Lakeでは、コンピュートタイルにPコアとEコアがあり、SoCタイル上の低電力アイランドにもEコアがある。Lunar Lakeでは設計コンセプトを少し変更している。まず1つ目として、リング上にある大きなキャッシュ構造にはPコアのみが接続されている。Meteor Lakeではコンピュートタイル上のリング上のキャッシュにPコア、Eコアとも接続されていた。
そして2つ目として、Meteor Lakeでは低電力アイランド上で低電力でも機能するようにEコアを改良したが、Lunar LakeではEコアを高出力のエンベロープにも拡張することで、はるかに効率を向上させた。そして、Eコアを2コアから4コアに変更し、キャッシュは2MBから4MBに増やしている。Eコアが使用できる別のキャッシュであるメモリサイドキャッシュを追加したことも、EコアのIPC向上に大きく貢献している。
さらに、専用の電力供給レールに接続することで、Eコアの周波数の電圧を、Pコア、GPU、NPU、メモリサブシステムとは別に管理できるようにした。Meteor Lakeでは低出力アイランド上に設計されたEコアクラスタを、Lunar Lakeではより効率的な構造にした形だ。Lunar LakeではPコアクラスタとEコアクラスタを分離し、最先端プロセスを活用してEコアの周波数を2倍に、コア数を2倍にした。
メモリサイドキャッシュ
Eコアクラスタ内のL2キャッシュの外に設定されたメモリサイドキャッシュは完全に新しいものだ。キャッシュサイズが大きいことで、システムメモリからデータを取得する回数と量を節約でき、電力を節約できるメリットがある。他のキャッシュと似ているが、これはメモリ側のキャッシュであるため動作は少し異なるが役目としては同様のことを行なう。
まずシステムメモリよりCPUに近いため、レイテンシがはるかに優れていて、より高いパフォーマンスが得られる。メモリサイドキャッシュはLunar Lakeで初めて導入された。
メモリサイドキャッシュには、AIエンジンやメディア エンジンなど、Eコア以外のブロックからもアクセスでき、実際には他のブロックの方がより使用しているという。メモリサイドキャッシュはバッファリング(データの一時的な保存)とシステムメモリへのアクセス削減に活用され、システム内のすべてのエージェントからもアクセスできる。
しかし、システム内のエージェント(電源管理、セキュリティ管理、デバイス管理のエージェント)は、通常、頻繁なデータアクセスや高速なメモリ操作を必要としないのでキャッシュの効果はそれほどない。メモリサイドキャッシュはそういったキャッシュの無駄な割り当てを認識して、その一部を有益であると判断したEコアまたはEコアクラスタに割り当てるよう設計されている。一部をPコアやメディアにも割り当てることができるが、PコアクラスタよりもEコアクラスタの性能に大きく貢献する。
PMICの利点
Eコアクラスタには独自のパワーレールがあり、PMICによってコントロールされる。Eコアクラスタ専用として完全に別系統のパワーレールを接続しており、Pコアが動作している間はキャッシュも含めて完全にオフにすることができる。逆も同様で、Pコアクラスタを完全にオフにして、Eコアを効率的に動作させることもできる。
PMICにより、タスク処理で使用していない各ブロックでの電流漏れや電力消費は、今までになかったレベルで抑えることができる。PMICの実装の方法はどのようになっているのだろうか。
Lunar Lakeでは独立した電源供給レールは15以上あるという。その中で主要なものが4つあり、それらが4つのPMICに接続されている。主要なものとは、Pコア、Eコア、システム エージェント、そしてグラフィックスになる。これらの電源をオフすると、それぞれのキャッシュをフラッシュすることもでき、より効率的になる。
また、固定レールだけでなく可変レールも追加している。Eコア用のレールは可変になっている。DRAMにもいくつかの可変レールを追加している。PMICによりこれらの制御も可能だ。
4つのPMICで、より細かいブロックごとに、より高い分解能で、より効率の良い電圧供給の精度を可能にし、電源レールでの贅沢な柔軟性をも提供する。そのため、テレメトリ情報を使用して制御することで、電力効率を上げている。
PMICチップはテレメトリをサポートしており、それらを読み取り、電力分解能をより適切に制御するために使用する。4つの異なる電源レールに4つのPMICが搭載されるため、実際にオンとオフを切り替えたり、より正確な電圧や異なる電圧を提供して、電力を節約できる。このような今までになかった進化した電力管理からも、Lunar Lakeはプレミアムなプラットフォームアーキテクチャと言える。
グラフィックスの新機能
Lunar LakeのGPUは大きなグラフィックスエンジンだ。クリエイターやゲーマーに向けた体験を提供することが可能になるという。
マイクロアーキテクチャはXe2に進化した。Xe2はパフォーマンスを大幅に向上させ、AI処理機能も向上させるXMXエンジンを統合した。そして、新しいメディアエンジンと新しいディスプレイエンジンも搭載している。これはXe2アーキテクチャの一部となっている。新しいディスプレイエンジンはHDMI 2.1とDP 2.1を統合していて、省電力のeDP 1.5を備えている。
ディスプレイパイプラインは3つある。新しいメディアエンジンは、デコード機能の大幅なアップグレードであるH.266 VVCデコードもサポートしている。Meteor Lakeでサポートされている、AV1のエンコードとデコードも引き続きサポートしている。
NPUの進化
NPUもメジャーアップグレードされている。回路を大きく拡張し、6つのニューラルプロセシングエンジンと12のSHAVE DSPに進化した。どちらも9MBのキャッシュでAIアクセラレーションを大幅に向上させ、電力効率が大幅に向上している。
新NPUの大きな特徴は、非常に低い電力で多くのTOPSを得ることができる効率だ。エンジンの数を増やしたことで、バックグラウンドのAIタスクを実行している場合や高出力のスループットを必要としない場合などは、エンジン数を低く抑えて処理ができるため非常に効率的になるという。一方、ニューラルコアエンジンの数を増やしたので、それらすべて処理することもできる。
PCT(プラットフォームコントロールタイル)
次に、PCT(プラットフォームコントロールタイル)も見ていこう。PCTには、セキュリティと接続性という主に2つの役割がある。セキュリティについては、新しいエンジンであるインテルパートナーセキュリティエンジンや、インテルシリコンセキュリティエンジン(Intel Silicon Security Engine)があり、すべての認証を担当している。
接続性については、初めてWi-Fi 7をチップ内に統合し、USB4、USB 3.x、PCIe 5.0、PCIe 4.0をサポートしている。Bluetooth、Thunderboltもサポートされ、いくつかの機能強化もされている。
パッケージの進化
シリコンタイルとしてはコンピュートタイル、プラットフォームコントロールタイル、DRAMがあり、それらはすべて同じパッケージ上の場所で接続されている。その構造はコンピュートタイルとPCTタイルを1つのFoverosチップのベースタイルに載せて、DRAMを同じパッケージ内に実装している。
ネットワークオンチップ
Lunar Lakeでは、チップ内のインターコネクトに多くの変更を加えた。そのために統一プロトコルを作成し、ネットワーク層とプロトコル層を分離した。さらに、インターコネクトの電力効率も改善したという。それに加え“拡張スケーラビリティ”と呼ばれる、もう1つの変更を行なった。
コンピュートタイルとPCTにはインターコネクトファブリックがある。これらは同じファブリックであるため、タイルに搭載されるIPを切り替えることができる。これを“拡張スケーラビリティ”と呼んでいる。別のセグメント、他の目的、プロセスとコストのさまざまな組み合わせに対して、IPを拡張する柔軟性を持つことができるようにするものだ。
インターコネクトの進化により、タイル間でIPを移動したり、あるいはどちらタイルに配置するかの選択可能という柔軟性が得られた。このタイル(チップレット)のカットラインに関係ないアーキテクチャの良さや柔軟性はLunar Lake以降の世代で拡張できる。
事実、すでにLunar Lakeのこの利点を次の世代の製品に引き継いでいるという。機能ブロックやIPを別のタイルに移動させることができ、プロセスによっては、1つのプロセスに縛られることなく、移動させるだけでレゴブロックのように組み合わせを考えられる。IPにもとらわれず、パーティションにもとらわれなく可能になる。PCTでの特徴的なところは以上になる。
Lunar Lakeのプレミアムさという観点から技術を説明してみた。PCプラットフォームとして見ると、Eコアクラスタで、通常のノートブックPCの用途において効率の良い電力効率と性能を実現。そして、その利用シーンを超えるような状況ではPコアクラスタによる別のエンジンが動作し、高性能を提供する。ノートブックPCでの新しい使い方をAI PCとしてさらに進化させたプレミアムなアーキテクチャになったと言える。
内部を見ても、設計コンセプト、アーキテクチャ、各ブロック/機能で最高のもの、新省電力機能の実装、メモリ/キャッシュの効率化、タイル間のファブリック、タイル内のネットワークオンチップと最新のものが贅沢に採用された。今後のさらなる進化、変革を期待させる製品になっていると思う。