ニュース

Lunar Lakeって何が凄いんだったっけ?再度おさらいしておこう

Lunar Lakeの特徴まとめ

 インテル株式会社は26日に都内で「Tech-Talk」と記者向けに最新技術を解説する記者説明会を開催した。この中でCOMPUTEX TAIPEI 2024の前後に発表された「Xeon 6」、「Gaudi 3」、そして「Lunar Lake(開発コードネーム)」について改めて解説がなされた。

 この記事では、読者の多くがもっとも関係するであろうLunar Lakeを取り上げる。詳細については本誌でも既に報じているのだが、新しい要素について改めて整理しておさらいしておこう。説明会では、同社技術本部 部長 工学博士の安生健一朗氏が解説を行なった。

全体的な概観

 Lunar LakeはMeteor Lakeの後継として2024年第3四半期にも投入が予定されている製品。SKUなどについてはその第3四半期の正式発表を待つ必要があり、現時点では技術概要のみが明らかになっている。

 市場全体が“AI”というキーワードに向かう中、現在のクラウド側でのAIのみならず、セキュリティや効率の面からエッジでAIを処理することも期待されている。そのためにLunar Lakeは次世代のAI PCを見据えた設計になっている。

Lunar Lakeの実物を手にする安生氏
エッジAIを見据えた設計

 Lunar Lakeの特徴を4つにまとめるのであれば、卓越したシングルスレッド性能、画期的なx86の電力効率、グラフィックス性能の向上、そしてAI演算性能の向上となる。これを実現するため、Meteor Lakeで導入したFoverosを踏襲し、22nmで製造されるベースタイルの上に、各々の機能に適したプロセスで製造された3種類のタイルを乗せる構造を採用しつつ、新たにメインメモリを統合した。

Lunar Lakeの4大特徴

 このメモリをオンパッケージにするというのはIntel初かつ大胆な試みとなっており、16b×4chのLPDDR5xを最大32GBまで統合する。これによりメモリ転送物理層の消費電力を最大40%削減しつつ、基板に占める面積を削減することによって、(PCメーカーの最終製品が)革新的なフォームファクタを実現するのが狙いとなっている。

 なお、統合されるメモリは当然Intelが製造を行なわず、SamsungやSK hynix、Micronといったメーカーが提供し、それをIntelがパッケージングするという形式を採る。このためPCメーカーが特定のメモリを選択したりすることはできなくなるのは弱点であると言える。

Lunar Lakeのパッケージング技術
メモリをパッケージ上に統合するアーキテクチャ

シングルスレッド性能向上のためのPコア

 卓越したシングルスレッド性能の向上の実現には、やはり新設計したPコアが欠かせないのだが、今回のPコアの開発コードネームは「Lion Cove」と呼ばれ、「面積と電力あたりの性能(PPA)」に特化した設計となっている。

 性能向上という意味では、実行ポートを従来の12基から18基に増やすことでよりワイドな実行が可能になったほか、ワイドになった実行ポートに対して命令を十分に並列化してフィードできるよう、分岐予測も8倍ワイドとなり、プログラム内の並列可能な部分をよりディープに分析して可能な限り並列化させた。

PコアことLion Coveの設計

 また、アウトオブオーダーエンジンもベクターと整数部分で分離させることで、可能な限り処理を並列化するようになり、スケジューラも幅が広くなり、より深いレベルのアロケーション/リネーム/リタイアが可能となった。

 メモリ周りでは、これまでのL1キャッシュのレイテンシをさらに削減させた「L0キャッシュ」を新設し、キャッシュミス時のレイテンシを大きく改善させた。ちなみに、安生氏によればこのキャッシュミス時の改善は、性能向上に大きく貢献するという。

 こうした改善により、(Meteor Lakeで採用された)前世代のPコアであるRedwood Coveと比較して、同じクロックで平均して14%の性能向上が実現できたという。同じ消費電力でも二桁の性能向上を達成できたとしている。

 より高いPPAを達成するために、今回Hyper-Threading技術を省いたのもトピックの1つ。安生氏によれば、マルチスレッド性能の改善はHyper-ThreadingよりもEコアのほうが効率的であったとして、今後のトレンドとしてもEコアを増加させる方向になるだろうとしている。

Pコアに取り込まれた新たな要素
クロックあたりの性能は平均して14%向上。また、あらゆる電力での効率も向上した

電力改善のためのEコアと、Thread Directorの改善

 Lunar LakeではEコアも新たに開発した「Skymont」となっているが、Meteor LakeでSoCタイルの中にあった「LP Eコア」を1つに統合することを目指して、低電力から高性能まで幅広いダイナミックレンジを持つ特徴のコアを実現させた。

EコアであるSkymontの設計ゴール

 そのためLion Coveと同様に、26のディスパッチポートや分岐予測の強化、幅広いアロケーションユニット、96B並列フェッチ、キュー深度の増加による並列性の強化などを図っている。また、VNNI命令のスループットを2倍にしたり、4MBある共有L2キャッシュ帯域幅を2倍に増やすといった強化が図られた。

 これにより、従来のLP Eコアの範囲をカバーする低電力を実現しながら、同じ性能では消費電力は3分の1、同じ電力では性能は2.9倍、最大電力では性能4倍という、設計目標通りの幅広いダイナミックレンジを持つコアに仕上がったとしている。

Eコアの新たな要素
Eコアは従来のLP Eコアの低電力を実現しつつ、絶対性能が向上した

 また、EコアとPコアの割り振りを決める「Intel Thread Director」の機能については、「これまではユーザーが望まない方向の動作をすることがあった」と従来の弱点を認めた上で、Lunar Lakeではその挙動を改善するため機能強化を行なったという。

 具体的には、OS(今のところWindowsのみのようだ)に「コンテインメント・ゾーン」という新しい領域を設け、その中でプログラムを管理することで、プログラムのワークロードに応じてPコアやEコアを割り振れるようにし、かつOEMメーカーが設計したPCのデザインに合わせて、効率重視のモードか、性能重視のモードかを選択できるようになった。

 コンテインメント・ゾーンでは、Eコアの使用に限定した「電力効率」、最初はEコアを使用するが負荷が継続して必要になった際にPコアに移行できる「ハイブリッド/コンピューティング」、そして当初よりEコアもPコアも使える「ゾーンレス」という3つのゾーンをアプリに対して付与する。たとえばTeamsのようなアプリはPコアを使う必要がないため、電力効率ゾーンに置いておけばPコアが使われることがなくなる、といった具合となる。

Intel Thread Directorの改善
OSにコンテインメント・ゾーンを設けた。説明ではMicrosoft Windowsで設けるとあったため、Linux対応の有無についてはまだ明らかではない。OEMメーカーはプログラムが置かれるべきゾーンをカスタマイズできるという
生産性タスクでハイブリッド/コンピューティングゾーンに置くと、最初はEコア、負荷が継続すればPコアに移行する
TeamsのようなWeb会議アプリはずっとEコアで実行されたままになる

GPUとNPUはいわば「規模拡大」

 残り2つのグラフィックスとAI性能の向上について、ざっくり言えば、搭載する演算ユニットを増やす方向で性能向上を図っている。

 GPUはいわばBattlemage世代の「Xe2」コアとなっている。CPU内蔵GPUではあるが、新たに行列演算を行なうXMXエンジンが搭載され、レイトレーシングユニットも8基に増加した。超解像のXeSSカーネルもアップデートを行なうことで、Meteor Lake内蔵GPUと比較して性能が50%向上したという。

 また目立たないところでは、次世代のビデオ圧縮規格であるVVC(H.266)のハードウェアデコードをサポートしたことが挙げられる。

Xe2 GPUの設計思想
Battlemage世代となったXe2コア。XMXエンジンが新設された
Xe2 GPUの性能向上

 一方でNPUについても第4世代(NPU 4)へと進化し、ネイティブのアクティベーション関数とデータ変換をサポート。ニューラルコンピュートエンジンが6基、SHAVE DSPが12基へと増やされた。メモリ周りに関してはLLMに使用されるトークナイザー処理に対応できるようDMAを強化し、帯域幅が2倍となった。これにより48TOPSの演算性能を実現するという。

 安生氏によれば、Meteor Lakeに統合された第3世代のNPUは、たとえばWeb会議に使われる人物背景のぼかしや目線合わせといった、「継続的な低負荷AI処理を効率よく実行するために設計されたもの」なのだが、「NPU 4は短時間でも高度なAI処理をある程度高速に実行も見据えたもののため高性能化した」とのことだ。

NPU 4の主な特徴
NPU 4では同じ電力で性能が2倍となったほか、電力を伸ばすことでピーク性能は4倍に達する
Stable Diffusion v1.5においては4倍の性能と2.9倍の電力効率改善が実現できたという

 また、GPUであるXe2に関しても、最大67TOPSの処理性能を誇っている。同社がAIソフトウェア開発ベンダーにアンケートを採ったところ、AIのNPUの利用率は増加傾向にあるものの、GPUも依然として高い使用率となっている。このためIntelはNPU単体の性能である48TOPSのみならず、GPUやCPUも含めてプラットフォーム全体で120TOPSの性能が出せることをアピールするとしている。

ソフトウェアベンダーとしてはNPUの利用が増えているものの、GPUも引き続き利用する意向があるという
このためIntelではCPU/GPU/NPU全体をあわせた性能をアピールする

 ちなみにLunar Lakeでは上記のCPU/GPU/NPUの強化のほかに、メモリコントローラに近いところに8MBの「メモリー・サイド・キャッシュ」を統合した点も見逃せない。たとえばNPUで1回アクセスしたデータをCPUもアクセスする場合などは、このメモリー・サイド・キャッシュを参照すれば効率よくなるため、性能が向上するとのことだった。

8MBのメモリー・サイド・キャッシュも搭載された

 Lunar Lakeではこのほか、新しいPMICによる電源供給アーキテクチャを採用するなどして、電力効率改善を図っているとのこと。また、Wi-Fi 7の標準対応や、新しい「インテル パートナー・セキュリティー・エンジン」の統合といった新要素も盛り込まれている。

 このようにLunar Lakeは、CPU/GPU/NPUアーキテクチャから、パッケージングやメモリ階層を含め、あらゆる面で新設計を盛り込んだ意欲的なプロセッサであることが分かる。年末に登場する新製品の性能に期待したいところだ。