笠原一輝のユビキタス情報局

Armの新しいCPU「C1」は2桁パーセントの性能アップ。電力効率も大幅改善

C1-Ultra、C1-Premium、C1-Pro、C1-Nanoと四つのグレードになったLumexのCPU

 英Armは9月10日、同社のクライアントデバイス向けの新しいIPスイート群となる「Arm Lumex CSS Platform」(以下Lumex)を発表した。Lumexは新しいCPU「C1」、新しいGPU「Mali G1」などのIPデザインから構成されており、従来世代の製品と比較して2桁パーセント以上の性能向上を実現する。

 今回Armは報道関係者を対象としたセミナーを開催し、詳細を説明した。本リポートではこれらのCPUやGPUについて解説していきたい。

単体のCPU/GPU提供から、それらをセットにしたCSSへと移行を進めるArm。ブランド名も刷新

単体のIPから、CSSへそしてAIのプラットフォームへ

 今回のArmの発表では、プラットフォームのブランド名も、CPUおよびGPUのブランド名も変更されている。過去の世代も含めてそれぞれの変遷をまとめると以下のようになっている。

ArmのTCS、CSSの進化の歴史
【表1】Armのプラットフォームの変遷
プラットフォーム名称Lumex CSS PlatformCSS for ClientTCS23TCS22TCS21
発表年2025年2024年2023年2022年2021年
CPU命令セットArmv9.3-AArmv9.2-AArmv9.2-AArmv9-AArmv9-A
拡張命令(SVE/SVE2)
拡張命令(SME2)----
CPUプライムコアC1-UltraCortex-X925Cortex-X4Cortex-X3Cortex-X2
CPUサブプライムコアC1-Premium----
CPU高性能コアC1-ProCortex-A725Cortex-A720Cortex-A715Cortex-A710
CPU高効率コアC1-NanoCortex-A520Cortex-A520Cortex-A510Cortex-A510
DSUC1-DSUDSU-120DSU-120DSU-110DSU-110
GPU(最高構成)Mali G1-UltraImmortalis-G925Immortalis-G720Immortalis-G715Mali-G10
プロセスノード最適化3nm3nm4nm4nm5nm

 命名規則としては、まずプラットフォームに特定のブランド名が付けられ、CSSやTCSといった名称がその後ろに付けられる形になっている。これは、Armが5月に発表した新しいブランド戦略に基づくもので、サーバー向けはNeoverse、自動車向けはZena、PC向けはNiva、IoT向けはOrbisであると明らかにされている。Armは自動車向けのZenaをすでに発表しており、今回のモバイル向けのLumexはそれに続く第2弾ということになる。

サーバーはNeoverse、自動車はZena、モバイルはLumex、PCはNiva、IoTはOrbisと、ターゲット市場ごとに新しいブランド名称が付けられている

 なお余談になるが、PC Watchの読者としてはPC向けのブランドとしてNivaが用意されていることにも注目すべきだろう。これまでArmはモバイル向けの中にPC向けも含むと説明してきたが、今回のLumexではChromebookをサポートすると説明したものの、Windowsに関しては何も触れていなかった。

 つまり、Nivaの発表がされると、現状QualcommのSnapdragon Xシリーズの1つしか選択肢のないArm版Windows(Windows on Arm、WoA)向けSoCが、そうではなくなる可能性が高いということだ。

CPU、GPUなどのIPデザインだけでなく、プロセスノードへの物理実装なども含めてセットメニューとして提供されるLumex

 話を本筋に戻すと、Armはそのようにプラットフォームレベルでのブランドを強化したが、逆にCPUとGPUに関しては簡素化した。CPUに関しては、長年モバイルユーザーに親しまれてきたCortexのブランド名が消滅し、単に「C」と世代を示す「1」を組み合わせて「C1」と呼ばれることになった。

 これはGPUも同様で、前世代まではImmortalisのブランド名がフラグシップ向けに使われてきたが、今回は以前のMaliに戻され、同時に「G」と「1」という世代を示す数字が付けられ「Mali G1」というブランド名に変更されている。Armによれば、ユーザーなどに調査した結果、ImmortalisよりもMaliの方が、認知度が高くシンプルであるためこのような変更を行なったということだった。

 Armがこうしたプラットフォーム強化のブランド戦略をとるのは、それがArmとしてのビジネス戦略を象徴しているからだ。ArmのビジネスはCPUのISA(命令セットアーキテクチャ)を提供するビジネスから始まったが、そこからCPUのIPデザインを提供する形に発展。それをGPU、チップ間インターコネクト、メモリコントローラと、提供するIPデザインの種類を徐々に拡大していき、顧客がそれらを組み合わせてSoCをより簡単に設計できるようにしてきた。

 さらにArmは、ファウンダリが提供するプロセスノード(たとえばTSMCの3nmなど)への落とし込みもデータとして提供してきた。これにより、顧客となる半導体メーカーは従来よりも迅速にSoCを設計し、実際の製造までより早くこぎ着けるようになっている。

 従来Armは、こういったIPデザインをそれぞれ別のライセンスとして提供してきたが、CSS(当初はTCSだったがその後CSSに)という名称でIPスイートとしてセット提供を始めた。セットにすることで、単体で提供するよりも安価にでき、顧客にとって魅力的な価格になる一方、Armにとっても全体として売り上げが伸びるという仕組みだ。ハンバーガーチェーンがハンバーガー単体よりもセットメニューに力を入れるのと同じ理屈になる。

 そのため、Armとしてはセット販売に力を入れており、Lumexのようなプラットフォームのブランドを強化し、逆にIPデザインの方はよりシンプルにするという戦略をとることになったのだ。

プライムコアのC1-Ultraは、フロント/バックエンドの改良でIPCが2桁向上

CPUは「Ultra」「Premium」「Pro」「Nano」という4つのグレードが用意される

 今回のLumexのCPUとして提供されるCortex改めC1には、「Ultra」「Premium」「Pro」「Nano」という4つのグレードが用意される。2024年版のCSS for Clientでは、プライムコアがCortex-X925、高性能コアがCortex-A725、高効率コアがCortex-A520という3つのグレードだったため、1つグレードが増えたことになる。

プライムコアとして用意されるC1-Ultraと、その機能限定版として用意されるC1-Premium

 最上位のフラグシップコアあるいはプライムコアと呼ばれるC1-Ultraは、2024年のCSS for ClientのプライムコアだったCortex-X925の後継製品となる。近年のArm CPUのプライムコアは、IPCを引き上げ、クロック周波数を高める設計がなされるのが一般的で、それによりシングルスレッド時の性能向上を目指している。今回発表されたC1-Ultraもその延長線上にある製品だ。

 Armのプライムコアはここ6年、以下のような形で進化してきた。

【表2】Armプライムコアの進化
プライムコアC1-UltraCortex-X925Cortex-X4Cortex-X3Cortex-X2Cortex-X1
登場年202520242023202220212020
ISAArmv9.3-AArmv9.2-AArmv9.2-AArmv9-AArmv9-AArmv8.3-A
拡張命令(SVE/SVE2)-
拡張命令(SME2)-----
ターゲットクロック周波数4.1GHz以上3.6GHz以上3.3GHz3.2GHz3GHz3GHz
デコード長101010655
ディスパッチ/サイクル101010888
ALU888644
FP/SIMD664444
L1データ128KB64KB64KB64KB64KB64KB
L1命令64KB64KB64KB64KB64KB64KB
L22MB/3MB2MB/3MB512KB/1MB/2MB512KB/1MB512KB/1MB512KB/1MB
L30~32MB0~32MB0~32MB0~16MB0~16MB0~16MB

 ここ数年で一番大きな進化を見せたのは2023年のCortex-X4で、ALU(整数演算器)が6基から8基に増加し、大きく性能が向上したあたりだ。さらに2024年のCortex-X925では、FP/SIMDの演算器が4基から6基に増え、ターゲットクロック周波数も、Cortex-X4では3.3GHzだったのが、Cortex-X925では3.6GHz以上に引き上げられている。たとえばMediaTekのDimensity 9400+では、Cortex-X925は3.75GHzというクロック周波数を実現している。

2024年の競合他社のプレミアムAndroidスマートフォンとCortex-X925、C1-UltraのIPC比較

 Armによれば「2024年の競合他社のプレミアムAndroidスマートフォン」に搭載されたSoC(おそらくSnapdragon 8 Gen 3のこと)と同じクロック周波数で比較すると、Cortex-X925の段階で性能が上回っており、C1-Ultraでは20%ほど上回っていると述べている。同じクロック周波数でという前提条件を取ると、Cortex-X925はQualcommのSnapdragon 8やApple Aシリーズに匹敵するようなシングルスレッド性能を実現しているということができるだろう。

C1-Ultraの改良点。コアは基本的にキープコンセプトで、フロントエンドとバックエンドの改良が著しい

 今回のC1-UltraはそうしたCortex-X925の成功を受け継いでいる。CPUの設計と言えば、フロントエンド(フェッチやデコーダ、分岐予測)、コア(ALUやFP/SMIDなどの実行ユニット)、バックエンド(ロード/ストアなどのデータの出し入れ)などから構成されているが、Armによれば今回のC1-Ultraのコアは、ほぼCortex-X925のそれを引き継いでいる。デコード長やクロック周波数あたりのディスパッチ、さらにALUやFP/SMIDなどの演算器に関しても同等だという。

 今回ArmはC1-Ultraの内部構造のブロック図を公開しなかったため、ALUやFP/SMIDの演算器がそれぞれいくつあるのかは、Armが製品発表後に公開する「Software Optimization Guide」などを待つ必要があるが、説明をそのまま受け取れば、ALUやFP/SIMDの演算器はCortex-X925と同じだと考えていいだろう。

C1-Ultraのフロントエンド改良点
C1-Ultraのコア改良点

 一方、C1-Ultraのフロントエンドでは主に分岐予測の精度を高める改良が加えられている。具体的には分岐予測の過去の履歴などをより詳細分析し、それにより正確性を上げることで性能や電力効率などを改善している。また、L1命令キャッシュの帯域幅が33%増加したことで、命令とのフェッチをより高速に行なうことが可能になる。

バックエンド改良点

 バックエンドでは、L1データキャッシュの容量が従来までの64KBから128KBに増えている。これまでキャッシュ容量はCortex-X1からCortex-X925までの5世代にわたって、データ64KB、命令64KBの合計128KBとなっていたが、C1 Ultraではデータが128KBに層化して、合計192KBになっている。

 L1データキャッシュが増えるメリットは、シンプルにメモリレイテンシの削減だ。キャッシュは、CPUがメモリからのデータを待っている間、待機状態になることを防ぐために階層化しているものだ。そのためキャッシュサイズが増えることは、それだけメモリからデータが読み出されるまでの待ち時間が減ることにつながり、その効果は小さくない。

Cortex-X925との比較、ピーク性能は25%向上し、同じ性能なら消費電力が28%減少している

 こうした改良により、従来世代と比較してピーク性能は25%向上し、同性能であれば消費電力は28%減少しているという。すなわち、電力効率が向上しているのがC1-Ultraのメリットとなる。

C1-UltraのFP/キャッシュ削減版となるC1-Premium。高性能コアC1-Proと高効率コアC1-Nanoも順当進化

C1-Premiumはダイサイズが35%削減されるが、プライムコア並みの性能を実現したのが新しいデザインポイント

 今回新たに追加されたサブプライムコアとなるC1-Premiumは、基本的にはC1-Ultraの設計を利用しているが、FP/SMID演算器の数を減らしたことと、L2キャッシュのサイズを抑えたことにより、ダイ面積が35%削減されたのが特徴だ。Armは具体的にどの程度演算器やキャッシュ容量を減らしたのかを明らかにしていないが、ダイサイズが約3分の1減っているとなると、思い切ってFP/SIMD演算器、キャッシュのどちらも3分の1(ないしはそれ以上)減らしている可能性がある。

 C1-UltraのFP/SIMD演算器は6基、L2キャッシュは2MB~3MBになっていると考えられるので、FP/SIMD演算器は4基、L2キャッシュは1MB~2MBあたりの設定になっていると考えるのが妥当なところだろう(このあたりもC1 PremiumのSoftware Optimization Guideなどの公開を待ちたいところだ)。こうした設計により、C1 Premiumはダイ面積を35%削減しながら、C1-ProとC1-Nanoで構成されている場合に比較して、35%性能が向上しているとArmでは説明している。

 MediaTekのDimensity 9400シリーズでは、高クロックなCortex-X925が1コア、通常クロックのCortex-X925が3コアと、X925を合計4コア使ったプライムコア1基+サブプライムコア3基という構成になっていたが、仮に2025年もC1-UltraとC1-Premiumで4コア構成にするならば、C1-Ultra 1基とC1-Premium 3基という構成が可能になるだろう。それによりダイサイズを抑さえ、消費電力を削減しつつ、高性能化を実現できることになる。

C1-ProとC1-Nano

 最後にC1-ProとC1-Nanoはそれぞれ、従来高性能コアとして提供されてきたCortex-A725、高効率コアとして提供されてきたCortex-A520の後継となるCPUだ。C1 Proは、C1-Nanoほどは性能が低くなく、C1-Ultra/Premiumほどはダイサイズが大きくならないという点で、通常使いができるCPUコアとなる。それによりコア数を稼いで、マルチスレッド処理を効率よく行なえる。

C1-Proのフロントエンド改良点
C1-Proのバックエンド改良点
C1-ProによりCortex-A725と比較してピーク性能は11%向上し、同じ性能であれば消費電力は26%減っている

 C1-Proも、フロントエンドとバックエンドの改良が顕著。フロントエンドでは分岐予測のスループットや正確性の向上、L1命令TLBの50%増量、さらには分岐予測時の電力削減などが実現されている。バックエンドではL1データキャッシュの帯域幅の増加、新しいインダイレクトプリフェッチャなどの導入より、L3キャッシュやDRAMとの混雑回避などが可能になっている。

 こうした強化により、Cortex-A725と比較して性能では11%の向上、同じ性能であれば26%の消費電力削減を実現している。

C1-Nanoの改良点

 C1-Nanoは、FP/SIMDユニットを拡張しているほか、L3/DRAMへのアクセス混雑を21%削減するなどして実行効率を高めており、電力効率をA520に比べて26%改善している。

C1-DSUの改良点

 さらに、こうしたC1シリーズのチップ間インターコネクトとなる「C1-DSU」は、前世代のDSU-120と比較して、CPUのクラスタトポロジー(接続方法)やL3キャッシュの搭載方法を変更しており、性能に影響を与えずに消費電力を削減することに成功している。

 なお、従来と同じように物理的なコア数の限界は最大14コアになっており、その範囲内でC1のそれぞれのグレードを利用してさまざまな組み合わせが可能になっている。

C1-Nano 2コア構成や、C1-Ultra 2コアとC1-Pro 6コアを組み合わせた構成など、伸縮可能なアーキテクチャが特徴

 Armが示した例では、C1-Nanoの2コアという最小構成から、C1-Ultra 2コアとC1-Pro 6コアによる8コア構成など、さまざまな構成が紹介されており、伸縮可能なアーキテクチャになっていることも大きな特徴だ。この場合だと前者に比べて後者は17倍の性能を発揮できるという。

C1シリーズの全グレードがSME2に対応。ソフトウェアの対応で約5倍の性能向上を実現

C1シリーズはすべてのグレードがArmv9.3AとSME2に対応している

 今回のLumexにおけるC1シリーズは、すべてのグレードのCPUがArmv9.3-Aの命令セット、そして拡張命令セットとなるSME2に対応している。特に大きな変化はSME2に対応したことになる。

 Armは、ISAを世代ごとに定義しており、今回のC1シリーズではArmv9.3-Aで定義されているArmの64bit命令セットに対応している。拡張命令セットは、このISAの枠外として定義されているもので、Neon、SVE/SVE2、そして今回のC1で対応が明らかにされたSME/SME2などが用意されている。

 一般的なPCで採用されているx86命令セットでも、64bitの命令セットがAMD64(Intelの言い方ではIntel 64)として定義されており、それとは別にSIMD系の拡張命令としてSSE、AVX、AMXと定義されている。Neon、SVE、SMEはそれと同じようなものだと理解すれば分かりやすいだろう。

 C1シリーズが対応したSME2は、そうしたArmのSIMD系拡張命令の最新版で、最大の特徴はいわゆる行列乗法と呼ばれる、複数の行列をまとめて一度に演算できることになる。

SME2はSMEの発展形だが、よりAI推論に最適な命令セットになっている

 SME2はその名称からも分かるようにSMEの第2世代になる。初代のSMEはApple M4など、他社の自社設計CPUで採用例があったが、実はこれまでArmのCortex系のCPUでは対応してこなかった。このため、今回C1シリーズのSME2対応は、ArmデザインのCPUとしては初めての取り組みになる。

 ではなぜArmのCortexでは、第1世代のSMEに対応してこなかったのだろうか。Armによれば「SMEはどちらかと言えばHPC/AI学習に特化したような拡張命令になっており、クライアント向けのCortexには必要ないと判断してきた。しかし、SME2ではAI推論に対応した命令セットが追加されており、クライアント向けのCシリーズに実装する意味があると判断した」と説明する。

 SMEはHPCやAI学習向け、つまりサーバー向けのCPUで効果がある命令セットとして定義されていたが、SME2はいくつかの機能追加によりAI推論にも利用できるようになったため、今回のC1シリーズに採用したということになる。

SME2を利用すると、性能は最大5倍に、電力効率は最大3倍になる

 SME2は、SMEで実現された機能に加えて、複数の浮動小数点の行列を処理できるような命令などが加わっており、一度により多くの行列を処理することが可能。これにより性能を向上させながら、同時に電力効率を改善できるところが特徴となっている。Armによれば最大5倍の性能を実現しながら、同時に3倍の電力効率を実現するという。特にAIではこうした行列演算を行なうことが多いため、AIアプリケーションで大きな効果があると説明している。

 ただし、SME2を活用するには、ソフトウェア側で明示的にSME2に対応する必要があり、つまりその5倍の性能向上を実現するには、アプリケーション側の対応が求められることになる。

 しかしArmによれば、Androidアプリケーションの中には、Armが提供するAIアプリケーション実現のためのミドルウェアである「KleidiAI」を組み込んでAI処理を行なっている例が多いという。この場合、ソフトウェアベンダーがKleidiAIをSME2に対応したバージョンにアップデートするだけで、アプリケーションはAI演算をSME2で実行できるようになる。それにより、最小限の改良だけでSME2のメリットを享受できると説明している。

Mali G1はG720、G925に引き続き第5世代GPUベース。レイトレ性能は2倍に

Arm GPU進化の歴史

 今回Mali G1に名称が変更されたGPUだが、基本的なアーキテクチャは2023年に導入されたImmortalis-G720、24年に導入されたImmortalis-G925で採用されてきた、Armの第5世代GPUの進化版となる。第5世代GPUでは、タイル型のシェーダーエンジンを最大24コア構成にできるような伸縮可能な設計となっており、それは今回のMali G1でも変わっていない。

 ただし、シェーダー内部の実行効率を高める最適化は続けられており、新しく導入された「Image Region Dependencies」により、レンダリング時の処理効率が上がり、同じ処理をより短い時間で実行できるようになっている。こうした改良により、前世代に比べて20%ほどGPU全体の性能が向上しているとArmは説明している。

Mali G1-Ultraの性能向上
Image Region Dependencies

 では、大きな強化点はどこなのかと言えば、それがImmortalis-G925で導入されたハードウェア・レイトレーシングユニット(RTU)が第2世代に進化していることだ。Armの従来のRTUでは、レイトレーシングの処理を行なう時にシェーダーエンジンの外側に用意されているRTUを利用して処理を実行し、その結果をシェーダーエンジンに返す仕組みになっていた。しかし、第2世代RTUではシェーダーエンジンの内部でレイトレーシング処理ができるようになり、同じレイトレーシングの処理でも実行効率が高まっている。これにより、RTUの性能は2倍に高まっている。

RTUが第2世代になることでレイトレーシング時の処理能力が倍に

 この進化はRTUの内部での進化であって、ソフトウェア側の対応は必要ない。ソフトウェア側ではレイトレーシングの一般的なAPI(Android OSの場合はVulkan)に対応していれば活用できるため、特に改修する必要はない。つまり、既にImmortalis-G925のRTUに対応したゲームで遊んでいるユーザーは、Mali G1を搭載したSoCに乗り換えるだけでその恩恵を得ることができる。

FP16を利用したAI演算に対応

 なお、Mali G1では、既にArmが発表しているGPUへのニューラルアクセラレータの導入は見送られている。今回、次世代以降にこの導入を予定しているが明らかとなっており、2026年版のLumexでの対応が見込まれる。

 ただし、従来はFP32を利用したAI処理だけがサポートされてきたが、今回の世代ではFP16を利用したAIの処理が可能になった。アプリケーションがそれを活用することで、AI処理時にメモリ帯域を削減してスループットと電力効率を引き上げられる。

Mali G1にはUltra、Premium、Proという3つのグレードが用意されている

 Mali G1には、シェーダーエンジンが10コアから24コアのMali G1-Ultra、6コアから9コアのMali G1-Premium、そして5コア以下のMali G1-Proという3つのグレードが用意されており、顧客となる半導体メーカーは自社製品のニーズに応じてグレードを選択することが可能だ。

FPGAでの世代間テストでは大きな性能向上を実現しているLumex

FPGAを利用したテスト環境。CSS for ClientとLumexが同じFPGA上で再現されており、アーキテクチャ上の違いを計測している

 こうした設計を施した結果、Lumexの性能は従来のCSS for Clientに比較して大きく引き上げられている。Armでは、3nmのFPGAを利用して、仮想的にLumexとCSS for Clientを構成した場合のベンチマーク結果を公開している。

 FPGAはソフトウェアによりさまざまな半導体を定義できるデバイスで、それを利用してLumexやCSS for Clientを仮想的にFPGA上に構築することで、世代間の違いを見るというのが目的だ。FPGAでこうしたデバイスを構成しても実際のリアルチップの性能が再現できるわけではなく、あくまでIPデザインの設計レベルでの違いを見るという意味での比較になる。

 Lumexは、CPUクラスタがC1-Ultra(2コア)+C1-Pro(6コア)の8コア、GPUはMali G1-Ultra(14コア)、L3キャッシュ(SLC)は16MBとなる。それに対してCSS for Clientの方はCPUクラスタがCortex-X925(2コア)+Cortex-A725(4コア)+Cortex-A520(2コア)の8コア、GPUはImmortalis G925(14コア)、L3キャッシュ(SLC)は16MBという構成になっている。

ベンチマーク結果
SME2を利用した場合の結果とMali G1-Ultraのベンチマーク結果
SME2を利用すると、処理が早く終わるため、結果的に低消費電力になる

 CPUの性能は、アプリ起動が15%アップで、Geekbench 6.3のマルチスレッド性能では45%と、大きな性能向上を実現している。これは、プライムコア以外のCPUコアがC1-Pro 6基となっている効果だと考えられる。また、SME2を利用した場合のCPUクラスタ全体の性能は平均して3.7倍となっており、SME2を利用した場合の性能向上幅が大きいことを示している。また、SME2を利用すると、消費電力を削減できることも特徴で、12%性能が向上しているのに対し、消費電力は28%削減されている。

 このように、LumexではCPUもGPUも、改良の効果で2桁パーセント以上の性能向上を実現しており、CPU/GPUの世代間進化としては十分な向上幅を実現している。さらに、CPUはSME2という新しい拡張命令セットに対応することで、最大5倍、平均して3.7倍の性能向上を達成し、かつ電力効率は3倍になっている。特にSME2を利用できるとその性能向上幅は大きなものがあると言えると思う。

 今後こうしたLumexが、MediaTekのようなArmの顧客が提供する製品に採用されることになる。市場にはAppleが設計したAシリーズ、Qualcommが設計したOryon CPU採用のSnapdragon 8シリーズなど、Armアーキテクチャを採用したオリジナル設計のArmプロセッサが既にあり、そうした製品との競争がどうなっていくかも今後の焦点と言えるだろう。