笠原一輝のユビキタス情報局
Apple M1の実力を最新世代のIntel/AMD CPUと比較。M1が両者を大きく上回る結果に
2020年11月24日 06:55
ArmベースのSoCとなるApple「M1」を搭載したMacBook Pro、MacBook Airなどが発売された。筆者もM1の13インチMacBook Proを入手したので、その実機を利用してさまざまな考察をお届けしていきたい。
8コアCPUと2.6TFLOPSを実現するGPUを内蔵するM1
AppleのM1は、これまでAppleが採用してきたIntel製CPUに変わるmacOS向けの新しいSoCとなる。M1の最大の特徴は、CPUのISA(命令セットアーキテクチャ)がx86/x64(あるいはIA32/Intel 64)から、Armに変わっていることだ。
誤解されやすいのだが、現代のCPUはISAと性能の相関関係はほとんどない。ISAはあくまで口になっているだけで、その後CPU内部のマイクロ命令に変換して実行されるため、CPUの命令セットがx86であろうが、Armであろうがそれ自体は性能には大きな影響与えず、いわゆるマイクロアーキテクチャと呼ばれるCPUの内部構造の違いが性能差につながっている。
Appleはこれまで、iOSデバイス向けにArmアーキテクチャの自社設計SoCとなるAシリーズの開発を続けてきた。今回のM1はAシリーズをベースにして、パソコン向けにスケールアップしたものだ。iPhone 12シリーズに搭載されているA14に比べて、CPUコアやGPUコアの数が増やされている。
M1のCPUは4つの高性能コアと4つの高効率コアという2つのクラスタから構成されている。高性能コアはCPUの処理能力が必要なときに有効になり、アイドル状態になるとオフになって高効率コアに切り替わる。
これにより、性能が必要なときにはより高性能で、そうではないときには低い消費電力で動かすことが可能になり、高性能かつ低消費電力という仕組みを実現している。なお、最近のArmプロセッサで使われている8つのコアすべてをオンにして、さらに高性能で動かすモードにも対応している。
GPUに関しても、Aシリーズで培ってきたGPUの発展系が搭載されている。Appleは今回のM1に8つのGPUコアが搭載されていると説明しているが、GPUコアの詳細な説明は一切行なわれていない。そのため、どんな演算器を備えているのかわからず、なんとも評価のしようがないというのが正直なところだ。
ただ、MacBook Proに搭載されているM1のGPUはフルスペックの8コア、MacBook Airの下位モデルに搭載されているM1のGPUは7コアと明らかにされている。
つまり、MacBook Airの下位モデルのGPUは、1つのコアが無効にされているということで、半導体の歩留まりを上げるためと思われる。
M1 GPUの性能は2.6TFLOPSと公開されているが、FP32(単精度浮動小数点演算)なのか、FP16(半精度浮動小数点演算)なのかはわからない。ただ、GPUでスループットという場合には通常は単精度なのでそう仮定すると、Intelの第11世代Coreに内蔵されているIris Xe(Xe-LP)のFP32のスループットが2.07TFLOPS、Tiger Lakeの内蔵GPUよりも高い演算性能を備えていると考えられる。計算上は第11世代CoreのXe-LPに比べて約25%高い性能を持っているということだ。
TSMCの5nmで製造され160億トランジスタ。パッケージ上にはDRAMを混載
M1は、アーキテクチャなどの詳細は不明ながら、エッジAIの推論を専用で行なうApple Neuralエンジンも備えており、16コアになっている。このほか、ISP(Image Signal Processor)、セキュアプロセッサ、NVMeやThunderboltに対応するためのPCI Expressコントローラ、USB4に対応したThunderbolt 3コントローラなどが搭載されている。
パッケージ上にはこのM1チップとメインメモリになるDRAMチップが混載されている。DRAMの仕様は公表されていないが、海外で公開されている分解画像などを見るかぎりはLPDDR4X-4266という標準的なDRAMで、メモリの帯域やレイテンシといった性能に関わる部分は、基板に実装されている場合と変わらないと考えられる。
というのも、メインメモリの性能はDRAMデバイス側の性能で決まってくるが、パッケージ上に混合搭載されているからといって性能が上がるものではないからだ。
パッケージ上にDRAMを混載するメリットは、性能よりは消費電力の削減と基板設計の容易さだ。SoCから外部メモリにアクセスする場合には基板にそれなりの長さの配線が必要になるのだが、パッケージ上に混載してしまえばその配線は必要なくなり、基板設計は楽になる。また、配線が長くなればなるほど電力は増えるので、消費電力を削減するという意味では大きな効果があると考えられる。
M1はTSMCの5nm製造プロセスルールで製造され、トランジスタ数は160億となる。近年Intelはトランジスタ数をあまり言わなくなってきたので、最近のIntelプロセッサとは比較しにくいのだが、TSMCの14nmで製造されていた初代のAMD EPYC(32コアCPU)が192億トランジスタだったことを考えれば、それがどれだけすごいことか理解できるだろう。
M1が160億トランジスタという1世代前のサーバー向けCPUに迫るようなトランジスタ数を実現していることは、製造プロセスルールの微細化の明快なメリットを示していると言える。
半導体の性能はトランジスタ数に比例するので、M1はその増量したトランジスタをCPUやGPUコアを増やすのに割り当て、性能を引き上げていると思われる。
M1はTiger Lakeに比べてCPUは約31%、GPUは約37~42%高速
それでは、実際にM1を搭載した13インチMacBook Proでテストしていきたい。比較対象として用意したのは、第11世代Core(Tiger Lake)のCore i7-1185G7を搭載する「MSI Prestige 14 Evo(A11M-785JP)」と、第3世代Ryzen MobileのRyzen 7-4700Uを搭載する「MSI Modern 14 B4M(B4MW-011JP)」だ。
また、過去のIntelのCPUとも比較できるように、第10世代Core(Ice Lake)を搭載した「Surface Pro 7」、第8世代Core(Whiskey Lake)を搭載したThinkPad Yoga Gen 4も追加している。なお、それぞれディスクリートGPUは搭載されていない内蔵GPUのみのノートパソコンで、いずれも筆者の私物となる。
マシン | 13インチMacBook Pro | MSI Prestige 14 Evo (A11M-785JP) | MSI Modern 14 B4M (B4MW-011JP) | Surface Pro 7 | ThinkPad X1 Yoga Gen 4 |
---|---|---|---|---|---|
プロセッサ | M1 | Core i7-1185G7 | Ryzen 7-4700U | Core i7-1065G7 | Core i7-8865U |
メモリ | 16GB(LPDDR4X-4266) | 16GB(LPDDR4X-4266) | 16GB(DDR4-3200) ※メモリを8GB×2に交換してデュアルチャネル化 | 16GB(LPDDR4X-3766) | LPDDR3 2133 |
ストレージ | 256GB(NVMe) | 512GB(NVMe) | 512GB(NVMe) | 512GB(NVMe) | 1TB(NVMe) |
OS | macOS Big Sur | Windows 10(20H2) | Windows 10(20H2) | Windows 10(20H2) | Windows 10(20H2) |
比較対象がWindowsデバイスということもあり、ベンチマークソフトは両プラットフォームに対応で、Arm版のmacOSにも対応したネイティブバージョンがあり、かつ信頼がおけるものだけを実行することにした。
利用したのは「Cinebench R23」、「GFXBench 5.0.0」の2つだ。前者はCPUのマルチスレッドとシングルスレッドをテストするもので、後者はGPUをテストするためのものだ。
なお、本連載で何度も指摘しているように、現代のノートパソコンのCPU/GPUの性能はその熱設計に依存する。このため、筐体を大きくしたり重くしたりして、冷却機構の性能を向上させれば、同じCPUでも性能を引き上げることができる。
そうした理由から、今回はM1をベースにして、厚さが20mm以下、重量が1kg台前半までという薄型ノートパソコンとして分類できる製品をターゲットにした。したがって、ここで示している性能は厳密に言えば、MacBook Proに搭載されたM1の性能だし、Windowsノートパソコンに搭載されたCore i7やRyzenの性能であり、筐体に依存したものであることをお断わりしておく。
CinebenchはMaxon ComputerのCinema 4Dという3Dレンダリングソフトウェアのエンジンを利用したベンチマークテスト。CPUを利用して3Dグラフィックスをレンダリングしていくが、CPUの利用率がほぼ100%になるため、CPUの生の性能差を手っ取り早く確認するのに適している。
最新版のCinebench R23は、Cinema 4D R23がベースになっており、Windows版(x64版)、macOS版の両方が用意されている。macOSの最新版はM1にネイティブで対応しており、今のところ両方のプラットフォームでのCPU性能をもっとも公平に測ることができるベンチマークと言える。
結果を見ると、グラフ1のマルチスレッド時の性能ではM1がCore i7-1185G7(Tiger Lake)を約31%上回っている。しかし、グラフ2のシングルスレッドの性能では差はわずかでほぼ互角というスコアだ。
また、Ryzen 7-4700Uとの比較では、8コアの効果が効いておりTiger Lakeを上回るマルチスレッド性能を見せているが、それでもM1のほうが約15%速いという結果になっている。
ここで注目したいのはグラフ3のマルチスレッドの結果をシングルスレッドの結果で割った倍率の違いだ。Core i7-1185G7は4倍となっており、CPUコアが4つであることを考えると、ほぼリニアにマルチスレッド性能が上がっていることがわかる。
これに対して、M1のほうは約5.22倍となっており、1.22ポイントほどTiger Lakeを上回るという結果になっている。M1が8倍ではないのは8コアのうち4つが低消費電力な高効率コアになっているからだ。
つまりM1のCPUというのは、シングルスレッド時、シングルCPU時にはIntelの最新CPUであるTiger Lakeとほぼ同等の効率を備える高性能なCPUコアデザインになっている。
これまでのArmプロセッサはこのシングルスレッドの性能でIntelやAMDのx86プロセッサに大きく劣っていた。しかし、この結果からそれが明白に追いついたと言えるだろう。
そして、マルチスレッドには高性能コア×4+高効率コア×4という8コア構成で利用できることが影響して、Tiger Lakeを約31%、Ryzen 7-4700Uを約15%上回っている。これが現時点でのライバルのCPU性能に対するM1の評価だ。
次にGFXBench 5.0.0だが、これはGPUの性能を測るベンチマークだ。このmacOS版の最新版はM1にネイティブで対応しており、GPUの性能をmacOS/Windowsの両プラットフォームで計測するのに現時点でもっとも適したベンチマークソフトである。
なお、macOS版のGFXBench 5.0.0は、グラフィックスのAPIとしてMetalWindowsでのDirectXのようなもの)のみをサポートしている。以前のバージョンではOpenGL版とMetal版の両方があったので、同じOpenGLを使ってAPIのオーバーヘッドを公平にして比較できたのだが、新しいバージョンではそれはできなくなった。そこで、macOSではMetalを、WindowsではOpenGLを利用してテストしている。
グラフ4の結果を見ればわかるように、いずれのテストでもM1がCore i7-1185G7に勝っている。4つのテストでM1が約37~42%上回っており、平均では約39%となる。
理論上のスループットでは25%ほどTiger Lakeの内蔵GPUを上回っている計算だとすでに述べたが、実際のベンチマークではそれ以上の伸びを示していることになる。
おそらくその差はMetalとOpenGLのAPIの効率性の違いでだろう。Tiger Lakeの内蔵GPUは、これまでのパソコン用内蔵GPUとしては最高性能を示している製品ではあるが、M1がその座を奪った格好だ。
AMDのRyzen 7との差は非常に大きく、平均で約183%もM1が上回っている。これは第3世代Ryzen Mobileに内蔵されているGPUのアーキテクチャがVegaベースと最新よりも古いものであることや、システムのメモリがDDR4-3200でメモリの帯域でやや不利なせいだろう。
残念ながらM1がどういうGPUのアーキテクチャで、どんな仕様になっているのかは、コア数しか明かされておらず、そもそも「コア」の定義が不明なため、なぜ速いのかはまったく説明のしようがない。ぜひともAppleにはこうした現状は改善してほしい。
Tiger Lakeよりも高い性能を発揮できる最大の理由は160億のトランジスタ数
以上のような結果から、M1は現時点でWindowsベースの薄型ノートパソコンでは最高峰となる第11世代CoreよりもCPUが約31%、GPUが約39%高速ということが実証できた。
Appleの表現するところの「省電力シリコンとしては世界最速のCPUコア、パーソナルコンピュータでは世界最速の統合型グラフィックス」というのは正当なキャッチコピーだろう。
この差はどこから来るのだろうか? それは前半で触れたとおり、160億というトランジスタ数を実現する製造技術の世代の差だと考えるのが妥当だ。
トランジスタの数が多ければ多いほど高性能な半導体を設計し、製造可能になる。160億という膨大なトランジスタがあればこそ、最新のx86プロセッサと同等のシングルスレッド性能、そして電力効率を重視するコアを含めてすべてのコアを使うことで高い性能が実現できていると考えられる。
その意味では、それを実現できたのは現時点で世界最先端の製造プロセスルールであるTSMCの5nmプロセスルールを利用して製造しているからであることは論を俟たないだろう。
それに対してIntelのTiger Lakeは10nmプロセスルールになっている。Intelは常々自社のプロセスルールは、3D形状になっているトランジスタの縦方向なども考慮に入れると、他社の-1世代と同等だと主張しており、それを鑑みてIntelの10nmがTSMCの7nmと同等だと仮定しても、Appleが利用しているTSMC 5nmのほうが1世代進んでいる。
TSMCの5nmと同等の性能になると考えられるIntelの7nm工場が立ち上がるのは2022年になってからになる。両社が利用している製造技術の差が、こうしたM1とTiger Lakeの差となって現われていると思われる。逆に言えば、10nmでここまでできているIntelもすごいとは言えるが……。
こうなると、Intelはできるだけ早期にTSMCの5nmに対抗できる7nmの導入を加速するか、TSMCの5nmのラインを抑えて自社の製品をTSMCで製造したほうがよいことは明らかだ。
Intelのボブ・スワンCEOは、10月22日に行なわれた同社の第3四半期の決算報告説明会のなかで、「2022年の製品でIntelの製造施設か外部のファウンドリを使うかは、次の四半期決算までに決めて報告したい」と述べている。
すでに一度半年延期して2022年以降にずれ込んでいるIntelの7nmで予定どおり製造することができるのか、それともTSMCなど外部ファウンドリを利用するのかは、まもなくその答えが出ることになる。
おそらくどちらかというよりは、ハイエンドはより進んだファウンダリのプロセスで製造し、ボリュームゾーンをIntelで製造するなどのミックスになる可能性が高いだろう。
なお、Intelは来年(2021年)中にはTiger Lakeの後継としてAlder Lakeを計画しており、さらに改良された10nm(10nm Enhanced Super Fin)で製造する計画だ。
Alder Lakeでは、M1のCPUと同じように電力効率重視と高性能重視の2種類のCPUが搭載されており、切り替えて利用できるほか、そのすべてを有効にして演算することもできる。
Tiger LakeはシングルスレッドでM1に負けない性能を持っているので、高効率コアが追加されれば、その分だけマルチスレッド時の処理能力が上がり、M1を抜ける可能性はある。
もちろん、そのころにはAppleのほうもM2をリリースするだろうから、その時点でもう一度両者の差を測り直す必要がある。そしてAMDも来年にZen3ベースのRyzen Mobileを投入すると思われるので、そのさいに改めて性能差を検証してみたい。
少なくとも現時点では、薄型ノートパソコン向けのSoCの性能において、M1がCPU/GPU性能でTiger Lakeを30~40%程度引き離して王者になっている。Tiger LakeがCPUでは第3位でCPU+GPUなら第2位、Ryzen MobileはCPUだけなら第2位でCPU+GPUなら第3位であり、これが現時点での正当な評価ということになる。
これまで「Armでは高性能CPUは難しい」などと言われていたが、この前評判を覆して現時点で最高性能の薄型ノートパソコン向けSoCを作ってきたAppleの半導体部門の功績は賞賛に値する。
よくこの連載で言っているように「競争こそユーザーの利益」であるのだから、パソコンのSoCにApple製半導体という新しい選択肢が加わったことはシンプルに喜びたい。Intelも、AMDもAppleに刺激を受けて、もっと高性能なCPUを前倒しで投入してくれることを切に願う。