後藤弘茂のWeekly海外ニュース

ARMの次期CPU「Cortex-A12」とGPU「Mali-T700」が明らかに

（2013/11/1 06:00）

次期ミッドレンジCPUのCortex-A12を説明

　ARMは同社の技術カンファレンス「ARM Techcon 2013」を10月29から3日間に渡り米カリフォルニア州のサンタクララで開催している。今回、ARMはTechconに合わせてプレス&アナリストカンファレンスも開催。新CPUコアIP「Cortex-A12」のマイクロアーキテクチャや新GPUコア「Mali-7xx」シリーズなどの説明や「フィジカルIP」の提供や新命令セット「ARMv8」、省電力技術「big.LITTLE」の刷新などを行なった。

年々拡大するARM Techconの展示会場

ARM Techconの会場となっているSanta Clara Convention Center

　Cortex-A12は、Cortex-A9と同クラスのミッドレンジCPUコアIPだ。下はCortex-A12のブロック図だ。詳細は後ほどレポートするが、命令デコードはCortex-A9と同じ2-wideでも、全体のパイプラインはCortex-A9とは全く異なる。Cortex-A9の拡張CPUではなく、完全に新設計のCPUだ。

Cortex-A12のブロックダイアグラム
PDF版はこちら

Cortex-Aファミリの比較
PDF版はこちら

　総合性能では同プロセス技術でCortex-A9の約40%増し。ピークの消費電力は400～450mWに収まる範囲。機能セットはCortex-A15と同等で、メモリアドレス拡張のLong Physical Address Extensions(LPAE)や、ハードウェア仮想化技術などがサポートされる。

　Cortex-A9ではオプション扱いだったSIMD(Single Instruction, Multiple Data)演算のNEONの実行パイプラインは完全に統合された。Cortex-A9ではNEON/FPUへの命令発行ポートはロード/ストアユニットへのポートと共有だったが、Cortex-A12では分離されている。命令ディスパッチポートは合計で6ポートに増えた。構成としてはCortex-A9よりCortex-A15に近い。下は比較図で、左がCortex-A9、中央が新しいCortex-A12、右がCortex-A15だ。

Cortex-A9/A12/A15の比較
PDF版はこちら

Cortex-A12のパイプライン
PDF版はこちら

　キャッシュラインサイズもCortex-A15同様に拡張され64Bラインになり、分岐予測は大きく強化され3ステージ分となった。整数演算系はフィジカルレジスタファイルが大幅に拡張されアウトオブオーダウインドウも大きくなった。また、Cortex-A15より前のARM CPUは除算ユニットを持っていなかったが、Cortex-A12では除算ユニットが加えられた。ようやく、組み込みCPU的な命令セットから脱したと言える。

　FP/NEONパイプラインは分離され2イシューのアウトオブオーダ実行となった。Cortex-A9ではFP/NEONは1イシューでインオーダ実行だった。そのため、FP/NEONは50%のパフォーマンスアップとなっている。ロード/ストアユニットはCortex-A9を踏襲するがアドレス生成ユニットは2つになり、また、完全にアウトオブオーダとなった。

　メモリマネージメントユニットではTranslation Lookaside Buffer (TLB)が大幅に拡張された。L2はコア間で共有で統合されており、キャッシュラインは64B。L2-L1は完全にインクルーシブではないため、スヌープはコア毎に行なう必要がある。

Cortex-A9とCortex-A12の機能の違い

Cortex-A9と同プロセスで同じバイナリ(除算命令部分だけが異なる)でのパフォーマンス比

ARMのGPUコア「Mali」も内部アーキテクチャを完全に刷新

　ARMのGPUコア「Mali」の刷新も行なわれた。現行の「Mali-T600」から、内部アーキテクチャが一新された「Mali-T700」系へと変わった。シェーダコア内部の構成が大きく変わり、電力性能比は従来シリーズより最大で4倍も高まったという。ただし、この電力性能比は、製造プロセスがFinFET 3Dトランジスタに移行することも見込んでの数値となっている。アーキテクチャ面での向上分はその中の一部だ。

　Mali-T700シリーズについては、後日詳しくレポートするが、概要をレポートすると製品としては2ラインとなる。ハイエンド版が「Mali-T760」で、16コアの最大構成で300GFLOPSクラスのパフォーマンスとなる。APIはOpenGL ES 3.0をサポートし、OpenCLは1.1プロファイルをサポート、機能的にはDirectX 11.1相当となる。

　大きく異なるのはGPUコアの内部構造で、従来のMali-T600系のハイエンドは各シェーダコアにALUクラスタを4個備えていたのが、Mali-T760では2個になっている。しかし、ALUの内部も大きく変更されており、より並列度が高くなっている。従来のT600系のALUは、vec4(4-way SIMD)のベクタユニットとスカラユニットの組み合わせだったが、今回は変更されている。また、従来はオーバーヘッドが非常に大きかったタスクスケジューリングの部分を改良し、大幅に効率を高めたと言う。その一方で動作周波数の上限は低くなっており、パイプライン段数が半減したと見られる。基本的な方向は、よりオーバーヘッドの少ないスケジューリングで、より多くの演算ユニットを、より低い動作周波数で走らせることで効率を上げるアーキテクチャだ。

　また、従来はシェーダコアを最大4個のグループにバンドルしていたが、Mali-T760では16コアまでを1つのグループとして制御する。スヌープユニットがあり、16コアの間でスヌープを行ないコヒーレンシを保つ。パイプラインアーキテクチャはタイリングを継承する。また、フレームバッファの圧縮技術である「ARM Frame Buffer Compression(AFBC)」を実装する。ARMはこの技術を3Dグラフィックスコアのフレームバッファだけでなく、幅広く普及させようとしている。Mali-T600系と同様、ソフトウェアIPだけでなく、「POP(Processor Optimized Packages)」でも提供する。

　ミッドレンジ版は「Mali-T720」で、基本アーキテクチャはT760同様だが、シェーダコアのALUが1クラスタだけになっている。シェーダコア当たりの演算パフォーマンスはT760の半分だ。OpenGL ES 3.0サポートで、パフォーマンスレンジは8シェーダコアの構成で80GFLOPSクラス。T62x系と比べると30%ほどダイ面積が小さくなり、より低価格なソリューションとなっている。

　ARMは製品ラインナップを拡大しつつ、アーキテクチャ更新のサイクルも早めている。急ピッチで製品を進化させることで、広がりつつある市場に対応しようとしている。

（後藤弘茂 (Hiroshige Goto)E-mail）