後藤弘茂のWeekly海外ニュース

IBMが技術の集大成のモンスターCPU「Power8」を発表

さまざまな技術を盛り込んだ豪華版CPU

Hot Chipsの会場となった米スタンフォード大学のStanford Memorial Auditorium

 “てんこ盛り”という表現がふさわしいのが、IBMの次世代サーバーCPU「Power8」だ。12コアで96スレッド、96MBのL3キャッシュを内蔵。32チャネルのDDRメモリインターフェイスで230GB/secのメモリ帯域を実現し、トランザクショナルメモリやインテグレーテッドボルテージレギュレータ(iVRM)も備える。Powerシリーズは、あらゆる技術を盛り込んだ豪華CPUで、スレッド当たりの性能を重視するCPUでは、最先端を走ってきた。次世代のPower8もその伝統を引き継ぎ、考えられる技術のほとんどを盛り込んだモンスターCPUとなっている。

Powerシリーズの進化

 IBMは、Powerシリーズの最新CPU「Power8」を、米スタンフォード大学で開催されているチップカンファレンス「Hot Chips 25」(8月25~27日、現地時間)で発表した。IBMのPowerシリーズが重要なのは、このチップが「技術の展示会」であること。コストかけても技術を追求すれば、CPUがどこまで行き着くことができるか、その頂点を示している。つまり、Powerはプロセッサの将来の道を示しており、また、同時に現在の限界も示している。

 Power8は、IBMの22nm SOI(Silicon-On-Insulator)プロセスで製造され、ダイサイズ(半導体本体の面積)は650平方mmと、IntelのサーバーCPUも超えるサイズとなっている。CPUコアは12コアだが、各コアが8-wayのSMT(Simultaneous Multithreading)をサポートしている。そのため、CPU全体で96スレッドを同時に走らせることができる。

Power8の概要

16実行ユニットの巨大CPUコア

 各CPUコアは8ディスパッチ、10イシュー、16実行ユニットと、Intelのx86系CPUコアの最高峰Haswell(ハズウェル)よりさらに規模が大きい。整数演算ユニットは2ユニットだが、分岐ユニットやコンディションレジスタアクセスなどは別ユニットとなっている。Power7のCPUコアの流れを引いているが、Power7に対してシングルスレッドパフォーマンスで1.6倍になっている。また、Power7では、コア毎に4スレッドの並列実行だったのを、コア毎に8スレッドの並列実行へと拡張している。

Power8のコア
2010年のPower7のコア

 CPUコアはマルチスレッドプログラミングを容易にするトランザクショナルメモリを備える。トランザクショナルメモリの実装は、IBMも含めて、これまで目立った成功を上げることができたCPUがなかった。ちなみに、IntelではHaswellがトランザクショナルメモリをサポートしている。

 Power8のCPUコアは、このほか、暗号化アクセラレータや10進法ユニットを持つ。

 Power8の各コアは、512KBのL2キャッシュを持つほか、Powerの特徴となったeDRAMのL3キャッシュをチップ全体で96MBも備える。メモリ密度の高いDRAMをCPUの高速ロジック回路に組み込む技術を開発することで、100MB近い膨大なキャッシュを実現している。加えて、128MBまでのeDRAMチップをL4キャッシュとして外付けする。

Power8のオンチップキャッシュ

 96MBのL3 eDRAMは、構成上は、各CPUコア毎に8MBのL3リージョンに分けられている。しかし、IBMが「NUCA (Non-Uniform Cache Architecture)」と呼ぶ仕組みで、共有されている。膨大なL3量を実現するeDRAMだが、32nmのPower7+のL3 eDRAMが80MBだったのに対して、Power8では96MBとそれほど増えていない。eDRAMがロジック回路のようにはシュリンクできないためだと見られる。キャッシュ帯域も強力で、12コア全体でL2は4TB/sec、L3は3TB/sec(どちらも4GHz動作時)の帯域となっている。

キャッシュのバス幅

メモリバッファチップを使い1TBまでのメモリを接続

 Power8は、メモリインターフェイスにMemory Bufferチップを使っている。つまり、Power8は、外付けのバッファチップを介してDRAMにアクセスする。

 Power8自体は、バッファチップへのインターフェイスを備える。Power8に接続された、8個のメモリバッファチップが、それぞれ4チャネルのDDRインターフェイスを備える。メモリは32チャネル合計で、410GB/secのメモリ帯域となる。逆算するとメモリの転送レートはDDR3の800Mbpsとなる。メモリ量は最大1TBだ。

 バッファチップとPower8のインターコネクトは9.6Gbpsで、帯域は継続転送時で230GB/secとなる。各バッファチップは内部に16MBのキャッシュを備えている。また、DRAMのメモリモジュールも、専用のものになる。このアーキテクチャの利点は、メモリ容量とメモリ転送帯域を稼ぐことができることだ。その反面、メモリレイテンシは長くなる。IBMもそのジレンマを、まだ解決できていない。

Power8のメモリ管理
Power8のメモリバッファ
DIMMのフォームファクタ

 さらにPower8は、I/OとしてPCI Express Gen3を備える。これまでPowerシリーズはプロプラエタリなI/Oを備えていた。しかし、PCI Express Gen3では十分な性能に達したために、スタンダードなPCI Express Gen3を統合することにしたという。また、外付けのアクセラレータが、Power8と同じメモリアドレスを共有、キャッシュコヒーレンシもハードウェアで管理できる専用のインターフェイス「CAPI (Coherent Accelerator Processor Interface)」も備えている。

内蔵のPCI Expres Gen3
キャッシュのコヒーレンシを管理できるインターフェイスCAPI

省電力ではボルテージレギュレータを統合

 省電力では、電圧レギュレータモジュール(VRM)を統合し、コア単位での電圧制御を可能にしている。統合型のVRMは、IntelがHaswell(ハズウェル)で採用した。ただし、IBMが実際にVRMをどのように統合しているのかの詳細は明らかにされていない。

 IBMはIntelと並んで、統合VRMの研究に熱心な企業だ。例えば、昨年(2012年)2月のISSCC(IEEE International Solid-State Circuits Conference)では、シリコンインタポーザ上にインダクタを実装し、CPUと重ねることでインテグレーテッドVRMを実現する論文を発表している。

Power8の統合VRM

(後藤 弘茂 (Hiroshige Goto)E-mail