MICROPROCESSOR FORUM 2001レポート

MICROPROCESSOR FORUM 2001レポート

シングルから8ウェイまでをターゲットにした“Hammer”

会場：Fairmont Hotel(カリフォルニア州サンノゼ)
会期：10月15日～19日(現地時間)

　AMD副社長兼コンピューテーションプロダクトグループCTOのフレッド・ウェバー氏は、MICROPROCESSOR FORUM 2001で同社の次世代CPUであるHammerファミリーの概要を初めて明らかにした。

　Hammerは、AMDとしては初となる64bitの命令セットであるx86-64を実行することができながら、これまでの32bitのx86命令との互換性を維持したCPUで、3DNow!テクノロジに続き、Intelに先駆けてx86命令の拡張を行なうことになる。注目されていたHammerのアーキテクチャは、DRAMコントローラが統合され、CPU同士はHyperTransportで接続されるなど、マルチプロセッサシステムに最適化されたCPUとなっている。ここでは、Hammerのマイクロアーキテクチャについてお伝えする。

●メモリコントローラをCPUに統合しレイテンシの低減をねらう

図1　Hammerのブロック図(出典：AMD's Next Generation Microprocessor Architecture Fred Weber、AMD)
　Hammerの最も大きな特徴は、これまでノースブリッジに接続されていたメモリコントローラをCPUに直接接続していることだ(図1)。従来のAthlonプロセッサやAthlon XPプロセッサでは、図2のようにチップセットのノースブリッジにCPU、メモリ、ビデオチップ、サウスブリッジが接続される構成になっている。

　しかし、Hammerでは図3のようにCPUに直接メモリが接続され、HyperTransportによりAGPとのブリッジチップ、I/Oバスブリッジチップに接続されるというアーキテクチャになる。このように、これまでのPCのアーキテクチャの常識を一気に覆し、大きくPCのアーキテクチャを変えていく可能性を秘めている。


図2　Athlonのブロック図	図3　Hammerのブロック図

　それでは、メモリコントローラをCPUに内蔵したのはなぜなのだろうか? 1つには、メモリのレイテンシ(実際にメモリが読み出されるまでにかかる時間)を極限まで下げたかったからだ。通常、メモリがノースブリッジに接続されている場合、メモリにアクセスするまでに多くのクロックサイクルが費やされ、その間CPUは待たされることになり、CPUの性能は低下してしまうのだ。

　もう1つの理由は、マルチプロセッサ時のメモリ帯域や容量を向上させたかったからだ。Hammerでは、後述するようにHyperTransportにより、CPUを複数接続するマルチプロセッサシステムを構築可能だ。通常のプロセッサのバス、例えばPentium III XeonプロセッサやXeonプロセッサの場合、1つのシステムバスに複数のCPUが接続される形になっている。この場合、ノースブリッジに接続されているメモリを共有することになり、例えばXeonの場合は2チャネルのDirect RDRAMを共有することになる。この場合、メモリ容量や帯域幅はチップセットの仕様に依存する。Direct RDRAMを利用した場合には、MRHというリピーターチップを利用してスロット数を増やす(つまり容量を増やす)のが容易だが、DDR SDRAMの場合には、マザーボードの製造を難しくするチャネル数を増やすという方法以外には容量、帯域幅を増やすことが難しかった。

　しかし、HammerのようにメモリインターフェイスをCPUに統合することで、マルチプロセッサ時にはそれぞれのCPUにメモリを接続することができ、CPUを増設するたびにメモリ、帯域を増やすことができる。例えば、256MBで、PC2100(2.1GB/sec)のメモリが接続されたHammerが2ウェイ構成となっている場合、総メモリ容量512MBで帯域幅が4.2GB/sec、4ウェイの場合は総容量1GBで帯域幅が8.4GB/secという計算になるわけだ(ただし帯域幅は計算上で、実効の帯域幅はもう少し落ちるはずだ)。

　 1ウェイ 2ウェイ 4ウェイ
メモリ容量 256MB 512MB 1GB
帯域幅 2.1GB/sec 4.2GB/sec 8.4GB/sec

　つまり、CPUの増加にあわせて、メモリの量や帯域幅もスケーラブルに増やしていくことが可能になる(もちろん、それぞれのCPUを接続するHyperTransportの帯域幅が十分に確保されていることが前提だが、今回はHammerのHyperTransportのクロックが公開されなかったのでバス帯域は今のところ不明)。それぞれのCPUに接続されているメモリは、Coherent HyperTransportと呼ばれるHyperTransportのバスにより、それぞれ共有され、キャッシュの整合性なども維持される。

●CPUコアのマイクロアーキテクチャはAthlonの改良版

　内部のアーキテクチャは、評価の高かったAthlonプロセッサのマイクロアーキテクチャをさらに改良していくというアプローチがとられている。


図4　Hammerのマイクロアーキテクチャ	図5　フェッチ、デコードのパイプライン。Athlonの6に比べて1つ増えて7となっている	図6　命令実行のパイプライン、ここでもAthlonの4に比べて1つ増えて5となっている

　第一に命令を機械語にデコードするデコーダが、Athlonでは1クロックで行なわれていたのが、2クロックに細分化されている。さらにそれがもう一度パックされ、最終デコーダに渡されエントリ数が24エントリに増え、実行ユニットごとに分けられたスケジューラに渡される。こうした改良により、Hammerではフェッチのパイプラインステージが1ステージ増えており、合計7ステージとなっている(Athlonは6ステージ)。実行ステージも5ステージ(Athlonは4ステージ)と細分化されており、合計で12ステージとAthlonの10ステージに比べて細分化されている。また、通常はCPUのパイプラインはここで終わりなのだが、このあとさらにL2キャッシュ、DRAMアクセスとパイプラインが続いていく。最終的には2GHzのHammerで、これらのパイプラインの動作が12nsで終了するという。

　実行ユニット数は、Athlonと同じく9つで、AGU、ALU、FPUがそれぞれ3つずつ用意されている。FPUは、MMX、3DNow!テクノロジ、ストリーミングSIMD拡張命令(SSE)、ストリーミングSIMD拡張命令2(SSE2)が処理できるようになっており、SSE2が実行できるようになった点がAthlonからの強化点といえる。キャッシュもAthlonと同じく、L1キャッシュは命令が64KB(2ウェイセットアソシエイティブ)、データが64KB(2ウェイセットアソシエイティブ)となっており、合計で128KBとなっている。L2キャッシュは16ウェイセットアソシエイティブで、容量はモデルにあわせて変更されるようになっており、「MB(メガバイト)単位のモデルも用意される」とウェバー氏は述べている。L1、L2ともにECCに対応しており、サーバー、ワークステーションといってミッションクリティカルな環境にも対応できるように設計されている。

　また、TLBの処理能力や分岐予測の精度を高める工夫も加えられている。例えば、L1の命令TLB、データTLBは40エントリとなっている(Athlonは命令24エントリ、データ40エントリ)ほか、L2は命令、データがそれぞれ512エントリに増やされている(Athlonはそれぞれ256エントリ)などが主な改良点だ。これらにより、パイプラインを若干細分化したことを補おうということなのだろう。

　このように、Hammerでは評価の高かったK7コアのアーキテクチャをさらに改良し、IPCを極限まで高めようというアプローチがとられている。クロックをあげるべくパイプラインの細分化などが行なわれているが、Intelほどは大胆に細分化してクロックをあげていくアプローチをとっておらず、IPCとクロックの両方をバランスよくあげていこうというアプローチであることがわかる。こうした意味でから、HammerでもIntelのCPUに対して実クロックでは上回れないという状況が続く可能性が高く、引き続き「クロックは性能ではない」ということをアピールしていく取り組みが必要となるだろう。

●ノースブリッジ相当のCrossBarは2Gコマンド/sec

図7　Hammerのブロック図
　CPUにメモリコントローラを内蔵したことにより、CPUにはメモリコントローラだけでなく、いわゆるノースブリッジの機能を持つコントローラが内蔵されている。それが“CrossBar(XBAR)”だ。図7はウェバー氏が明らかにした内容を元に作成した、Hammerのブロック図だ。CPUコアは“System Request Queue(SRQ)”と呼ばれるコントローラに双方向64bitバスで接続されている。さらに、そのSRQは同じく双方向64bitバスでXBARに接続されており、そのXBARにメモリコントローラと、16bitのHyperTransportが3ポート接続されているという構成になっている。

　XBARには、それぞれCPU、3つのHyperTransportリンク、メモリコントローラが接続されているが、それぞれのルーターには10エントリから16エントリのバッファが搭載されており、これがデバイス間のデータの受け渡し時のレイテンシを低減している。ウェバー氏によれば「2GHzのHammerでは2Gコマンド/secの処理が可能であり、400MHzのシステムバスに比べて5倍の処理能力を備えている」とそのメリットを強調している。

　なお、メモリコントローラの仕様は以下のようになっている。

・8/16Byteインターフェイス
・16Byteインターフェイスを利用した場合Registered DIMMを最大8枚まで増設することができるようになる
・Chipkill ECC対応
・Unbuffered/Registered両対応
・PC1600/PC2100/PC2700対応

●デスクトップPCから8ウェイサーバーまでスケーラブルなHammer

　最後にウェバー氏は、Hammerを利用したシステムの構成例を示した。シングル時、デュアル(2ウェイ)時、4ウェイ、8ウェイの例が示されている。8ウェイでは64スロットものDIMMソケットが搭載されるという例が示された。こうした64スロットという構成をみると、ローカルのメモリとリモートのメモリ間のレイテンシの違いが問題となるのではという疑問がわいてくる。これに対してウェバー氏は「ローカルとリモートのレイテンシの違いは、DRAMのページがヒットした場合とページコンフリクトが発生している場合の差とほぼ同等であるので問題ない」とし、性能低下にはつながらないという。

　このように、Hammerのアーキテクチャは、メモリコントローラやノースブリッジの内蔵によるレイテンシの低減、デコーダの改良などによるIPCの向上やクロックのバランスのとれた向上による処理能力の向上、さらにはHyperTransportの採用による、マルチプロセッサ時の柔軟性などシングルから8ウェイのマルチプロセッサまでのスケーラブルな利用を考えた構成になっているのが特徴といえる。そして、今回の記事ではふれていないが、新しい64bit命令であるx86-64を実行することができるようになり、ユーザーはこれまでの資産である32bitアプリケーションを使いつつ、64bitアプリケーションも実行することができるようになる。このあたりは、4ウェイ、8ウェイのマルチプロセッサには64bitのIA-64、シングルから4ウェイまでは32bitのIA-32とアーキテクチャが分かれるIntelとは異なるアプローチであり、興味深いところだ。


図8　Hammerの構成【シングル】	図9　【2ウェイ】

図10　【4ウェイ】	図11　【8ウェイ】

□MICROPROCESSOR FORUMのホームページ(英文)
http://www.mdronline.com/mpf/
□関連記事
【10月16日】MICROPROCESSOR FORUM 2001開幕速報
http://pc.watch.impress.co.jp/docs/article/20011016/mpf01.htm

(2001年10月17日)

[Reported by 笠原一輝@ユービック・コンピューティング]

I

最新ニュース

【11月30日】

■笠原一輝のユビキタス情報局
アウトオブオーダーと最新プロセスを採用する今後のAtom

■山田祥平のRe:config.sys
タッチが変えるフォームファクタとアプリ

■マウス、29,820円からのVESAマウント対応コンパクトPC

■ドスパラ、Intel NUC規格の手のひらサイズPC

■ドスパラ、イラストレーター向けのノートPC
～初音ミクProject DIVAの「ちほ」さんが実際使用

■エルザ、最大で26dBのデュアルファン搭載GeForce GTX 680

■玄人志向、UASP対応のUSB 3.0ポータブルHDDケース

■サンワ、タブレット収納引き出し付きディスプレイ台
～タブレットスタンドや充電ステーション機能も搭載

■ダイジェスト・ニュース
ストーム、AMD FX-8350、Radeon HD 7970搭載のゲーミングBTO PC
リンクス、Corsair「DOMINATOR PLATINUM」DDR3-2400メモリ
ユニットコム、2012 AKIBA PC-DIY EXPO 冬の陣を12月15日～16日にベルサール秋葉原で開催

■アップデート情報
Apple、iTunes 11
ソニー、VAIO Tシリーズ Intel USB 3.0ドライバ
富士通、ESPRIMO FH、DH BIOS

【11月29日】

■後藤弘茂のWeekly海外ニュース
AppleのA6Xチップから見える2013年のiPad 5とタブレットの進化図

■西川和久の不定期コラム
Android 4.2
～マルチユーザーなどに対応した最新Android

■OCZ、新コントローラ採用SSD「Vector」シリーズを解説
～継続ライト性能もアピール

■Cooler Master、USB接続で全キー同時押し対応のゲーミングキーボード

■東芝、暗号化機能付きのエンタープライズ向け3.5インチHDD
～破棄時は暗号キーを消去し瞬時にデータを無効化

■デル、14,980円の23型フルHD液晶「E2313H」
～発表会も開催

■NEC、低環境負荷設計の19型液晶ディスプレイ
～保護ガラス搭載モデルも

■ダイジェスト・ニュース
マウスコンピューター、Intel SSD 910 800GB搭載のクリエイターPC
パケットビデオ・ジャパン、「Twonky Beam」iOS版でDTCP-IPサポート
UQ、米国ClearwireでのWorld WiMAXでRenew手続きできない不具合

■アップデート情報
ソニー、VAIO Duo 11、Sシリーズ Intel無線LANドライバ
富士通、ESPRIMO D551/Dシリーズ BIOS
レノボ、ThinkPad T430s BIOS

【11月28日】

■大河原克行の「パソコン業界、東奔西走」
PCの時代は終焉する? 目指すのは「スマホーム」
～エレコム葉田順治社長にインタビュー

■瀬文茶のヒートシンクグラフィック
REEVEN「ARCZIEL12」
～ワイドレンジPWMファン搭載のミドルレンジトップフロー

■アップル、Ivy Bridge搭載iMacを11月30日より順次発売

■OCZ、Indilinx製コントローラ「Barefoot 3」採用のSSD
～リード最大550MB/sec、ライト最大530MB/sec

■シャープ、3,840×2,160ドット表示対応の32型IGZO液晶ディスプレイ

■Windows 8発売から1カ月で4,000万ライセンスを販売

■ソニー、延期していた「VAIO Tap 20」の発売日を決定

■アイ・オー、BD-R 16倍速ライトのBDXLドライブ

■バッファロー、Bluetooth 3.0対応折りたたみ式キーボード
～タブレットスタンドになるケース付属

■ダイジェスト・ニュース
パナソニック、Let'snoteのWindows 8用無線LANドライバWindows Update版を非推奨
ユニットコム、SSD+HDD構成GeForce GTX 660M搭載17型フルHDノートPC
ストーム、AMD A10-5700搭載のブックタワーPC

■アップデート情報
ソニー、SVZ1311*、VPCZ2* インテルグラフィックスドライバ(Win8)
NECパーソナルコンピュータ、おてがるバックアップアップデート
Intel Solid-State Drive Toolbox 3.1.2

【Watch記事検索】

【PC Watchホームページ】

ウォッチ編集部内PC Watch担当 pc-watch-info@impress.co.jp

Copyright (c) 2001 impress corporation All rights reserved.