|
●HammerチップセットはHyperTransportが必須
AMDは次世代CPU「Hammer(ハマー)」ファミリではCPUにDRAMインターフェイスやAMDのインターコネクトテクノロジ「HyperTransport」のインターフェイスを取り込むようだ。つまり、HammerはメインメモリDRAMを直接CPUに接続することが可能になる。また、CPUのシステムバスはHyperTransportになる。ある業界関係者によると、そのため、Hammer用チップセットは、必ずHyperTransportサポートになり、Athlon用チップセットとは完全に異なるものになるという。実際、チップセットベンダーは「K8(Hammer)向けチップセットでは、HyperTransportを使う」(SiS、Nelson Lee氏、Sr. Technical Marketing Manager, Integrated Product Division)というように、HammerでのHyperTransportの採用を次々に明らかにしている。
また、別な情報筋によると、AMDもHyperTransport対応のHammer用チップセット「Golem(ゴーレム)」と「Lokar(ロカー)」を開発しているという。これは、前者はサーバー向け、後者はAGP 8xポートを内蔵したワークステーション向けらしい。
また、Hammerでは、Athlon 4(Palomino:パロミノ)でフルサポートされたSSEだけでなくSSE2も(一部命令を)サポートする。浮動小数点演算ユニット自体も拡張される。それでも、ダイサイズは105平方mmと、現在のAthlon(Thunderbird:サンダーバード)の119.77平方mmやAthlon 4(Palomino:パロミノ)の128平方mmよりも小さい。つまり、製造コストは低く生産性は高い。また、ピンは、現在よりピン間隔が一回り狭いμPGAタイプになり、Pentium 4のように、シャーシマウンティイングや筺体内温度上昇を抑えるための筺体デザインガイドなども導入するという。
●性能で有利なDRAMコントローラの内蔵
Hammerが本当にDRAMインターフェイスを統合しているとすれば、それは性能面で大きな意味を持つ。CPUにとって大きなネックとなっている、メモリアクセスレイテンシを減らせるからだ。AthlonやPentium 4など従来のx86互換CPUは、CPUコアよりも低速なシステムバス経由でチップセットにアクセスし、それからメインメモリDRAMにアクセスする。そのため、CPUがメインメモリDRAMからデータや命令を取ってこようとしたら、長時間待たされてパイプラインがストールしてしまう。だが、CPUがDRAMコントローラを内蔵していれば、チップセットアクセスのロスはなくなる。そのため、レイテンシは原理的には大幅に短縮される。
こうした利点があるため、組み込みCPUではDRAMコントローラの内蔵はごく当たり前となっている。しかし、PCでは、このアーキテクチャはシステムのフレキシビリティを犠牲にするため、主流にはなって来なかった。例えば、IntelはDRAMコントローラを内蔵した統合CPU「Timna(ティムナ)」を計画したが、RDRAMベースで設計するという失敗をしたため、製品化できなかった。どのメモリアーキテクチャを採用するかが難しい。
今回、HammerではDRAMとしてDDR SDRAMをサポートするようだ。DDR SDRAMは紆余曲折あったが、それでもSDRAM後継の座は確実視されている。DRAMベンダーのほとんどは、程度の差こそあれPCメインメモリ向けDDR SDRAMに注力する。今回のAMDの選択はいちおうはずれないですみそうだ。
●NUMA構成のためのプロトコルを追加
DRAMインターフェイス統合のもうひとつの問題はマルチプロセッサ時だ。AMDは、HyperTransport世代でのマルチプロセッサは、HyperTransportでプロセッサノード同士を接続して実現すると発表している。Hammerでは、おそらく、1~2CPUのノードをHyperTransportで相互接続すると見られる。しかし、この構成では、メインメモリは各ノードに接続されているため、物理的に分散してしまう。こうした構成の場合、以前はOSとアプリケーションの対応が必要だった。
そこで、AMDはHammerではNUMA(Non-uniform memory access)アーキテクチャを取る。これは、各ノードに物理的に分散されたメモリを、仮想的に単一のメモリプールとして扱えるようにするトポロジだ。各CPUはそれぞれ物理的なローカルメモリを持つが、それぞれ他のCPUに接続されたメモリにもアクセスができる。この方法だと、アプリケーションの対応は必要がない。また、ローカルメモリにアクセスする場合は、メインメモリを共有する構成よりも高速になる。
AMDはNUMA構成のために、メモリのコヒーレント(一貫性)を取るためのプロトコルをHyperTransportに加えた。この「Coherent HyperTransport」は、I/O向けのHyperTransportプロトコルのスーパーセットになっている。ちなみに、1月のPlatform Conferenceでのプレゼンテーションによると、I/O向けHyperTransportは16bit(上り下り各8bit)幅程度まで、NUMA時のHyperTransportは32bit(上り下り各16bit)幅以上を想定しているらしい。32bit時には最大6.4GB/sec(ピン当たり1.6Gbps時)になる。これはPentium 4のシステムバスの2倍の帯域だ。
●想定されるHammerのシステム構成
ここで、現在の断片的な情報から想定されるシングルプロセッサ構成のHammerシステムとチップセットの構成を図にすると下のようになる。
DDR SDRAM
↓
┏┓┏┓ ┏━━━┓
┃┃┃┃----┃Hammer┃
┃┃┃┃----┃ ┃
┗┛┗┛ ┗━━━┛
||
|| ←HyperTransport
||
┏┓┏┓ ┏━━━┓ ┏━━┓
┃┃┃┃----┃ブリッ┃=====┃ ┃
┃┃┃┃----┃ジ ┃ ┃ ┃
┗┛┗┛ ┗━━━┛ ┗━━┛
↑ || ↑ ↑
オプション || AGP グラフィックス
DDR SDRAM ||
|| ←HyperTransport
┏━━━┓
┃サウス┃
┃ ┃
┗━━━┛
中央にあるのがHyperTransportのブリッジチップだ。サーバー用ならこのAGPがPCI-Xなどになると思われる。おそらくLokarが「HyperTransport to AGP」ブリッジチップ、Golemが「HyperTransport to PCI-X」ブリッジチップなのではないだろうか。また、それとは別に、HyperTransportサウスブリッジチップが存在すると思われる。
コアロジックから下の構成は各チップセットベンダーによって異なるだろう。VIA TechnologiesのHammer向けチップセット「K8T266」では、サウスブリッジとのコネクトはV-Linkを使うことになっているようだ。これがマルチプロセッサになると下のような構成が想定される。
I/O I/O
DDR SDRAM ||←HyperTransport→|| DDR SDRAM
↓ || || ↓
┏┓┏┓ ┏━━━┓ ┏━━━┓ ┏┓┏┓
┃┃┃┃----┃Hammer┃ ┃Hammer┃----┃┃┃┃
┃┃┃┃----┃ ┃========┃ ┃----┃┃┃┃
┗┛┗┛ ┗━━━┛ ┗━━━┛ ┗┛┗┛
|| ↑ ||
|| ←HyperTransport→||
|| ↓ ||
┏┓┏┓ ┏━━━┓ ┏━━━┓ ┏┓┏┓
┃┃┃┃----┃Hammer┃ ┃Hammer┃----┃┃┃┃
┃┃┃┃----┃ ┃========┃ ┃----┃┃┃┃
┗┛┗┛ ┗━━━┛ ┗━━━┛ ┗┛┗┛
↑ || || ↑
DDR SDRAM ||←HyperTransport→|| DDR SDRAM
I/O I/O
Coherent HyperTransportで各Hammerが相互接続されているという構成だ。AMDのHyperTransportの説明では、このHammerの部分がCPUとチップセットに分かれているが、HammerとHyperTransportホストコントローラが統合されているとするとこうした構成になる。これは、次期Alphaプロセッサにそっくりだ。もっとも、AthlonとHammerのアーキテクトはいずれも旧DECのAlphaチーム出身者なのだから、それも当たり前かもしれないが。いずれにせよ、HammerがHyperTransportありきだとすると、HyperTransportのできにHammerの性能やスケジュールは大きく左右されることになる。
●SSE/SSE2を32bitモードでもサポート?
Hammerのx86-64アーキテクチャでは,既存のx86命令に64bit長のアドレスや新たに拡張したレジスタを扱える新命令を追加する。そのため,動作モードに64bit命令を扱える「Long Mode」と呼ぶ新モードを追加した。このモードで16/32bitアプリケーションの動作も可能だが、OSは新しい64bitOSが必要となる。一方、従来の16/32bitOSとアプリケーションとの完全なバイナリ互換には「Legacy Mode」を用意した。Legacy Modeで動作する場合は,完全に従来型x86 CPUとなる。
これまで、AMDはこのLong Mode時にはSSE/SSE2命令のうち,浮動小数点演算命令をサポートすることを明らかにしていた。そのため、HammerはSSE用に追加されたXMMレジスタを実装する。しかし、Legacy ModeではXMMレジスタは見えず、3DNOW!だけをサポートするとしていた。だが、PalominoがSSE命令とXMMレジスタをサポートしたことで、この説明は怪しくなってきた。つまり、Hammerの演算ユニットはXMMレジスタを使えるわけで、しかもデコーダはLong Mode時にはSSE2命令をデコードできる。それなら、Legacy Mode時にそれができないというのは不合理だ。おそらく、Hammerでは、SSEとSSE2の一部命令を、32bit時にも実行できるだろう。
AMDは、1月末のPlatform Conferenceで、Hammerファミリに要求される要素も明らかにしている。それによると、パッケージはピン間隔の狭いμPGAの基板にチップを直接表面実装した形にする必要があるという。これは、クロックの向上によって、パッケージの電気特性の向上が求められるためらしい。
また、Hammerでは消費電力も増える。そのため、Platform Conferenceではシャーシマウンティングや筺体内温度上昇を抑えるための筺体デザインが必要となることを示唆していた。Athlonの0.13μm版のダイサイズ(半導体本体の面積)は80平方mmに対して、Hammerのデスクトップ版ClawHammerは105平方mm。その差である25平方mmのほとんどは、消費電力の高いロジック回路が占めると思われる。しかも、クロックは2GHz以上。そのため、AMDはIntelと同様に、筺体から熱設計を考える必要が出てくると認識しているようだ。
(2001年5月22日)
[Reported by 後藤 弘茂]