●Hammerはチップレイアウトが完了する段階
AMDでサーバー&ワークステーション製品のマーケティングを担当しているBob Mitton氏 |
[A]我々はほぼチップのレイアウトを終えたところだ。今年の年末前にテープアウト(設計を完成)しなければならないことになっている。ハードウェアのサンプリングは来年になる。その時点になったら、もう少しハードウェアについて話すことができるだろう。
(注:通常CPUのテープアウトからファーストシリコンまでは1四半期程度、量産までは3四半期から1年程度のインターバルがある)
[Q]Hammerは0.18μmで設計しているのか、それとも0.13μmなのか。
[A]Hammerの製造は最初は0.18μmで始まる。それから0.13μmへ移行する。
[Q]Hammerの32bitと64bitの2つのモードでパフォーマンスは違うのか。
[A]x86-64プロセッサ自体は完全な64bit設計になる。32bitだけのパートは存在しない。つまり、プロセッサを通してのデータフローは64bit幅で、32bitモード時には下位の32bitだけを使う設計になっている。ハードウェアは両モードで同じだ。そのため、32bitモードと64bitモードのスピードは同じになる。
我々のプロセッサは32bitのプロセッサを2つ合わせて64bitにする設計ではない。また、32bitモードの時に32bitのデータをパック化して64bitスペースに入れ込むこともしない。この手法は一見高速になるように見えるが、トレードオフがある。特別なロジックが必要でプロセッサが複雑化してしまう。
我々は、単純に64bitのアーキテクチャの中に32bitを入れた。シンプルなデザインであるほど高速にできると考えているからだ。そのため、x86-64プロセッサでは64bitと32bitの性能は同じであり、32bitプロセッサとしても最速になるだろう。
[Q]Athlonと比べてHammerは同じプロセスでより高速になるのか。
[A]x86-64プロセッサは、Athlonの性能向上カーブをそのまま維持するか、むしろそれよりある程度速くなるだろう。
[Q]次世代CPUを32bitオンリーで設計した方が、より高性能を達成できたのではないか。
[A]32bitオンリーの方が、チップを小さくできただろう。しかし、それは高速化とは関係がない。それに、我々のデザインでは64bitと32bitオンリーのダイサイズの差は10%以下に過ぎない。差は非常に小さい。もし、我々が32bitと64bitの2つのプロセッサを作るなら、我々は2つのデザインチームが必要だし、アーキテクチャが混在することは顧客も混乱させるだろう。だから、我々は誰にでも64bitを提供することにしたのだ。
[Q]HammerのCPUコアはAthlonのコアを64bit化しただけのものなのか、それともより深いパイプラインといった新設計を取り入れているのか。
[A]AMDでは、Hammerを第8世代のコアと位置づけている。インプリメンテーションではAthlonと重大な違いがある。発表されたら、非常に多くの新しい技術が取り入れられていることがわかるだろう。しかし、それはAthlonからの教訓が取り入れられていないという意味ではない。Athlon同様にフルの32bit互換性を持ち、ローコストでOEMメーカーが対応しやすい。
[Q]Athlonとは完全に違うデザインなのか。
[A]相当(fairly)デザインは違う。実行ユニットやI/O回りなどにも多くの新デザインが加わっている。しかし、命令セットや実行方法に関しては変わらない。ラディカルな新デザインというわけではない。
●HammerもAthlon同様にバリエーションが登場
[Q]AMDは64bitアーキテクチャがサーバー&ワークステーションだけでなく、PCでも利用されると考えているのか。
[A]Intelの64bitアーキテクチャはハイエンドサーバーに限られているが、x86-64アーキテクチャではそのような制限はない。インプリメンテーションコストは非常に小さいため、x86-64チップはPCにも十分載るだろう。
[Q]すると、HammerファミリではAthlonのようにデスクトップとかモバイル向けのバージョンが出てくるのか。
[A]おそらく。x86-64がどの分野に浸透するかはマーケットが決めるだろう。PCでもビデオやグラフィックスの処理は高速化し品質が上がる。また、我々としては将来ハンドヘルドやパームトップに使われても驚かない。例えば、携帯電話がネットワークにアクセスするときには、64bitでの暗号化処理が有用になる。
[Q]最初のHammerはサーバー版なのかデスクトップ版なのか。
[A]最初のHammerは、たぶんワークステーションとパフォーマンスデスクトップ向けとなる。次におそらくサーバー、それからデスクトップ、そしてたぶんモバイルという順番になるだろう。これは、Athlonが登場した順番と大体同じだ。時間がかかると思う。
[Q]AMDはLinuxワールドでは支持を得ているが、PC分野ではMicrosoftのサポートも必要だろう。
[A]Microsoftの支持は価値があるだろう。実際、今年遅くの時点でMicrosoftとディスカッションをする予定でいる。すでにスペックは彼らに見せている。
●SSE浮動小数点演算命令を64bitモードでサポート
[Q]x86-64アーキテクチャではSSEレジスタをサポートしている。これはHammerがSSE命令をサポートするという意味なのか。
[A]HammerはSSE2をサポートする。しかし、Intelと同じようにサポートするわけではない。「Long Mode(x86-64の新モード)」にインプリメントしたのはIEEE規格の浮動小数点演算だけだ。SSEをサポートするひとつの理由は、フルIEEE浮動小数点演算ユニットがx87とは異なるため、利用できるようにするにはx87とは異なる命令セットを用意しなければならないからだ。新しい命令セットを作ることも考えたが、それには問題がある。我々のフィロソフィは、開発者が親しんだAPIとアーキテクチャが存在することだからだ。ところが、SSE2の一部で浮動小数点演算APIがあり、われわれの目的に十分なものだとわかった。そこで、新しいAPIを作るのでなくそれを使おう、その方が誰にでも理解しやすい、となったわけだ。これは、IntelとAMDの競争関係とはまた異なる話だ。互換性と拡張性、それがSSEを使う理由だ。
[Q]これは、昨年x86-64でサポートすると発表したテクニカル浮動小数点演算(TFP)と同じ意味なのか。
[A]そうだ。TFPがSSEだ。
[Q]サポートするのは浮動小数点演算だけということか。SIMD整数演算などはどうなる。
[A]他の命令はIntelだけのものになる。
[Q]3D NOW!はサポートし続けるのか。
[A]32bitモードではそうだ。3D NOW!をサポートしている。しかし、64bitモードでは異なる。64bitモードでは、64bit整数オペレーションとSSE浮動小数点演算演算オペレーションを使う。
[Q]SSE2とx87を実行するユニットは同じものか。
[A]それは言えない。
●命令セットレベルのパラレリズムには異論
[Q]IntelはIA-64で64bit化するだけでなく命令セットアーキテクチャを完全に変えてきた。これをどう評価するか。
[A]もちろん彼らのアプローチには同意しない。Intelは命令セットレベルでの並列化(Instruction Level Parallelism:ILP)がパフォーマンスアドバンテージがあると言っている。だが、これはILPにインプリメントできた時だけパフォーマンスが達成できるという意味だ。そして、私の経験では、非常にわずかのアプリケーションしかILPを活用できない。
例えば、これ以前には業界では、少ない命令数で並列処理するRISCアーキテクチャが、CISCアーキテクチャより高速になると言っていた。しかし、RISCではコードサイズが大きくなるためメモリアクセスがトレードオフになるなどして、結局、CISCより速くならなかった。現在、Athlonは最速のRISCより速い。これだけ見ても、ILPで高パフォーマンスになるというのは真実でないことがわかる。もし、真実ならx86はとうの昔にRISCに対抗できなくなっていたろう。我々は、命令セットを変えるよりもインプリメンテーションを変える方が重要だと信じている。
[Q]Intelはx86命令自体が高速化の制約だと言っている。
[A]彼らはそう言っている。しかし、我々は性能で彼らをしのいでいる。これは命令セットを変えたからではない、インプリメンテーションによるものだ。もし、Intelが本当に新命令セットアーキテクチャの方が性能が上がると信じているなら、Pentiumラインを切ればいい。しかし、彼らはそうしない。それなら、彼らの話は信じられない。
[Q]ではIA-64は成功できないと考えるのか。
[A]IA-64は非常に巨大な(チップ)デザインだ。ハイエンドサーバーのためとしか見えない。製造コストがかかり過ぎる。また、ソフトがアダプトするのも難しい。これは、Intelが、あなた達はMercedに構わないでいい、32bitソフトウェアを続けていればいいと言っているようなものだ。そのため、Mercedのマーケットは非常に小さなものに止まり、Intelは投資分のリターンを得ることができないだろう。彼らのアーキテクチャと戦略は、ビジネスとしては意味をなさないと思う。
それに対して、AMDの64bitアーキテクチャはアダプトするのが非常に簡単だ。マーケットサイズも大きい。だから、我々のアプローチはOEMメーカーやITマネジャーやソフトウェアベンダにも利益が大きいと信じている。
●Mustangもエクスクルーシブキャッシュを採用
[Q]Pentium 4は1.4GHz以上で登場する。Athlonはこれに対抗できるのか。
[A]Pentium 4はまだ実物を見たわけではないが、アーキテクチャは印象的ではない。まずPentium 4は、高い動作周波数を得るために20ステージの深いパイプラインアーキテクチャを取った。このアプローチは周波数を上げることはできるが、トレードオフも大きい。分岐予測をミスした場合には、20段すべてをやり直さなければならないからだ。周波数向上で得るパフォーマンスは、予測ミスのペナルティで相殺されてしまうだろう。通常のコードの場合は、ラフに言って6回に1回分岐命令が来る。そのため、このオーバーヘッドはかなり大きい。クロックが高くても、ベンチマーク結果を見れば、パフォーマンスがそれほどではないことがわかるだろう。
[Q]Pentium 4は2GHzにすぐに到達する、Palomino(次世代Athlon)は2GHzに到達できるのか。
[A]もちろんだ。どうしてできないわけがある。
[Q]Athlonはエクスクルーシブキャッシュアーキテクチャを採用しているが、サーバー&ワークステーション版であるMustangも同アーキテクチャを採用するのか。
[A]すべてのAthlonにエクスクルーシブキャッシュアーキテクチャを採用する。
[Q]デュアルプロセッサ対応の760MPチップセットのピン数はどの程度か。
[A]900ピン台になるだろう。
□バックナンバー
(2000年10月25日)
[Reported by 後藤 弘茂]