|
Athlon MPのパフォーマンスを計測する(シングル編) |
AMDはCOMPUTEX TAIPEIの会場において、同社としては初のサーバー/ワークステーション向けCPUとなるAthlon MPプロセッサ(以下Athlon MP)と、そのチップセットで2ウェイのマルチプロセッサ環境をサポートするAMD-760MPチップセット(以下AMD-760MP)をリリースした。今回のレポートでは、コードネームPalominoで呼ばれてきたAthlon MPをシングルで利用した状態の性能などについて考えてみよう(デュアル環境における評価も次回掲載予定だ)。
●キャッシュ周りの強化だけで10%程度の性能向上が望める
今回取り上げるAthlon MPは、これまでAMDがPalomino(パロミノ、開発コードネーム)、以前はMustang(ムスタング、同)と呼んでいたCPUコアで、従来のThunderbirdコアに比べると、以下の点が強化されている。
1.キャッシュ周り
2.新命令セット3DNow! Professionalに対応
3.パッケージとしてOPGAが用意されている
キャッシュ周りの強化点としては、ハードウェアプリフェッチのサポート、L1データのTLB(Translation Look-aside Buffer)のエントリ数の増大、L1、L2のTLBの排他制御、TLBの投機的なリロードなどが可能になっている。
性能面に最も大きな影響を与えるのはキャッシュのハードウェアプリフェッチのサポートだ。キャッシュのプリフェッチとは、次にCPUが利用するデータを予測しそれをメモリから先読みしてキャッシュに格納する方法のことで、ソフトウェアで明示的にデータの先読みを指定するソフトウェアプリフェッチとハードウェアで自動的にプリフェッチを行なうハードウェアプリフェッチがある。
IntelのPentium IIIやPentium 4がサポートしているストリーミングSIMD拡張命令(SSE)では、ソフトウェアプリフェッチをサポートしているが、この場合SSEに対応したアプリケーションで、明示的にソフトウェアプリフェッチを利用するプログラミングがされている場合のみ有効となる。これに対して、ハードウェアプリフェッチをサポートするPalominoでは、CPUが自分で予測して先読みを行なうので、基本的にどんなアプリケーションでも有効になる。ただ、先読みの予測が当たらなければ意味はないので、予測精度を上げることが前提となる。
また、L1キャッシュのTLB(Translation Look-aside Buffer)のエントリ数が増えている。TLBとは、ソフトウェアが指定する論理アドレスをメインメモリ上の物理アドレスに変換する変換テーブルをキャッシュしておくバッファで、TLBのエントリ数が増えれば増えるほどメモリへのアクセスは高速になる。H.Oda!氏作のWCPUID 3.0bでキャッシュ情報を調べたところ、Palominoの方は、L1データTLBのエントリ数が32+8=40エントリと8エントリ増えている。日本AMDコンピュテーションプロダクトグループ テクニカルマーケティング部部長の小島洋一氏によれば、「キャッシュ周りだけで10%程度の性能向上が期待できる」という。
Palomino | Thunderbird |
3DNow! Professionalは、従来のAthlon(Thunderbird)が対応していたエンハンスト3DNow!テクノロジに52の新命令を追加した新命令セットだ。この52の新命令とはIntelのストリーミングSIMD拡張命令(以下SSE)互換であり、基本的にはエンハンスト3DNow!テクノロジ+SSE=3DNow! Professionalだと考えていいだろう。こうした3DNow!やSSEといった新命令セットは、AMDやIntelが近年導入している追加命令セットで、アプリケーションはこれらの追加命令セットを利用することでSIMD型の演算を高速に行なうことができるようになる。
これまではSSEにしか対応していないアプリケーションでAthlonを利用した場合、Pentium IIIやPentium 4に性能面で遅れをとってしまっていた(もちろん3DNow!にしか対応していないアプリケーションでは逆にAthlonがPentium IIIやPentium 4が上回っていたわけだが)。しかし、SSEに対応しているPalominoでは、3DNow!、SSEのどちらかだけ、あるいはどちらにも対応しているアプリケーションのどれでもSIMD型演算を高速に行なうことが可能になるため、SIMD型演算を多用するビデオ再生ソフト、ビデオ編集ソフト、画像編集ソフト、3Dゲームなどにおけるパフォーマンスが向上する可能性がある。
さらに、Palominoでは新しいパッケージであるOPGA(Olganic Pin Grid Array)が導入される。このOPGAパッケージは、現状のCPGAとピン互換(つまり462ピン)で、ソケットなどはそのままのインフラが利用できる。AMDがOPGAパッケージを導入する理由は、配線遅延をできるだけ少なくし、より高クロックを実現しやすくするためと、放熱効率を上げるためだ。ただしOPGAが導入されるのは1.4GHz以上のPalominoで、1.2GHzのAthlon MPは従来通りのCPGAが採用されている。
●既存のマザーボードでもAthlon MPは動作するが、BIOSアップデートが必要
以上のような新機能をサポートしたPalominoことAthlon MPだが、正式にサポートされるチップセットはAMD-760MPとなっている。しかし、現時点で発売されているAMD-760MPマザーボードはTyanのThunder K7(S2462)のみとなっている。Thunder K7は2つのEthernetコントローラ、UltraSCSI3コントローラなど仕様的にはハイエンドワークステーション、エントリーサーバー向けとなっており、まさに最初からAthlon MPをデュアルに利用するためのマザーボードだ。価格も10万円を超えるなど、シングル用途向きとは言いにくい。単にAthlon MPをシングルで利用したいので有れば、AMD-760、Apollo KT133A/266といった266MHzのシステムバスをサポートしたマザーボードで使いたいところだろう。
しかし、Athlon MPはそれらのマザーボードで利用できる場合も有れば、利用できない場合もある。具体的には、マザーボードのBIOSが搭載されているCPUがPalominoであると認識する必要があるのだ。以下は筆者の手元にあった3枚のマザーボードにおける結果だ。
可否 | |
---|---|
ASUSTeK A7M266(BIOS Ver. 1004A 06/12/2001) | OS起動せず |
ASUSTeK A7V133(BIOS Ver. 1005A 06/06/2001) | 動作 |
GIGA-BYTE GA-7DXR(BIOS F4) | 動作 |
A7M266では「Athlon H-Series」という、一時AMDがOEMメーカーに対してPalominoのブランド名だと告知していたCPU名が表示されるのだが、OSの起動部分でハングアップし、OSが起動しなかった。A7V133とGA-7DXRに関しては問題なく起動した。なお、GIGA-BYTE Technologyは自社のホームページ( http://www.gigabyte.com.tw/home/palomino.htm )でPalominoに対応したBIOSを公開しており、GIGA-BYTEのマザーボードでPalominoを利用する場合には参考にしたい。
ただし、GA-7DXR、A7V133に関してはSSE互換の機能が有効になっていなかった。AMDの小島氏は「3DNow! Professionalの機能を有効にするには該当するレジスタをBIOSでオンにする必要がある」と、モバイルAthlon 4の発表会で明らかにしており、実際コンパックやNECから既に発売されているモバイルAthlon 4搭載ノートパソコンでも標準では3DNow! Professionalが有効になっていない。おそらく、GA-7DXRやA7V133もそれと同じようにBIOSで3DNow! Professionalを有効にはされていないのだろう。既にネット上でもこれらのことは話題になっており、SSE機能をONにできるソフトウェアも存在するようだ。
なお、現時点ではAthlon MPを正式にサポートしているチップセットはAMD-760MPのみであり、動かない場合でもAMD、マザーボードベンダ、ショップなどには文句は言えないし、筆者やPC Watch編集部も保証できるわけではないことはお断りしておく。あくまで、そうした環境で動作させる場合は自己責任の範囲内で行なっていただきたい。
●PalominoとThunderbirdには明らかな差が
それでは、Athlon MPのシングル時におけるパフォーマンスを見ていこう。Athlon MPの計測環境として用意したのは、TyanのThunder K7だ。Thunder K7の詳細に関しては近日中に追加する予定のデュアル編で詳しく触れるので、ここでは割愛するが、現在入手できる唯一のAthlon MP正式サポート環境であり、正確なベンチマークを計測するために用意した。
比較対象としては、Athlon 1.2GHz、Athlon 1.4GHz、IntelのPentium 4+Intel 850、Pentium III+Intel 815という環境を用意した。Intel CPUに関してはいずれもIntel製マザーボードを使用しており、リファレンス環境と考えていいだろう。なお、OSに関してはThunder K7がWindows NTおよびWindows 2000しかサポートしていなかったので、Windows 2000英語版+ServicePack1を利用している。
さらに、ビデオカードにはGeForce3を搭載したProLinkのMVGA-NVG20Aを利用したが、Thunder K7に当初プリロードされていたBIOSでは、3D描画能力が低く、正しく性能を発揮しない状態だったので、Tyanのホームページにアップロードされている最新版BIOS( http://www.tyan.com/support/html/b_th_k7.html )を利用した。Thunder K7でGeForce3を利用するユーザーは必ずアップデートしておきたい。
CPU | Athlon MP 1.2/1GHz Athlon 1.4/1.2GHz | Pentium 4 1.7GHz | Pentium III 1GHz |
---|---|---|---|
マザーボード | Tyan Thunder K7 | Intel D850GB | Intel D815EEA |
チップセット | AMD-760MP | Intel850 | Intel815 |
メモリ | PC2100(CL=2.5) | PC800 | PC133 SDRAM |
メモリ容量 | 256MB | ||
ビデオチップ | GeForce3(64MB、DDR SDRAM) | ||
ハードディスク | IBM DTLA-307030(30GB) | ||
OS | Windows 2000+ServicePack1+DirectX 8 |
結果はグラフ1~6で、すべてのベンチマーク結果は別ページにまとめておいた。グラフ1、グラフ2はBusiness Winstone 2001、Contents Creation Winstone 2001の結果だ。見てわかるように、Athlon 1.4GHzが最もハイスコアを叩き出した。Athlon MPもPentium 4 1.7GHzに迫る値を出しており、やはりAthlon 1.2GHzも上回っている。グラフ3、グラフ4は3DMark2001のスコア、QuakeIII Arenaのフレームレートだ。解像度は640x480ドットの16bitカラーと32bitカラーを抜き出してある。低解像度のスコアを抜き出したのは、低解像度ではビデオカードがボトルネックになることがないので、CPUの性能を見るのに適しているからだ。結論からいえば、ここではPentium 4が、Athlonのいずれのクロックを上回った。Athlon MPはクロックグレードでいえば2つ上のクロックであるAthlon 1.4GHzに迫っており、やはりキャッシュ周りの強化とSSE対応が効果を発揮していることを示している。
【グラフ1:Business Winstone 2001】
|
Athlon MP 1.2GHz Athlon MP 1GHz Athlon 1.2GHz Athlon 1.4GHz Pentium 4 1.7GHz Pentium III 1GHz |
【グラフ2:Contents Creation Winstone 2001】
|
Athlon MP 1.2GHz Athlon MP 1GHz Athlon 1.2GHz Athlon 1.4GHz Pentium 4 1.7GHz Pentium III 1GHz |
【グラフ3:3DMark2001】
|
Athlon MP 1.2GHz Athlon MP 1GHz Athlon 1.2GHz Athlon 1.4GHz Pentium 4 1.7GHz Pentium III 1GHz |
【グラフ4:QuakeIII Arena】
|
Athlon MP 1.2GHz Athlon MP 1GHz Athlon 1.2GHz Athlon 1.4GHz Pentium 4 1.7GHz Pentium III 1GHz |
グラフ5はVideo2000の結果だ。Video2000はSSEにのみ対応しているアプリケーションで、SSEによる効果がもっともわかりやすいベンチマークだ。ここではAthlon MPがAthlon 1.4GHzを上回っており、ハードウェアプリフェッチとSSEの効果によりSSEに対応したアプリケーションでは大きなパフォーマンスアップが期待できることがわかる。
【グラフ5:Video2000】
|
Athlon MP 1.2GHz Athlon MP 1GHz Athlon 1.2GHz Athlon 1.4GHz Pentium 4 1.7GHz Pentium III 1GHz |
さらに、SSEの効果が最もでていると思われる結果はグラフ6のIntel Pentium 4 Application Launcherに含まれるMegnitrax V1.02というレンダリングソフトウェアだ。SSEに対応しており、SSEに対応したCPUで最適なパフォーマンスを発揮できるタイプのアプリケーションだ。Athlon 1.2GHz、Athlon 1.4GHzではPentium 4はもちろんのこと、Pentium 4にも圧倒的に劣っていたのだが、SSEに対応したAthlon MP 1.2GHzはPentium 4 1.7GHzさえ大幅に上回るパフォーマンスを発揮した。このように、SSE対応による効果は決して侮れないものがあると言えるだろう。
【グラフ6:Intel Application Launcher】
|
Athlon MP 1.2GHz Athlon MP 1GHz Athlon 1.2GHz Athlon 1.4GHz Pentium 4 1.7GHz Pentium III 1GHz |
●ハードウェアプリフェッチなどのキャッシュ周りの効果が絶大
ところで、この記事の冒頭で、Palominoでは、キャッシュとSSE互換という2つの性能アップの要因を持っていると述べた。それでは、いったいどちらのほうが全体的な性能向上につながっているのだろうか? そこで、今回は標準ではSSE互換機能がオンになっていないGIGA-BYTE TechnologyのGA-7DXRを用意し、前述のSSEを有効にするソフトを利用することにより、SSEが有効になっているとき、SSEが無効になっているときを切り替えてテストしてみた。比較としてAthlon 1.2GHzも用意し、
(1)Athlon(Thunderbird)の場合
(2)Athlon MP(Palomino)の場合(キャッシュ強化)
(3)Athlon MP(Palomino)の場合(キャッシュ強化+SSE)
という3段階を比較してみることにした。なお、本来Athlon MPはGA-7DXRなどではサポートされないCPUであり、あくまで参考値ということでIntelのCPUと比較することは差し控えたい(そのため、OSはWindows 98英語版であり、上記の結果とは比較できない)。こちらも全ベンチマークデータは別ページを参照していただきたい。
【動作環境】
マザーボード | GIGA-BYTE GA-7DXR |
---|---|
チップセット | AMD-760 |
メモリ | PC2100(CL=2.5) |
メモリ容量 | 256MB |
ビデオチップ | GeForce3(64MB、DDR SDRAM) |
ハードディスク | IBM DTLA-307030(30GB) |
OS | Windows 98+DirectX8 |
【グラフ7:SYSmark2001】
|
Athlon MP 1.2GHz(SSE有効) Athlon MP 1.2GHz(SSE無効) Athlon 1.2GHz |
【グラフ8:3DMark2001】
|
Athlon MP 1.2GHz(SSE有効) Athlon MP 1.2GHz(SSE無効) Athlon 1.2GHz |
【グラフ9:QuakeIII Arena】
|
Athlon MP 1.2GHz(SSE有効) Athlon MP 1.2GHz(SSE無効) Athlon 1.2GHz |
【グラフ10:Video2000】
|
Athlon MP 1.2GHz(SSE有効) Athlon MP 1.2GHz(SSE無効) Athlon 1.2GHz |
【グラフ11:Intel Application Launcher】
|
Athlon MP 1.2GHz(SSE有効) Athlon MP 1.2GHz(SSE無効) Athlon 1.2GHz |
3DMark2001(グラフ8)、QuakeIII(グラフ9)の結果ではSSE有効、無効に関わらず結果はほとんど変わらなかった。しかし、PalominoとThunderbirdでは若干の差がついており、ここではキャッシュ強化の差がでていると考えていいだろう。3DMark2001はSSEに対応しているはずなのだが、それは利用されておらず3DNow!命令が利用されている可能性が高い。Video2000ではSSEによるメリットがでている。SSEのあるなしで大きな差がでており、このアプリケーションではSSEの効果がでていると考えることができるだろう。
しかし、グラフ11のIncoming ForcesではSSE有り無しではほとんど差がない。Incoming Forcesでは画面にSSEを利用して描画している場合は「SSE」、SSE2利用の場合には「SSE2」と表示されるが、Athlon MPの時は「Generic」と表示されており、SSE命令は利用されなかった。これに対して、同じIntel Application LauncherでもMegnitrax V1.02では大きなパフォーマンスアップを確認できた。SSEに対応している場合と対応していない場合では、目で見てわかるほどの描画速度の違いがあるのがわかった。
●SSE互換に関しては要調査だがキャッシュ周りの効果だけでも期待大
以前、AMDやCyrixがMMX命令互換の命令セットを搭載した時でも、アプリケーションによってはMMX命令をサポートしていることを認識しないという問題がいくつかのアプリケーションで確認された。アプリケーションがどのようにCPUの命令セットを確認しているかに関してはアプリケーションによると思われるが、CPUIDなどから認識しているようなアプリケーションの場合、Athlon MPがSSEをサポートしているということを認識しなくても不思議ではなく、同じような問題があるのかもしれない。このあたりに関しては今後も調査が必要で、現時点では結論は留保しておきたい。しかし、ベンチマーク結果からもわかるように、SSEに対応していない場合でもそれなりの性能向上があることがわかった。それだけでもPalominoは十分魅力的なCPUコアであると言えるだろう。
しかし、今回のAthlon MPをシングルで利用することに意味があるのかと言われれば、筆者個人としてはあまり意味があるとは思えない。同価格でAthlon 1.4GHzが購入でき、さらにAthlon MPが現状のシングル用マザーボードで保証されないことを考えると、今無理してAthlon MP 1.2GHzを購入する必要はないと思う(もちろん個人の趣味として買うのは面白いと思う)。Palominoコアのデスクトップ用CPUは第3四半期中にAMDからリリースされる予定になっており、第3四半期中に1.53GHz、第4四半期には1.6GHz、2001年の第1四半期には1.73GHzがリリースされる予定となっている。そうした意味では、今はThunderbirdコアのAthlonを買っておいて、デスクトップ版Palominoが発売されたらPalominoを購入するというのが最もベストだろう。なぜかといえば、現在のPentium 4とは異なり、AMDのインフラはここしばらくSocket Aから大きく変更する予定がないからだ。
□Akiba PC Hotline!関連記事
【6月9日】“Palomino”ことDual対応のAthlon「Athlon MP」が発売に
Dual対応マザーボード登場直後にCPUも、周波数は1.2GHz
http://www.watch.impress.co.jp/akiba/hotline/20010609/palomino.html
【6月9日】Tyanから初のDual Athlon対応マザー「Thunder K7」が登場
現行ThunderbirdやDuronでもDual動作が可能?
http://www.watch.impress.co.jp/akiba/hotline/20010609/thunderk7.html
(2001年6月20日)
[Reported by 笠原一輝@ユービック・コンピューティング]