【速報】登場したばかりのPentium 4をベンチマーク!



 Intelが5年ぶりにマイクロアーキテクチャを大幅に更新したPentium 4プロセッサを発表した。'85年に386を発表して以来、'89年に486、'93年にP5、'95年にP6と徐々に進化してきたIntelのコアアーキテクチャだが、今回のPentium 4ではCPUのハードウェア上の仕様であるマイクロアーキテクチャのみならず、命令セットのアーキテクチャの追加、システムバスの変更と386以来となる3セットすべての大変革となっている。今回はこのPentium 4プロセッサのパフォーマンスを、ベンチマークプログラムを利用することにより検証してみよう。


●ハイパー・パイプライン・テクノロジにより高クロックを実現

 既に述べたように、Pentium 4ではマイクロアーキテクチャ、命令セットアーキテクチャ、システムバスというCPUの仕様を決定する3つの要素すべてに改良が加えられている。386以降に出荷された、486、P5、P6と進化してきたが、CPUのハードウェア上の仕様であるマイクロアーキテクチャ、システムバスの改良は行なわれているが、命令セットアーキテクチャの改良はP5世代のMMX PentiumでMMX命令の追加、P6世代のPentium IIIでインターネット・ストリーミングSIMD拡張命令(SSE)の追加という形で行なわれており、マイクロアーキテクチャとシステムバスの更新が同じタイミングで行なわれたのは386以来となる。

 Pentium 4(つまりNetBurstマイクロアーキテクチャ)の特徴は以下のようになっている。

・ハイパー・パイプライン・テクノロジ
・高速実行エンジン
・実行トレースキャッシュ
・400MHzシステムバス
・ストリーミングSIMD拡張命令2(SSE2)

 この中でPentium 4の真髄とも言えるのが「ハイパー・パイプライン・テクノロジ」だ。現在のCPUは命令の実行を複数のステージに細分化して実行している。その各ステージをオーバーラップさせて実行することで、1つの命令が実行し終わらないうちに、次の命令を実行できるようにすることをパイプライン化と呼び、CPUの処理能力を向上することができる。

 P5では5ステージ、P6では10ステージにもおよぶ細分化されたパイプライン構造がとられており、こうした細分化されたパイプラインのことをスーパーパイプラインと呼んでいる。NetBurstではさらにそれを進めて、20ステージにもおよぶパイプライン構造がとられており、スーパーパイプラインよりもさらに細分化されたパイプラインという意味で「ハイパーパイプライン」と呼ばれている。

 こうしたパイプラインのステージを細分化するメリットはズバリ、高クロック化の実現が容易になることだ。

 例えば実際にはありえないのが、パイプラインの構造以外は全く同じCPUがあったとして、CPU(A)は10ステージのパイプラインで、CPU(B)はそれを細分化した20ステージのパイプラインだったとする。CPU(A)が1GHzで動作していたとすると、1クロック(1ns)で1ステージを実行するので、10ステージを実行するのに10nsかかる計算になる。それでは、CPU(B)ではどうだろうか?全体で10nsかかるとしても、こちらでは20ステージに細分化されているので、1つのステージを実行するのには0.5nsしかかからない計算になる。0.5nsはクロックに直せば2GHzになるので、同じCPUでも2GHzを実現することができることになる(実際にはCPUのハードウェア上の制限などがあるので、この通りにはならない)。こうした理由から、パイプラインの細分化は高クロックを実現しやすくなるのだ。

【10ステージの場合】
==========(1ns)
←   10ns   →

【20ステージの場合】
====================(0.5ns)
←   10ns   →

 ただし、CPUは分岐命令などをある程度予想(分岐予測)しながら実行する投機実行を行なっている。この投機実行の予測がはずれた場合には、パイプラインの後ろのステージの方まで実行が終わっていたとしても、その実行の結果を破棄して最初からやり直す必要がある。パイプラインのステージを深くすればするほど、その分岐予測などに失敗した場合のペナルティが大きくなる。このため、パイプラインのステージを細分化する前に比べて、クロックはあがっても、処理能力は上がらないという可能性がある。


●高速実行エンジンやSSE2でハイパーパイプラインによるハイペナルティを補う

 そこで、Intelはそれを補ういくつかのアプローチをしている。1つには分岐予測の精度を上げることだ。IntelではPentium 4はPentium IIIに比べて分岐予測の失敗の確率が1/3になっていると説明している。また、ALUと呼ばれる整数演算ユニットの動作クロックを倍速相当としている(高速実行エンジン)。具体的には、0.5クロックで1命令を実行できるようになっており、1クロックで2命令を実行できる。

 さらに、L1命令キャッシュに換えて、実行トレースキャッシュという仕組みが採用されている。従来のPentium IIIで採用されていた命令キャッシュではx86命令そのものをキャッシュするのに対して、Pentium 4ではデコーダと呼ばれるx86命令をCPUが理解できる機械語に変換したあとの、その機械語による命令(マイクロ命令、μOPSなどとよばれる)をキャッシュするようになっている。このため、トレースキャッシュに格納されているマイクロ命令を繰り返し実行する場合には、デコードを行なう必要がなくなり、パイプラインの動作をすっきりさせ、ひいてはCPUの処理能力の向上につなげることができる。

 さらに、Pentium 4ではPentium IIIで採用されていたインターネット・ストリーミングSIMD拡張命令を拡張した、ストリーミングSIMD拡張命令2(以下SSE2)という144の新命令セットが追加されている。SSEとSSE2の違いは主に以下の2点だ。

・SIMD型整数演算で128bit演算ができるようになった
・SIMD型浮動小数点演算が倍精度になった

 これらの拡張により、フォトレタッチ、ビデオ編集などのアプリケーションで従来以上の性能アップを実現できるようになる。

 なお、Pentium 4ではx87命令(x86系CPU標準の浮動小数点演算命令)を実行する際の処理能力の強化はあまり行なわれていない。このため、Intelも同社の配布している「Intel Pentium 4 Processor Optimization」の中で、浮動小数点演算に関してはSSE2に対応させることを盛んに奨励している。こうしたことなどから考えて、ハイパーパイプラインにより高クロックを実現し、それによりもたらされる問題を高速実行エンジンやSSE2で補うというのがPentium 4のコンセプトだと言えるだろう。


●一般的なアプリケーションではAthlon 1.2GHzに遅れをとる

 今回はベンチマークとしてBAPCOのSYSmark2000(実在のアプリケーションのコードを利用して計測するアプリケーションベンチ)、IntelがPentium 4の処理能力を計測するのに提供しているPentium 4 Processor Application Launcher(実在のアプリケーションを利用して実行時間を計測し、相対的数値を出すテスト)のうち、SSE2に対応したIncoming Forces、VideoStudio 4.0、Windows Media Encoder 7.0の3つを利用した。テストに使用した機材はPentium 4 1.5GHz+Intel DB850(Intel 850チップセット)+256MB Direct RDRAM(PC800)を搭載した評価機、比較対象としてAthlon 1.2GHz(システムバス266MHz)+AMD CORONA-EVT3(AMD-760チップセット)+DDR SDRAM(PC-2100)を搭載した評価機を利用した。

 結論から言えば、SYSmark2000に関しては、ほとんどすべてのテストでAthlon 1.2GHzがPentium 4 1.5GHzを上回った。Pentium 4 1.5GHzが上回ったのは、わずかにWindows Media Encoder 4とNaturally Speaking Prefの2つだけで、あとはすべてAthlon 1.2GHzが上回った。特に、浮動小数点演算を多用するBryce4、CorelDraw、Premiere 5.1などの差が大きく、SSEを利用可能なWindows Media Encoderでは上回っていることには注目したい。逆にSSE2をサポートした3つのアプリケーション(Incoming Forces、VideoStudio 4.0、Windows Media Encoder 7.0)ではPentium 4 1.5GHzがAthlonを圧倒した。

【SYSmark2000】
Bryce 4231
296
CorelDraw 9225
306
Elastic Reality 3.1230
279
Excel 2000191
269
NaturallySpeaking Pref212
202
Netscape Communicator177
233
Paradox 9.0176
229
Photoshop 5.5150
138
PowerPoint 2000200
266
Premiere 5.1126
203
Word 2000176
205
Windows Media Encoder 4333
223
Pentium 4 1.5GHz Athlon 1.2GHz

【SSE2対応ベンチマーク】
Incoming Forces123
068
VideoStudio 4.0146
096
Windows Media Encoder 7.0141
060
Pentium 4 1.5GHz Athlon 1.2GHz

 こうしたことから、Pentium 4は確かに、多くのアプリケーションで実クロックでは下のAthlonよりも低い処理能力しか発揮できない場合があると言わざるを得ない。しかし、もっと大きな性能低下があるかと思われたが、思ったほどではない。実際のところこれだけで済んでいるのは高速実行エンジンや実行トレースキャッシュなどのおかげと考えるのが妥当だろう。さらに、浮動小数点演算の処理能力はx87命令を使わずに、SSE2を利用することで補うことが可能だろう。


●現時点ではお薦めしにくいが将来を見据えれば必要なCPUとなる

 以上のような結果から、現状のPentium 4に関してはやや厳しい結論を出さなければいけないだろう。こうした高クロックのCPUでは処理能力が重要であり、処理能力が高いからこそプロフェッショナルユーザーなどが高いコストを払ってでも必要とする。しかし、多くのアプリケーションで、Athlonに負けている現状を考えれば、正直SSEやSSE2に対応しているアプリケーションをたくさん持っているプロフェッショナルユーザーぐらいにしかお薦めできない。先週のAKIBA PC Hotline!でお伝えしているように、マザーボード+CPU+メモリで15万円を越える価格がついている現時点では、一般ユーザーに薦めることは難しいだろう。

 しかし、既に述べたようにPentium 4、つまりNetBurstマイクロアーキテクチャの真真髄は「ハイパー・パイプライン・テクノロジ」による高クロック化の実現にある。IntelはPentium 4の発表会で、Pentium 4 2GHzを2001年の第3四半期に出荷すると宣言している。実際に、そうした高クロックがそのタイミングで出せるのであれば、Athlonに差を付けられる可能性はないわけではなく、そうした時にはじめてPentium 4の意味がでてくるだろう。さらに、2002年や2003年といった数年後には2GHzを越え、3GHzや4GHzといった高クロックを実現することができるようになる可能性も秘めており、今後数年という長いレンジでとらえたい製品と言えるだろう。

□Akiba PC Hotline!関連記事
【11月18日】一部ショップがPentium 4対応マザーボードとケースの販売をスタート
http://www.watch.impress.co.jp/akiba/hotline/20001118/p4mother.html
□関連記事
【11月21日】米Intel、Pentium 4正式発表
P6以来5年ぶりの新アーキテクチャ
http://pc.watch.impress.co.jp/docs/article/20001121/intel.htm

バックナンバー

(2000年11月21日)

[Reported by 笠原一輝@ユービック・コンピューティング]


【PC Watchホームページ】


ウォッチ編集部内PC Watch担当 pc-watch-info@impress.co.jp

Copyright (c) 2000 impress corporation All rights reserved.