デスクトップ向けのPentiumシリーズに比べて、65nmプロセスへの移行が遅れていたサーバー/ワークステーション向けのXeonシリーズ。先にCore DuoベースのXeon LVが65nmプロセス製品として登場しているが、今回、NetBurstアーキテクチャの65nmプロセス製品「Xeon 5000シリーズ」(コードネーム:Dempsey)がリリースされる。 合わせてプラットフォームも「Bensley」(サーバー向け),「Glidewell」(ワークステーション向け)と呼ばれる、「Intel 5000シリーズ」チップセットをベースにしたものに切り替えられ、ついにFB-DIMMが採用されることになる。今回、このGlidewellプラットフォームの評価システムを入手することができたので、個人利用を想定したベンチマークを実施してみたい。 ●Clovertownまで利用されるFB-DIMM対応「Bensley / Glidewell」 今回登場するのは、CPUがXeon 5000シリーズ、チップセットがIntel 5000シリーズとなっており、CPUとチップセットの統一感はあるものの、ちょっと混同しやすい名称になっている。とはいえ、すでにコードネームとともに多くの情報が公開されている製品なので、ここでは簡単にまとめておきたい。 まず、このXeon 5000シリーズとIntel 5000シリーズを組み合わせたプラットフォームのコードネームが「Bensley」と「Glidewell」である。このBensley/Glidewellは、Coreマイクロアーキテクチャを採用する「Woodcrest」や、クアッドコアの「Clovertown」までサポートされる、先を見据えたプラットフォームになっている。 Bensley/Glidewellの特徴は、なんといってもFB-DIMMを初めてサポートする点で、両プラットフォームで利用されるチップセットがIntel 5000シリーズとなる。 Bensleyプラットフォームを構成するのは,4ch FB-DIMMのサーバー用チップセット「Intel 5000P」(コードネーム:Blackford)、2ch FB-DIMMのサーバー用チップセット「Intel 5000V」(同Blackford-VS)の2つ。これに加えて、Glidewellプラットフォーム向けに4ch FB-DIMM+PCI Express x16サポートの「Intel 5000X」(同Greencreek)がリリースされる。それぞれ、「Intel E7520」(同Lindenhurst)、「Intel E7320」(同Lindenhurst-VS)、「Intel E7525」(同Tumwater)の後継となるチップセットだ。 そのブロック図と主な特徴は、図1に示したとおり。ここではIntel 5000P(Blackford)のブロック図が示しているが、4chのFB-DIMMインターフェイスを持ち、各チャネルに4枚のDIMMを実装することで、最大64GBのメモリ容量をサポートする。FB-DIMMインターフェイスが2chとなるIntel 5000Vであっても32GBのメモリ容量が搭載可能。旧チップセットでは16GBが最大で、FB-DIMMで大幅に容量が増えている。 もう1つ、Intel 5000シリーズチップセットでは、CPUのFSBを2つ備えているのも特徴だ(図2)。デュアルプロセッサ環境であっても、CPUとチップセットをポイントツーポイントで接続することで、Paxville DPの800MHzを上回る、1,066/1,333MHzでの動作が可能になった。ただし、今回登場するDempseyコアのXeonシリーズは、1,066MHzまたは667MHzのFSBを持つ製品で、1,333MHz FSBはWoodcrestでのサポートとなる。 続いて、DempseyコアのXeon 5000シリーズの特徴だが、こちらはデュアルプロセッサ向けのXeonシリーズとして初めてプロセッサナンバが導入されている。ラインナップされるプロセッサナンバと、動作クロック/FSB/TDPは次のとおり。 ・5080:3.73GHz/1,066MHz/130W Paxville DPとDempseyは、デスクトップ向けにおけるSmithfieldとPreslerのコアを流用したもので、その違いはパッケージ上でコアが分離しているか、いないか、である(図3)。ただし、DempseyではCPUパッケージが従来のmPGA604からLGA771へと変更されている(写真1)。また、プラットフォーム全体としてみた場合、デュアルプロセッサ時にチップセットとの接続方法に違いがあるのも前述のとおりである。
さて、今回試用するのは、3.20GHz動作のXeon 5060×2とIntel 5000X(Greecreek)を採用したGlidewellシステムである(写真2~4)。FB-DIMMはMicronの1GB品が4枚搭載されている(写真5)。
Windows上での認識は、デュアルプロセッサ×デュアルコア×Hyper-Threadingで計8個のCPUを認識することになる(画面1、2)。ただ、CPU-Zで確認すると、CPUIDは「F62」となっており、これはPreslerのB1ステッピングと一致する値となるのだが、IntelのWebサイトにあるProcessor Spec Finderでは、こちらは「F64」とC1ステッピングと記載されている。今回借用したCPUはあくまで初期のサンプル版で、量産出荷品では新しいステッピングが採用されるということになるだろう。
●論理8コアの威力は出るか? それでは、本連載で普段行なっているCPU性能を見るためのベンチマークを本システムで実行してみたい。環境は表に示したとおりで、比較対象としてPentium Extreme Edition 965、IrwindaleコアのXeon DP 3.60のデュアルプロセッサ環境を用意した。ただし、動作クロックやメモリ環境などは一部異なっている。 今回使用したIrwindale環境は、本連載でも以前取り上げたIntelの評価用システムである。ただ、このシステムがベンチマーク中にハードウェア的なトラブルを起こし、テストをすべて行なうことができなかった。そのため、エンコードテストとSPEC Viewperf 9の結果からは省かれているのでご了承いただきたい。
●CPU性能 まずは、新バージョンがリリースされたSandra 2007の「Processor Arithmetic Benchmark」と「Processor Multi-Media Benchmark」の結果である(グラフ1)。新バージョンになってベンチマークの名称は若干変わったが、内容は同じようだ。 Xeon 5060環境のスコアが飛び抜けているのはコア数が異なるからだが、他製品に比べて2倍前後まで到達しないのはクロックが低いからである。Pentium XE 965とIrwindaleコアの比較でも、クロック差がスコア差として表れており、ここは、それぞれに明確な理由が考えられる納得の結果といえる。
続いては、PCMark05のCPU Test(グラフ2、3)であるが、こちらもかなり分かりやすい結果となっている。まず、グラフ2に示したシングルタスクの状態で実施されるテストは、クロック差が結果に結びついている。 グラフ3に示したマルチタスク状態で実施されるテストの場合、File Compression/File Encryptionの同時実行では依然としてクロック差の影響が大きいが、残る4つを同時実行した結果はXeon 5060環境の優位性が表れている。 今回の環境における論理コア数は、Xeon 5060が8個、Pentium XE 965とIrwindale環境が4個となるが、これはHyper-Threadingを使っているからであって、物理的なコア数はそれぞれ4個、2個となる。つまり、4タスクを実行した場合でも、Xeon 5060デュアル環境は、Hyper-Threadingで起こり得るCPUリソースの待ち時間というロスは理論上発生せず実行できることから、こうした結果が表れたということになる。
●メモリ性能 次は、メモリ性能のテストである。実施したのは、Sandra 2007のCache & Memory Benchmarkである(グラフ4)。今回よりグラフを折れ線グラフのみとし、線が重なった部分を見るためデータテーブルを併記する方法へ表現を変更した。 結果は、Sandraらしくキャッシュ容量の範囲内ではXeon 5060のスコアが飛び抜けてしまっているが、おおよそクロックに順じたCPU演算テストと似たようなスコア比である。 実メモリの領域となる16MB以上の転送テストの結果であるが、こちらは同じPC4200 DDR2 SDRAMを使うXeon 5060とPentium XE 965で比較すると後者のほうがやや速い。 とはいえ、ワークステーション向けプラットフォームとPC向けプラットフォームとでは性能と信頼性のチューニングバランスも異なるし、FB-DIMMは登場したて、という不利もある。AMB同士をつなぐFB-DIMMのアーキテクチャによりレイテンシが大幅に増加する可能性も想像していたのだが、意外に差が小さいという印象である。
●アプリケーション性能 次に、実際のアプリケーションを利用したベンチマークを実施したい。テストは、SYSmark 2004(グラフ5)、Winstone 2004(グラフ6)、CineBench 2003(グラフ7)、各種エンコードテスト(グラフ8)だ。まず、お断りだが、SYSmark 2004でInternet Content Creationが何度実行しても完走せず、スコアを取ることができなかった。そのためグラフからは省略している。 さて、結果だが、アプリケーションのマルチタスク/マルチスレッドの利用頻度によって、大きく結果が左右される結果になった。分かりやすいのは、CineBench2003であるが、シングルCPUレンダリングはクロック差が影響したが、マルチCPUレンダリングは8スレッド同時実行の効果が見事に表れている。SYSmark 2004 Office ProductivityやWinstone 2004はマルチタスク/マルチスレッドの利用頻度は多くないため、クロックが大きく影響している。今回からBusiness Winstone 2004のMultitasking Testも追加したが、これも負荷がそれほど高くないためか、クロック差のほうが結果に反映されてしまった。 動画エンコードは面白い結果である。今回からMPEGエンコードをTMPGEnc 4.0 XPress、DivXをDivX6.2.2、H.264をMainConcept H.264 Encoder V2へと変更したが、この3つはマルチスレッド処理の実装が進んでいることが良く分かる結果だ。
●3D性能 最後に3D性能のテストとして、3DMark06 CPU Test(グラフ9)、3DMark06(グラフ10)、3DMark05(グラフ11)、3DMark03(グラフ12)、DOOM3(グラフ13)、SPEC Viewperfk 9(グラフ9)の結果を紹介したい。 これもアプリケーション性能のテストと同じことが言えるだろう。3DMark06のCPUテストのようにマルチスレッド処理がはっきり取り込まれているアプリケーションではXeon 5060環境の性能の良さが際立つ。一方で、いくらビデオカードのドライバのマルチスレッド対応化が進んでいたとしても、3.73/3.60GHzと3.20GHzの性能さは埋めがたい、ということだ。
●次の世代では利用できない論理8CPUのDP環境 今回の評価システムが3.2GHz動作のXeon 5060であったため、クロック差による影響が色濃く出ている部分も多いので、CPU自体の性能の優劣が見えづらい結果になってしまった。それでも、3.73GHzのPentium XE 965を上回るベンチマークが見られるあたり、マルチスレッド処理がうまく働いたときの威力が、かえって浮き彫りになっている。 前述のとおりXeon 5000シリーズには、3.73GHz動作のXeon 5080がラインナップされている。これを使えば、Pentium XE 965と動作クロックの差はないわけで、マルチスレッド処理の実装が進んでいないアプリケーションでも、大きな性能差は生まれないはずだ。 ちなみに今回のXeon 5060×2環境で、ワットチェッカーを利用して消費電力を計測してみたところ、ピーク時には455Wとかなり大きな値を示した。すでに、次の四半期には、Coreマイクロアーキテクチャを採用するWoodcrestが控えていることを考えると、第一線の製品として発売される期間は短く、電力効率が強く叫ばれる状況においては、採用にとまどいを感じるかもしれない。 だが、WoodcrestにはHyper-Threadingは実装されず、デュアルプロセッサ環境で論理8CPUが動作するのは、2007年第1四半期に予定されているクアッドコアのClovertownを待たなければならない。 例えば、TMPGEnc 4.0 XPressのバッチエンコードツールでは論理CPUの数と同数の同時エンコード処理が可能なのだが、そうした状況ではDempseyデュアル環境は非常に魅力的だ。 消費電力にこだわらないなら、という前提を強く意識する必要はあるものの、負荷の高い複数の処理を同時実行する利用シーンでは、Dempseyが活躍する場も残されているだろう。 □関連記事 (2006年5月23日) [Text by 多和田新也]
【PC Watchホームページ】
|
|