マイクロアーキテクチャの変革とプロセスシュリンクを交互に行なうIntelのTICK-TOCKモデル。このプロセスシュリンクがついに始まった。Coreマイクロアーキテクチャをベースに、「Penrynファミリー」の名で知られた45nmプロセスのプロセッサへと移行していく。その第一弾となるのが、ハイエンドデスクトップ向けの「Core 2 Extreme QX9650」である。9月に行なわれたIDFにおいて、11月12日に発表することがアナウンスされている本製品を検証する機会を得たので、そのパフォーマンスを紹介していきたい。 ●TDP 130W/T.Case 64.5℃は従来と同じ 45nmプロセスで製造される第2世代CoreマイクロアーキテクチャであるPenrynの初製品となるのが、「Core 2 Extreme QX9650」だ。「Yorkfield」のコードネームで開発が進められてきたクアッドコアの製品となる。価格はExtremeシリーズの伝統通り999ドルとなる予定。 CPUパッケージは従来の65nm製品と同じくLGA775であり、外観上の違いは背面のコンデンサの配置が異なる程度である(写真1、2)。
動作クロックは3GHzでFSBは1,333MHz。従来の「Kentsfirld」コアを採用するCore 2 Extreme QX6850と動作クロック、FSBの帯域幅ともに同じとなる。ただし、L2キャッシュは8MB(4MB×2)から12MB(6MB×2)へと増量されており、スペック上はこの点の違いが大きい(画面1、2)。 そのほか、TDPは130W、T.Caseは64.5℃となっており、Core 2 Extreme QX6850と同一である。つまり、熱設計に変更を加えることなる利用できるということであり、ハイエンドPCなどは、従来と同じ筺体でCPUのみを変更したモデルなども出てくるだろう。 マイクロアーキテクチャには、今年春のIDF Spring 2007において詳細が説明されており、除算性能を向上させる「Radix-16 divider」、SSEで利用される128bitレジスタのデータ処理を1サイクルで行なう「Super Shuffle Engine」、そして新命令セットの「SSE4」が実装されている(画面3)。 ●多くのシチュエーションで性能を改善
それでは、さっそくベンチマークテストに移りたい。環境は表に示した通りで、マザーボードはIntel X38 Expressチップセットを搭載するASUSTeKの「P5E3 Deluxe/WiFi-AP」を使用した(写真3)。 BIOSバージョンはYorkfield対応が行なわれた“0504”を利用している。その前のバージョンとなる“0402”でもエラーは発生するものの、倍率さえ手動設定すれば問題なく動作した。基本的にはIntel X38を搭載したマザーボードであれば動作自体には問題ない可能性が高い。もちろん、対応BIOSがリリースされているのであれば、適用した方が良いだろう。
【表】テスト環境
まずはCPUの演算性能を見るため、Sandra XIIの「Processor Arithmetic/Processor Multi-Media Benchmark」(グラフ1)、「.NET Arithmetic/Multi-Media Benchmark」「JAVA Arithmetic/Multi-Media Benchmark」(グラフ2)と、PCMark05のCPU Test(グラフ3、4)の結果を見てみたい。 今回から、Sandra XIIで組み込まれた.NET/Javaのテストを追加している。従来からあるSandraのProcessor Arithmetic/Multi-Media Benchmarkは、CPUの拡張命令やALU/FPUの性能をフルに引き出すようチューニングされており、CPUのフルポテンシャルを見るのには適していたが、アーキテクチャが異なる場合には直接の比較が難しい面があった。この.NET、Javaのバイナリを利用したものは、Sandra独自のチューンは行なわれていないようで、アーキテクチャの違いがある場合の性能比較の一助になりそうである。 そのSandra各テストの結果であるが、まずProcessor Multi-Media Benchmarkの整数演算の結果でSSE4対応の効果がはっきり出て、大きなスコア差が出ている。また、浮動小数点演算の基本的なテストを行なうWhetstoneでは、Core 2 Extreme QX9650が全体的に強さを見せる結果となっており、Radix-16 dividerの効果が出ているのかも知れない。 ただ、SSE3/4を利用しない場合、整数演算を中心に効果がないどころか、誤差程度とはいえCore 2 Extreme QX6850に劣る結果もあり、演算性能は確実に向上するとはいえないのも事実といえる。 PCMark05は、さらに実アプリケーションに近いCPUベンチマークであるが、こちらも性能にはほとんど差を見ることはできない。 続いてはメモリ性能である。テストはSandra XIIの「Cache & Memory Benchmark」(グラフ5)と、PCMark05の「Memory Latency Test」(グラフ6)の結果である。メモリレイテンシに関しては、普段の本連載ではEVERESTを用いていたが、12MBのL2キャッシュを正しく認識しないのかCore 2 Extreme QX9650でL2キャッシュのテストが実行されなかったため、PCMark05のテスト結果を用いている。 注意してほしいのは、EVERESTのテスト結果がnsで表現されていたのに対し、PCMark05の結果は1秒あたりのメモリアクセス回数になる点で、数字が大きいほうが性能が良い(レイテンシが低い)ことになる。ちなみに、1,000を結果で割ればレイテンシの実時間となる。 まず、Sandraのテストでメモリアクセス速度について見てみたいが、基本的にはL1/L2/メインメモリの各アクセス速度の差は新旧製品でほとんどない。16MBのところで差が付いているのは、L2キャッシュの差が出たもので、Core 2 Extreme QX9650のアドバンテージが表れている場面だ。 レイテンシに関しては、L2キャッシュにおいてCore 2 Extreme QX9650が若干ながら大きい傾向が見て取れる。24-wayとバンク数は増えたが容量が増えたことによる弊害かも知れない。もっともCPUの新製品ではL2キャッシュの速度が思いのほか伸びず、のちのBIOSチューンによって改善される例も珍しくないので断定はしづらい。
次に実際のアプリケーションを用いたベンチマークテストの結果を紹介したい。テストは、「SYSmark 2007 Preview」(グラフ7)、「PCMark Vantage」(グラフ8)、「CineBench R10」(グラフ9)、「動画エンコードテスト」(グラフ10~12)である。 PCMark Vantageは11月18日に発表されたFuturemarkのベンチマークソフトである。従来のPCMarkがPCの各コンポーネント性能をチェックする方向性であったのに対し、Vantageは用途別の性能が分かるようにするアプローチへ変更されており、PCMark05の後継ソフトというよりは、SYSmarkシリーズに近いベンチマークソフトとなった。 ただし、CPUの性能評価とはあまり関係がないためグラフには示していないが、HDDだけは独立してチェックが可能になっているほか、各用途別テスト内でHDDのテストを行なうシーンが多いのは特徴的だ。 これらの性能であるが、まずSYSmark2007、PCMark Vantage、CineBench R10では、多くのテストでCore 2 Extreme QX9650の優位性が示された格好となっている。ただ、PCMark VantageのCommunicationsで劣る結果を見せている。このスコアが下がったのはデータ圧縮とメール検索の2項目によるもの。データ圧縮はPCMark05のCPUテストでは大きな差がついておらず、こうしたスコアになった原因は分からない。多くの状況でスコアが向上するとはいえ、劣るシーンがないわけでもないという事実は押さえておきたい。 さて、動画エンコードに関しては、SSE4対応が進み始めており、少し細かく見るためにグラフを3枚に分けている。動画エンコードに積極的にSSE4命令が用いられている理由は、4月のIDFで行われたベンチマークセッションレポートでも紹介した通りである。SAD演算を行なう「MPSADBW」と、レジスタ内の値から最も小さなUWORDを抜き出す「PHMINPOSUW」というSSE4で追加された2つの命令と、Super Shuffle Engineを利用することで、MPEGエンコードの最重要課題といえる動き検索を高速化することができるからだ。
では順に結果を見ていきたいが、1枚目はTMPGEnc 4.0 XPressのエンジンを利用したエンコードテストである。TMPGEnc 4.0 XPressは10月16日にリリースされたVer.4.4.0.233においてSSE4対応が追加された(画面4)。 その結果は、SSE4を利用しない場合においても5%程度の性能改善が見られている。一方、SSE4を利用した場合の性能向上は1%程度にとどまっており意外に性能へのインパクトは小さい。これは、動き検索の精度を上げても同じだ。 動き検索は極論すれば、いかに画質への悪影響を抑えつつ動きを認識するかがポイントなわけで、画質に影響がない程度に動き検索処理をいかに簡略化または高速化するかという工夫されている部分だ。今回の結果を見るに、TMPGEncのエンジンが従来から上手く検索処理を行なっていたか、またはSSE4で追加された命令があまり効果がない手法を使っているようだ。 次にもっとも早期からSSE4対応版をリリースしていたDivXエンコードの結果を見てみたい。エンコードのフロントエンドにはTMPGEnc 4.0 XPressを使用している。このDivXであるが、Version.6.6でSSE4対応が加えられ、4月のベンチマークセッションではそのAlpha版を用いていた。このバージョンでは従来からDivXが行なっている動き検索手法を用いていたと想像されるが、そのあとのVersion6.6.1でSSE4を使った動き検索は実験的に全検索型(フルサーチ)へと変更されてしまっている。
設定画面は画面5の通りであるが、「Experimental SSE4 full search」を「Disabled」にした場合はDivXの通常の動き検索、「Enabled using SSE2」「~ SSE4」はそれぞれ、SSE2命令、SSE4命令を使ったフルサーチということになる。よって、DivXの通常の動き検索でSSE4命令を活用した場合の性能を知ることができない。 実際のパフォーマンスはどうかというと、当然DivXなりに最適化した動き検索をしているためだろう、拡張命令を利用したフルサーチに比べて通常の動き検索の方が断然高速である。 ただし、フルサーチという同一条件でSSE2とSSE4を比較した場合、Core 2 Extreme QX6850のSSE2使用時からは20%程度、QX9650のSSE2時からは14%程度の性能改善が見てとれる。興味深いのは、Core 2 Extreme QX6850の通常サーチ方法の結果に対して、Core 2 Extreme QX9650のSSE4使用時フルサーチの結果がかなり迫っている点だ。 フルサーチといっても動き検索の効果は、動画の内容に左右されるものであるため画質が向上する可能性は確実なものとはいえない。画質が似たようなものなら、より高速な従来型のサーチのほうが効果的だろう。だが、DivXが言う「実験的(Experimental)なフルサーチ」というフレーズは、文字通りあくまで今後へ向けた実験にすぎないと受け取って良いのではないだろうか。フルサーチという力技な動き検索を実施しても、従来に近いパフォーマンスを出せるという点はSSE4命令を使ったMPEGエンコードが一定の効果を得られる可能性を示している。 SSE4命令を利用し、かつ広く画質向上へつながるような手法、もしくは劇的に性能が改善するような手法などを研究している最中なのだろう。先のTMPGEnc 4.0 XPressにしても現状では効果が薄いが、今後SSE4に合わせてチューニングした動き検索手法が採用される可能性はある。ひょっとすると、MPEGエンコードエンジンに変化をもたらす命令セットとなるかもしれない。 続いては、SSE4に対応しないエンジン群ということで、Windows Media Encoder 9とMainConcept ReferenceのH.264エンコードの結果である。ここではSD解像度で5%前後の性能向上がみられるが、HD解像度では効果が小さい。ほかのエンジンによるテストでも、SSE4を利用しない場合、似たような傾向となっている。このSD解像度とHD解像度における効果の違いから判断すると、性能向上の要因は動画の各フレームをL2キャッシュへ多くバッファできるようになったことにあるのではないかと想像している。
次に3D関連のテストである。「3DMark06」(グラフ13、14)、「3DMark05」(グラフ15)、「Splinter Cell Chaos Theory」(グラフ16)、「LOST PLANET EXTREME CONDITION」(グラフ17)の結果を掲載している。 ここはCore 2 Extreme QX9650がかなり安定した性能向上を見せているといって差し支えないだろう。解像度が上がるとビデオカード側がボトルネックになるため差がないが、CPU性能への依存度が大きい低解像度でははっきりとした性能差が表れている。ゲームユースにおいて、同一クロック、同一の熱設計で安定した性能向上が得られるのは大きなメリットといえる。
最後に消費電力の計測結果である(グラフ18)。65nmから45nmへシュリンクされた効果がはっきり出ており、アイドル時で13%程度、高負荷時に15%を超える低消費電力化が実現されている。 90nmプロセス以降、リーケージ電流の増加からプロセスシュリンクが必ずしも低消費電力(駆動電圧の低下)へ直結しないこともあった。だが、Intelが順調さをアピールしているハフニウムを用いたHigh-Kメタルゲートトランジスタの低リーケージは、確かに現われている。
●性能向上と使いやすさ向上が果たされたQX9650 マイクロアーキテクチャの若干の改良、L2キャッシュ増量、プロセスシュリンクといった点が目立ったポイントとなるCore 2 Extreme QX9650であるが、その効果は小さくない。 性能面に関しては、Core 2 Extreme QX6850はクロックが同一であるにも関わらず、安定した性能向上を得られている。性能向上がない場面もあるわけだが、多くのシーンで性能向上を得られるといって差し支えないと思う。 また、プロセスシュリンクの効果で消費電力が下がっているのも大きな特徴で、45nmプロセスの最初の製品ながら、非常に大きな効果を出している。熱設計こそ同じ枠に据え置かれているが電源ユニットへの要求などを考えれば、より使いやすく、同時により高い性能を得られるCPUとして魅力的な存在になっている。 □関連記事 (2007年10月29日) [Text by 多和田新也]
【PC Watchホームページ】
|