■後藤弘茂のWeekly海外ニュース■
AMD(ATI)のGPU戦略の次のステップが明瞭に見えてきた。基本路線は、過去1.5世代の成功の図式を踏襲すること。つまり、生の演算パフォーマンスのアップを追求し、パフォーマンス効率を落とす複雑化をできるだけ避ける。汎用コンピューティングの性能を上げるが、基本はあくまでもグラフィックスに置く。そして、グラフィックスに特化した機能の拡張に、相当のトランジスタを割く。
AMD(ATI)のこうした路線を明確に示すのは、生パフォーマンスで2.5TFLOPS以上という新ハイエンドGPUの演算性能だ。新GPUの搭載するトランジスタ数は21.5億という。つまり、AMDは前世代より2.x倍のトランジスタ数で2.x倍の演算性能を実現する。これは、AMDが、現在のGPUのパフォーマンス/トランジスタを維持することを意味している。アーキテクチャの方向性が変わっていないことが示唆されている。
新Radeonでレンダリングされたリアルルビー |
AMDは、NVIDIAよりも、グラフィックスに比重を置き、汎用コンピューティングへの特化の度合いの低いGPU設計を行なって来た。AMDの思想は、そうした設計の結果、より高い演算パフォーマンス効率を実現できれば、結果として、汎用コンピューティングの性能を押し上げられるというものだ。今回も、情報を見る限りは、その路線は継続される。
こうした2社のアーキテクチャ方向性の違いは、CPU製品を持つAMDと、PC向けCPUを持たないNVIDIAの違いでもある。AMDは、CPUコア側でスレッド並列性と一定のデータ並列性能を高め、最終的にCPUコアとGPUコアを融合(FUSION)させるつもりでいる。そうしたAMDにとって、当面のGPUコアは、どちらかと言えばグラフィックス性能に寄らせた方がいい。
こうした背景から、AMDはGPUの現在のアーキテクチャ方向性を維持して、プロセスを微細化し、トランジスタ数を倍増させ、生演算パフォーマンスをひたすら引き上げようとしている。もし、NVIDIAが現在の汎用コンピューティングへの最適化路線をさらに進めるなら、NVIDIAとAMD(ATI)両社のGPUの方向性は、さらに離れて行くことになる。
GPUのトランジスタ数とプロセス技術の変遷 |
●スーパーコンピュータの4年の歴史を1年で達成
AMDのNeal Robison氏 |
2.5TFLOPS以上の演算性能。もちろん、ワンチップでこのパフォーマンスは過去に例がない。AMDのNeal Robison氏(Director, Developer Relations, AMD)は、米カリフォルニア州アラミダ(サンフランシスコの対岸)の空母ホーネット(博物館として公開されている)上で行なわれた発表会で次のように説明した。
「AMDは昨年(2008年)、世界で最初に1個で1秒間に1兆回の計算ができる、つまり1TFLOPSのチップを発表した。そして、今年(2009年)、AMDは設計を改良し、昨年のモデルの2.5倍の性能を達成した。1秒間に2.5兆回の計算、2.5TFLOPS以上ができる。
比較すると、昨年は、親指の先程度のチップ1個で、200ドル程度で、'96年の最高のスーパーコンピュータ(スパコン)と同等の性能が手に入った。今回は、同程度のクロックで、2000年のスーパーコンピュータと同程度の性能が達成された。AMDはスーパーコンピュータが4年間かかった演算パワーの向上を、たった1年で成し遂げた」
2007年のHotchipsでAMDが示したAttack of the Killer GPUsのスライド |
ベクトル+スレッドプロセッサであるGPUは、スーパーコンピュータの歴史を追っている。スーパーコンピュータとの差を詰めることが、今のGPUのテーマだとも言える。スーパーコンピュータの世界で1TFLOPSが達成されたのは、ASCI Red(9,298個のPentium Proの超並列マシン)。ASCI Redは、いわゆる『Attack of the Killer Micros(MPUの攻勢)』時代を象徴する、スーパースカラプロセッサの超並列構成のマシンだ。
AMDとNVIDIAは、昨年、ASCI Redに追いついた。そして、AMDは、今年はさらにスーパーコンピュータの歴史を4年進めたと宣言した。スーパーコンピュータとの時間差は、生の演算性能で見ると、9年にまで縮んだことになる。AMDが1昨年(2007年)に宣言した『Attack of the Killer GPUs(GPUの攻勢)』が進展していることが、数字で示されている。
●プロセスの微細化とともに発展するAMD GPUAMDのATI R6xx/7xx系アーキテクチャは、元々NVIDIAのG80/GT200系アーキテクチャと較べると制御系がよりシンプルで、SIMD実行を行なうプロセッサクラスタの粒度が大きい。つまり、制御のオーバーヘッドが小さく、演算プロセッサの密度がずっと高い。過去のATIブランドGPUのダイを見ると、大半がプロセッサクラスタで占められていることがわかる。ATI GPUのトランジスタ当たりの演算パフォーマンスが極めて高い理由はそこにある。
あるCPU開発者は「GPUはキャッシュも(ほとんど)載せない、コア間のメモリコヒーレンシも取らない、内部バスもシンプル。それなら、プロセッサを載せ放題だから、CPUより生の演算性能はガンガン上がって当たり前。CPUではそうできない」と語る。
AMDのGPUの発展を支えているのは、メインファウンドリであるTSMCのプロセス技術だ。AMDは前のフラッグシップだったRadeon HD 4800(RV770)から、1年でプロセス技術を1世代微細化(55nm→40nm)し、トランジスタ数を倍以上に(956M→2.15B)した。トランジスタがぎっしり詰め込まれるプロセッサコアに費やされると考えれば、演算パフォーマンスが2.x倍になるのは当然だ。ちなみに、トランジスタ数が倍ということは、以前このコーナーで推測したダイサイズ(半導体本体の面積)が小さすぎたことを意味している。
AMDはTSMCで造り続けるにせよ、AMDからスピンアウトしたGLOBALFOUNDRIESに移行するにせよ、今後1年サイクルでハーフノード、2年サイクルでフルノードの微細化を続けて行くことができる。
AMDはRV670以降はハイエンドGPUのダイサイズ(半導体本体の面積)の増大を抑え、トランジスタ数をライバルNVIDIAより1段少なく抑えた。前世代のハイエンドで比較すると、NVIDIA GPUのトランジスタ数はAMD GPUの1.5倍だ。AMDは、1世代のプロセス微細化で、今回トランジスタ数の増大を2.x倍にしたので、現在のペースがほぼ維持される。通常は、1プロセス世代微細化すると、同サイズのダイに2倍のトランジスタが格納できるからだ。この先もこのペースで行くと、32nm世代で30億トランジスタ近く、28nm世代で40億トランジスタ以上を集積するようになるだろう。
アーキテクチャの方向性が変わらなければ、演算パフォーマンスも比例して増えて行くことになる。もちろん、メモリの制約を考慮しない場合だが。計算上は、ワンチップ10TFLOPSも4~5年後に迫っていることになる。
TSMCプロセスロードマップ |
●空母を新技術の発表の場に選んだ理由
AMDは、この新GPUテクノロジとAMD VISIONなどのお披露目の場に、退役して博物館として使われている米海軍空母ホーネットを選んだ。その理由は?
・空母のフライトデッキから飛び立つように新技術を投入するから
・ホーネットが11のクリティカルなミッションをクリアしたように、AMDの新GPU技術の発表がクリティカルだから
・新しいデスクトップやノートPCのテクノロジが世界に離陸するから
・NVIDIAのGPUが空母のように巨大だから
・ホーネットに打たれているリベットの数(約89万)より新GPUのトランジスタ数の方が多いから
AMDのRick Bergman(リック・バーグマン)氏(Senior Vice President and GM, Products Group, AMD)とゲストスピーカは、こうした理由付けの憶測をジョークを交えて紹介。その上で、現役時のホーネットが、信じられないほどのエンジニアリング革新や技術の優位性を象徴していたことが背景にあると説明。技術そのものだけでなく、その技術がもたらす新しい経験こそが重要だと語った。
じつは、空母ホーネットは日本にとって因縁が深い。第二次大戦中に太平洋艦隊に所属していたため、日本海軍に対する攻撃の主力として活躍した。最後の大規模海戦だったレイテ沖海戦や、戦艦大和撃沈の主戦力だった。会場である空母内やデッキには、大戦時の雷撃機アヴェンジャー(ステルスではない方)からF-14トムキャットまでの機体が展示されていた。ホーネットは、アポロ11号の回収などにも使われた。
AMDのイベントは、空母の飛行甲板(フライトデッキ)の下にあるハンガーデッキの大半を借り切って行なわれた。興味深いのは、こうした一風変わった会場選択や演出は、本来、旧ATI Technologiesが得意としていた手法だったことだ。このあたり、AMD的ではなく、ATI的なカルチャーが健在で、AMDがATI化しているように見える。
会場となった米海軍空母ホーネット | ハンガーデッキの様子 | F-4 Phantom II |
F8U-1 CRUSADER | F-14 Tomcat | FJ-2 FURY |