後藤弘茂のWeekly海外ニュース

AMDの新GPUラインナップ「Radeon R9/R7」とオーディオ機能「TrueAudio」の正体

AMDの新GPUラインナップ

Radeon R9/R7シリーズ

 AMDは、いよいよ次世代GPUラインナップの正式リリースを始めた。まず登場するのは、ミッドレンジから下の製品群で、Radeon R9 270X/280Xと、Radeon HD R7 240/250/260Xとなる。ハイエンド製品としてアナウンスされたRadeon R9 290/290Xは、今回は、まだ詳細が正式発表されていない。

 今回のラインナップの位置付けはRadeon R9 280Xが2,048コア(FMADユニット)で4.1TFLOPS、メモリインターフェイスはGDDR5 x364と、従来のAMDのシングルGPUハイエンド製品(Tahiti/Malta系)相当。これを299ドルのミッドレンジ価格帯に落とし込む。新たなハイエンドとしてRadeon R9 290/290X(Hawaii)が登場するため、位置付けを下へとスライドさせた。

Radeon R9 280X
スペック概要

 Radeon R9 270Xは1,280コアで2.69TFLOPS、GDDR5 x256と、従来のハイエンドのすぐ下のクラス(Pitcairn)のGPU。このチップが、今回のラインナップでは199ドルと、ゲーム向けのもっともボリュームが出る価格ラインに来る。

Radeon R9 270X
スペック概要
Radeon R9 270Xは価格性能比が3倍以上に

 メインストリーム向けのRadeon R7 260Xは896コアで1.97TFLOPS、GDDR5 x128。139ドルで、このチップは新機能であるTrueAudioをサポートすることから新設計のダイ(半導体本体)と見られる。

Radeon R9 260X
スペック概要

 100ドル以下のバリューレンジのRadeon R7 250/240は、384コア(250)/320コア(240)で、メモリインターフェイスはx128。

Radeon R7 250X
スペック概要
Radeon R7 240Xスペック概要

トランジスタコストが下がりにくい20nm以降のプロセス

 AMDの今世代のGPUシリーズ「Volcanic Islands」では、前回の大きな変更だったSouthern Islands(Radeon HD 7xxx)ファミリの時とは大きく異なる点がある。それは、プロセステクノロジのノード変更が伴わないことだ。Northern Islands(Radeon HD 6xxx)からSouthern Islandsへの変化では、GPUダイの大半が40nmプロセスから28nmプロセスへと移行した。しかし、今回はまだAMDの製品群は28nmプロセスに留まっている。

 その理由は複合しており、単純に20nmがまだリスク生産段階というだけでなく、20nmへ移行してもトランジスタ当たりのコストが急速に下がらないという事情がある。そのため、GPUに限らず、多くのチップが28nmプロセスを継続すると見られている。つまり、今回の場合、例えば、2014年前半まで製品刷新のタイミングをずらして、20nmプロセスに移行させることが経済的に利点を持っていない。

 プロセステクノロジの刷新が伴わないと、製品ラインの変化もある程度限定的になる。マスクコストも高騰しているため、旧アーキテクチャのダイ設計の流用またはマイナーチェンジが増える。そのため、今回のAMDのGPU世代交替では、どうしても新旧のアーキテクチャが入り交じったものになる。しかし、限定された範囲でも、AMDはミッドレンジ以下のGPUのアーキテクチャも発展させている。今回の重要なポイントの1つは、オーディオプロセッシング「AMD TrueAudio」の統合だ。

 AMDのCarl Wakeland氏(Fellow Design Engineer)は、PCのオーディオ機能の水準が低いために、PCゲームのオーディオは低水準に留まっていると指摘する。現状のオーディオエフェクトは、CPUでプロセッシングされるため、オーディオに使うことができるCPU占有率の割合が10%程度に制限されており、それが足かせになっているという。

PCゲーミングへのフォーカス
問題点

 AMDのアイデアは非常に単純明瞭で、これまでも何回も試みられて来たように、オーディオプロセッシングをCPUからハードウェアにオフロードすることで、リッチなオーディオ機能をPCで実現しようというものだ。ただし、従来のようなアドオンのソリューションではなく、GPUにオーディオプロセッシングを取りこむことで、追加のコストゼロで、広範囲な普及を目指そうとしている。

次世代のデジタルマルチポイントオーディオ
サウンド処理のリアルタイムアクセラレーション

Radeon R7 260XからTrueAudioテクノロジを搭載

 AMDのハードウェアオーディオプロセッサAMD TrueAudioは、今世代のGPUシリーズの一部から搭載がスタートする。今回発表されたGPUラインナップでは、新ダイと見られる「Radeon R7 260X」がTrueAudioを搭載している。ディスクリートGPUとしては、初めてプログラマブルオーディオハードウェアを搭載した製品となる。

TrueAudioはR9 290X/R9 290/R7 260Xで対応
概要

 AMD TrueAudioは、AMDを冠しているが、実際には、そのコアテクノロジの正体はTensilicaのオーディオDSPだ。Tensilicaの「HiFi EP」オーディオDSPサブシステムを、AMDの内部バスアーキテクチャに適合させたのがTrueAudioだ。

TrueAudioの特徴
アーキテクチャ
DSPの機能
ハードウェア機能

 シリコンバレーのチップスタートアップTensilicaは先鋭的なプロセッサIPベンダーとして知られていたが、今年(2013年)春にEDA(Electronic Design Automation)メーカー最大手のCadence Design Systemsに買収された。現在は、Tensilicaのプロセッサコアは、Cadenceのソリューションとして提供されている。AMDは、それをカスタマイズして自社のディスクリートGPUに取りこんだ。

 つまり、R7 260Xは、ダイの上に、GPUコアだけでなく、オーディオDSPコアも搭載している。オーディオ処理を、CPUコアでもGPUコアでもなく、専用DSPにオフロードするのがTrueAudioの発想だ。ハードウェアソリューションだが、フルプログラマブルになっている。

GPUコアでオーディオプロセッシングを行わなかった理由

 オーディオ処理をCPUからオフロードして、高品質かつ高機能なオーディオを実現する。それも、サウンドカードの追加コストなしで。そのために、AMDはTensilicaのオーディオ専用DSPを使った。

 しかし、AMDはすでに高パフォーマンスなGPUコアを持っている。なぜ、オーディオ処理をGPUのタスクの1つとしてソフトウェア実装しなかったのだろう。

 この点については、TrueAudioアーキテクチャについて説明したCarl Wakeland氏が、2011年のAMD Fusion Developer Summit(AFDS)で詳しく説明している。

GPUでのオーディオ処理が実現されなかった理由

 ここにはソフトウェアインフラの問題や、GPUリソースの競合の問題のほかに、重要な点として、GPUアーキテクチャがオーディオプロセッシングには必ずしもフィットしないことが挙げられている。

 PCグラフィックスは高解像度の画像処理に合わせるために、データ並列に特化したアーキテクチャになっている。GPUは多数の頂点やピクセルに対して効率的に同じ処理を行なうためのプロセッサだ。それに対して、オーディオプロセッシングの基本的なフローは、下のスライドのように多数の音源を変調してミキシングしてさらにフィルタをかけるツリー構造だ。2Dのデータ並列性の強いグラフィックスとは大きく異なる。

オーディオ信号処理のフロー
オーディオアルゴリズムをGPUコンピュートシェーダにマッピングする難しさ

 オーディオ処理では、フーリエ変換(FFT:Fast Fourier Transform)やConvolution Reverbsといった一部の処理は高度にデータ並列化が可能だが、それ以外の要素は難しい(スレッド並列は可能)。そのため、GPUコアはオーディオプロセッシングの多くの部分を効率的に実行するには向いていない。また、GPUコアだけでオーディオプロセッシングを行なうことができないという。オーディオプロセッシングには、そのために設計されたコアが最適ということを、AFDS 11の段階で、AMDは強く示唆していた。

続:オーディオアルゴリズムをGPUコンピュートシェーダにマッピングする難しさ

オーディオ処理に特化したTensilicaのVLIW DSP

 実際に、AMDのTrueAudioのベースになっているTensilicaのHiFi EP DSPを見ると、オーディオに特化した非常に特殊なDSPであることがわかる。下は、2011年の「Linley Tech Mobile Conference」でのTensilicaのスライドだ。基本のコンセプトは、C言語でプログラムできるオーディオ専用DSPで、独自ISA(Instruction Set Architecture)を持つ。オーディオ専用のロジックを幅広く備えるため、非常に低周波数&低消費電力での動作が可能だ。

HiFiオーディオのコンセプトアプローチ
HiFi 2 オーディオ/ボイスDSPのISA

 DSPコア自体はVLIW(Very Long Instruction Word)アーキテクチャだが、VLIWと言っても2命令スロット(64-bit命令のデュアルイシュー)まで。基本的には片方のスロットがベースのISAオペレーションやロード/ストアなど、もう片方のスロットが乗算やオーディオALUという構成になっている。GPUとは完全に異なるアーキテクチャだ。

HiFiオーディオDSPの命令フォーマット
ブロックダイヤグラム
HiFi EP概要
各種フォーマットに対応
Xbox Oneのオーディオプロセッサ

 ちなみに、同じAMD系のAPUでは、Microsoftの次世代ゲーム機「Xbox One」のAPUが、プログラマブルオーディオプロセッサを載せている。しかし、こちらは、Tensilica DSPとはアーキテクチャが異なっているように見える。下は今年(2013年)8月のチップカンファレンス「HotChips」で発表されたXbox Oneのオーディオプロセッサの概要だ。

 Xbox Oneのオーディオコアは、コントロールとスカラ演算とベクタ演算それぞれのDSPコアを用意したアーキテクチャになっている。ベクタDSPコアは128-bit幅で、演算幅は2x64-bitのTensilicaと同じだが、Xbox OneはSIMD(Single Instruction, Multiple Data)アーキテクチャとなっている。AMDが実装したTensilicaのIPとは異なるコア(TensilicaのVLIWコアは部分的にSIMD)だと見られる。Xbox Oneのオーディオコアは、ベクタを強化して、よりエフェクトに力を入れたプロセッサに見える。

フルカスタムASIC的なモデルから脱却しつつあるAMD

 もともとTensilicaのオーディオDSPは、PCというより、モバイルやコンシューマ市場をターゲットとしたものだ。そのため、電力消費が極めて低く、ダイ(半導体本体)エリアも食わないアーキテクチャとなっている。ミニマム構成ではコアの占有エリアは、0.202平方mmとなっている。実際には、PC市場向けのTrueAudioはDSPコアも3個で、キャッシュ量も多いが、それでもダイエリア的にはローコストなソリューションだろう。

低消費電力さが特徴

 興味深い点は、今回、オーディオ機能の統合で、AMDが自社でオーディオコアを開発せずに、CadenceのライブラリからTensilicaコアを買った点だ。開発リソースをセーブするためと言えばそれまでだが、すでに開発済みのIPコアを外部から買うという手法は、通常のSoC(システムオンチップ)的だ。こうした点は、AMDのチップ開発が、フルカスタムASIC的なPC型のモデルから、IPを買い集めるコンシューマSoC的なモデルへと変わりつつあることを象徴しているように見える。

 ただし、Tensilicaという選択がPCオーディオで正解だったかどうかは、まだ分からない。ハードルが高いのは独自API「AMD TrueAudio API」でアクセスする点で、ゲームエンジンなどアプリケーションからはミドルウェアを介してアクセスすることを想定している。

データフローと出力サポート
3Dオーディオ対応
ミドルウェアにより利用可能に

 どんなにいいハードウェアも、アプリケーション側が使ってくれなければ意味がない。そのためには、AMDはTrueAudio APIの普及を進めなければならなず、できるだけ早くAMDのGPU/APU全体にTrueAudioを行き渡らさせてインストールドベースを増やす必要がある。AMDが今回のTrueAudioでゲームを強調するのは、ディスクリートGPUからスタートしているという事情だけでなく、ゲームデベロッパならCPUリソースを食わないでサラウンドオーディオを実現できる点などに魅力を感じて飛びついてくれるのではという思惑もあるだろう。これまでのPCの歴史で、オーディオDSPの浸透はハードルが極めて高いことが明白となっている。AMDがTrueAudioを広く浸透させるためには、かなりの努力が必要となる。

(後藤 弘茂 (Hiroshige Goto)E-mail