イベントレポート

【NVIDIA Manufacturing Day 2013レポート】(後編)
自動車業界でのGPGPUの普及が急速に進む

（2013/1/25 12:25）

会期:1月17日
会場:アカデミーヒルズタワーホール

　1月17日、エヌビディアジャパン(以下NVIDIA)が主催する「NVIDIA Manufacturing Day 2013」が東京六本木のアカデミーヒルズタワーホールで開催された。ここでは、前編に続いて、午後に行なわれた講演の内容を紹介する。

製造業へのGPU導入は本格的なステージに突入

日本HP株式会社インダストリスタンダードサーバー&ネットワーク製品企画部部長中井大士氏

　午後の部は、日本ヒューレット・パッカード株式会社(日本HP)インダストリスタンダードサーバー&ネットワーク製品企画部部長中井大士氏による講演から始まった。演題は「HP GPU solutions open the door for high-productivity engineering IT system」である。

　中井氏はまず、製造業におけるGPU需要の大きさについて述べた。IDCの調査によれば、エンジニアリングシステム市場は、HPCセグメントの16%を占めており、年平均成長率も10%と他の市場に比べて高いという。品質の向上やコスト低減など、現状にはさまざまな要求があるが、それに応えるためにはさらなる計算能力が求められる。

　そこでHPでは、「インフラの提供」、「ツールの提供」、「人とプロセスの支援」という3つのアプローチでエンジニアリングシステムを支援していく。HPは導入を容易にするために、アプリケーションやシミュレーション規模に応じてリファレンスアーキテクチャを提案しており、さまざまな企業に導入されているという。HPが手がけた導入事例の1つに、フランスのAirbusがある。Airbusは、敷地内にコンテナ型の高効率CAEクラスタを導入することで、消費電力を従来に比べて40%削減することに成功したのだ。

　日本HPは、2013年はCAEアプリケーションはもちろん、CAE以外でもGPUの活用が拡大すると予測しているが、実際の製造業への導入実績も、2011年は前年の実に13倍にもTesla Mシリーズの出荷数が増加し、2012年も2011年に近い水準であり、急速に製造業への普及が進んでいることを明らかにした。

　GPUの普及ともにその使われ方も変化している。2010年はサーバーやワークステーションでの利用が始まり、2011年には各種商用アプリのCUDA対応が進行、Maximusによるデザインとシミュレーションの統合が実現された。2012年には、サーバーではマルチGPUやクラスタ構成での導入が始まり、ワークステーションでは活用領域が拡大したという。まとめると、スモールスタートからクラスタ導入へ、1GPU/1サーバーからマルチGPU搭載へ、M2050やM2090からK20/K10へという傾向になっており、試験的な導入から本格的な導入へとステージが進んだことがわかる。

　日本HPでは、いくつかのTeslaソリューションを提供しており、「HP Z820 Workstation」では最大2GPUを搭載可能で、「HP ProLiant SL250s Gen8」では最大3GPU、「HP ProLiant SL270s Gen8」では最大8GPUを搭載可能だ。導入事例もいくつか紹介された。例えば、ある企業では、電磁場解析のコードをCUDAに移植し、既存のCPUクラスタに外付けGPUを拡張することで、10倍近い性能向上を実現したという。また、Abaqusを利用する本格的なGPU解析プラットフォームの導入事例では、最初にベンチマークを実行したところ、1.3～1.5倍の高速化が可能であり、ライセンス形態からも費用対効果が見込めるとしてマルチGPU構成での導入を決定したという。

　また、ブレードワークステーションも急成長しており、今後は、リモートワークステーションソリューションの拡充が求められるとのことだ。中井氏は、従来のVDI(仮想デスクトップインフラストラクチャ)では、グラフィックス性能が不足するので、パワーユーザー向けにはグラフィックスアクセラレーションVDIが求められるが、そうしたグラフィックス仮想化ソリューションが登場予定であり、今後もHPは、製造業で拡大するGPUの活用を支援し、エンジニアリングシステムに必要なインフラを総合的に提供していくと述べた。

製造業におけるGPU需要について。IDCの調査によれば、エンジニアリングシステム市場は、HPCセグメントの16%を占めており、年平均成長率(CAGR)も10%と高い

エンジニアリングについて実現したい項目のヒアリング結果。「より低コストな製品の開発」や「製品開発スケジュールサイクルの短縮」などが上位に来ている

品質の向上やコストの低減など、現状にはさまざまな要求があり、それに応えるためにさらなる計算能力が求められる

特に検討が進められている重要なトピック。赤字で示されているのが、GPUの活用が期待されている分野だ

HPでは、「インフラの提供」、「ツールの提供」、「人とプロセスの支援」という3つのアプローチで、エンジニアリングシステムを支援している

HPのリファレンスアーキテクチャの例。ANSYS Mechanical DMPをターゲットとしたシステムで、シミュレーション規模によって、「ProLiant DL380p」、「SL250s」、「HP Z820 Workstation」の3種類のシステムが提案されている

HPが手がけた導入事例。フランスのAirbusは、コンテナ型の高効率CAEクラスタを導入することで、消費電力を従来に比べて40%削減することに成功した

HPが予測する2012～2013年の技術トレンド。注目したいのは、アクセラレータの項目であり、CAEアプリケーションはもちろん、CAE以外でもGPUの活用が拡大すると予測している

HPの製造業向けGPU導入実績。2011年は前年の実に13倍にもTesla Mシリーズの出荷数が増加し、2012年も2011年に近い水準であったとのこと

製造業におけるGPU活用の変遷。2010年はサーバーやワークステーションでの利用が始まり、2011年には各種商用アプリのCUDA化が進行、Maximusによるデザインとシミュレーションの統合が実現された。2012年には、サーバーではマルチGPUやクラスタ構成での導入が始まり、ワークステーションでは活用領域が拡大した

GPU導入傾向のまとめ。スモールスタートからクラスタ導入へ、1GPU/1サーバーからマルチGPU搭載へ、M2050やM2090からK20/K10へという傾向がある

日本HPのTeslaソリューション。HP Z820 Workstationでは最大2GPUを搭載可能で、HP ProLiant SL250s Gen8では最大3GPU、HP ProLiant SL270s Gen8では最大8GPUを搭載可能

CAEアプリケーションのベンチマーク結果。GPUを活用することで、LS-DYNAやANSYS Mechanical、Abacus/Standardのパフォーマンスは1.2倍から2倍に向上している

導入事例の1つ。電磁場解析のコードをCUDAに移植し、既存のCPUクラスタに外付けGPUを拡張することで、10倍近い性能向上を実現した

こちらは、各種GPUアプリケーションのテスト環境としての導入事例。CPUノードの一部にGPUを搭載し、テストを行なったところ、一部のアプリケーションで性能3倍以上という結果が出て、そのまま商用環境として利用。現在システム拡張を計画中とのこと

Abaqusを利用する本格的なGPU解析プラットフォームの導入事例。最初にベンチマークを実行したところ、1.3～1.5倍の高速化が可能であり、ライセンス形態からも費用対効果が見込めるとしてマルチGPU構成での導入を決定した

ベンチマーク結果。2コアCPU+GPUでは、4コアCPUよりも速く、必要なトークンも7と少ない

株式会社クリートによるリアルタイムレンダリングの導入事例。Maximusの採用により、リアルタイムでの3D CGレンダリングを実現。コミュニケーションの効率化にも貢献した

液晶一体型オールインワンワークステーション「HP Z1 Workstation」にもGPUが搭載されている

HP Z1 Workstationの内部。工具を使わずに内部へのアクセスが可能

HP Z1 Workstationの活用例。省スペース性を活かし、工場端末や店頭端末としての利用にも向く

日本HPのブレードワークステーションの販売台数推移。2010年から2011年にかけて急成長し、2012年も前年から26%成長している。CAD/PrePost用途で販売台数が増加し、リモート化の需要も増している

リモートワークステーションソリューションの拡充。従来のVDI(仮想デスクトップインフラストラクチャ)では、グラフィックス性能が不足するので、パワーユーザー向けにはグラフィックスアクセラレーションVDIが求められる

パワーユーザー向けVDIを実現するグラフィックス仮想化ソリューション。今後はハイエンドグラフィックスのサポートが予定されている

講演のまとめ。HPは今後も製造業で拡大するGPUの活用を支援し、エンジニアリングシステムに必要なインフラを総合的に提供していく

国内第3位の性能を誇るTSUBAME2.0を無償で産業利用できる

東京工業大学共同利用推進室副室長の佐々木淳氏

　続いて、東京工業大学共同利用推進室副室長の佐々木淳氏が「東京工業大学TSUBAME2.0産業利用について」と題する講演を行なった。

　TSUBAME2.0は、理論性能2.4PFLOPS、Linpack性能1.19PFLOPSを誇るスーパーコンピュータで、大学が保有するスーパーコンピュータとしては、現在でも国内最速である。最新のTOP500ランキングでは世界17位、国内では3位となるシステムであり、Intel製CPUとNVIDIA製GPUを採用し、コンシューマ製品だけで構築されていることも特徴である。TSUBAME2.0の構築には、日本HPのブレードサーバー製品が使われており、TSUBAME2.0をダウンサイジングしたシステムは、いろいろなところで使われているとのことだ。

　TSUBAME2.0は、1,442ノード、4,264GPUという巨大なクラスタシステムであり、その演算能力の9割近くがGPUによるものである。講演ではあまり触れられなかったが、TSUBAME2.5へのアップグレードを計画中であり、3.0の構想もあるようだ。

　NVIDIAは、特にCUDAに関する技術が優れた機関をThe CUDA Center of Excellence(CCOE)として認定しているが、現時点でCCOEの認定を受けた機関はまだ世界中で21機関しかない。東京工業大学学術国際情報センター(GSIC)は、日本で唯一のCCOEであり、同大学の青木尊之教授は、世界で9人しかないCUDAフェローの1人であるという。

　この講演のテーマが、TSUBAME2.0の産業利用である。TSUBAMEは、東京工業大学が所有するスーパーコンピュータであるが、文部科学省先端研究施設共用促進事業の対象となっており、産業利用が可能なのだ。

　利用料金は成果公開の場合1口10万円、成果非公開の場合は1口40万円だが、無償で利用できるトライアルコースも設定されている。1口は3,000TSUBAMEポイントで、1TSUBAMEポイントで1つの計算ノードを1時間利用できる。産業利用の実績も豊富であり、これまでに無償のトライアルユースでは71件の課題が採択されており、有償では延べ43件の課題が採択されているとのことだ。トライアルユースの場合、ハードウェアの利用料金は無償であっても、スーパーコンピュータで動作する商用アプリのライセンスが非常に高価なことがネックであったが、平成24年度から商用アプリバンドル型トライアルユースが新設され、特定の商用アプリケーションの利用権も無償で提供されるようになった。平成24年度は3次元電磁界解析ソフト「CST STUDIO SUITE」がバンドルされ、無償で利用できるという。

　TSUBAMEの産業利用の事例として、TOTO株式会社による衛生陶器のシミュレーションと、株式会社構造計画研究所による東海・東南海・南海3連動地震における大規模波動伝搬シミュレーション、および東日本大震災におけるラック内荷物の落下シミュレーションの結果が紹介された。衛生陶器のシミュレーションでは、自社クラスタでの解析の1/3のサイズの格子で解析を行なうことができ、より細かな泡の発生なども再現できるようになった。

　このように、規模や精度、時間といった制約から解放されることが、スーパーコンピュータを使う理由であり、今後もスーパーコンピュータに対する性能の要求は高くなることを示唆した。

TSUBAME2.0の概要。理論性能2.4PFLOPS、Linpack性能1.19PFLOPSで、大学が保有するスーパーコンピュータとしては、現在でも国内最速である。最新のTOP500ランキングでは、世界17位であり、国内では3位となる。Intel製CPUとNVIDIA製GPUの混合アーキテクチャを採用し、コンシューマ製品だけで構築されていることも特徴。1,442ノード、4,264GPUという巨大なクラスタシステムである

TSUBAME2.0の構成。1つの計算ノードには2つのCPUと3つのGPUが搭載されており、30ノードが1つのラックに収められている。ラックは全部で58あり、合計1,442ノードとなる。演算能力の9割近くが、GPUによるものである

スーパーコンピュータの性能向上を示したグラフ。TSUBAMEは2.5へのアップグレードを計画中であり、3.0の構想もある

東京工業大学学術国際情報センター(GSIC)は、世界中で21機関しかないThe CUDA Center of Excellence(CCOE)の認定を日本で唯一受けた機関である。また、東京工業大学の青木尊之教授は、世界で9人しかないCUDAフェローの1人である

学術国際情報センターの研究会活動の1つに、GPUコンピューティング研究会があり、CUDA講習会やセミナー、国際ワークショップなどの活動を行なっている。同研究会は、東工大関係者だけでなく、民間企業や他大学・研究機関の方も参加可能であり、基本的に無料だ

TSUBAMEは、文部科学省先端研究施設共用促進事業の対象となっており、産業利用が可能だ

TSUBAME産業利用料金一覧。利用区分は「学術利用」、「産業利用」、「社会貢献利用」の3つに分けられており、民間企業は産業利用の対象となる。利用料金は成果公開の場合1口10万円、成果非公開の場合は1口40万円だが、無償で利用できるトライアルコースも設定されている。1口は3,000TSUBAMEポイントで、1TSUBAMEポイントで1つの計算ノードを1時間利用できる

TSUBAMEの産業利用の実績。無償のトライアルユースでは、これまでに71件の課題が採択されており、有償では延べ43件の課題が採択されている

産業利用トライアルユースの課題は、戦略分野利用推進、新規利用拡大、商用アプリバンドル型トライアルユースの3つに分けられる、商用アプリバンドル型トライアルユースは、平成24年度から新設されたもので、特定の商用アプリケーションの利用権も無償で提供される

商用アプリバンドル型トライアルユースについての解説。これまでは、イノベーターやアーリーアダプターをターゲットとしていたが、商用アプリバンドル型トライアルユースはより数の多い、アーリーマジョリティをターゲットにしている。平成24年度は3次元電磁界解析ソフト「CST STUDIO SUITE」がバンドルされ、無償で利用できる

平成24年度トライアルユースの採択課題。全部で12の課題が採択されており、その内訳は、創薬が1、ナノシムが3、新規拡大が2、アプリバンドルが6である

TSUBAMEの産業利用トライアルユースに提供する計算資源の量。東工大はTSUBAMEの有する計算資源の30%を学外利用に提供しており、その1/3(計算資源の10%)が共用促進事業トライアルユースに提供されている

TSUBAME産業利用公募スケジュール。年2回の定期公募のほかに、平成25年4月以降は、随時受付も行なわれる

TOTO株式会社の利用事例。課題区分はトライアルユースで、解析には自社開発のプログラムを利用。従来の1/3という精細な格子により、精度の高いシミュレーションを実現することが目的。約1.5億格子の解析において、100GPUで80倍以上の速度向上、150GPUで100倍の速度向上を達成できた

TOTO株式会社が行なったの衛生陶器シミュレーションの結果比較。左がTSUBAMEでの解析結果、右が自社クラスタでの解析結果

株式会社構造計画研究所の利用事例。こちらも課題区分はトライアルユースで、解析には自社開発のプログラムを利用。使用目的は、連動地震による広範囲な被害予測であり、120億格子で232秒の解析において、TSUBAME270ノードを利用して4時間で完了した

規模や精度、時間といった制約から解放されることが、スーパーコンピュータを使う理由である

スーパーコンピュータ産業利用の中でのTSUBAMEの立ち位置。共用促進事業は、いわゆる工学的領域をカバーする

【動画】動画で見ると、左のTSUBAMEでの解析結果の方が、泡の出方が細かいことが分かる

【動画】構造計画研究所が行なった東海・東南海・南海3連動地震における大規模波動伝搬シミュレーションの結果

【動画】構造計画研究所が行なった東日本大震災におけるラック内荷物の落下シミュレーションの結果

【動画】TSUBAMEの全ノードを使うことで、都心部の10km四方の気流を1mの解像度でシミュレーションすることに成功した

従来の有限要素法とは違ったアプローチで解析を行なう粒子法

左がプロメテック・ソフトウェア株式会社執行役員COO 川上浩氏、右がプロメテック・ソフトウェア株式会社製品開発部北岡伸也氏

　次に、プロメテック・ソフトウェア株式会社執行役員COO 川上浩氏とプロメテック・ソフトウェア株式会社製品開発部北岡伸也氏が、「粒子法ソフトウェア『Particleworks』とGPUコンピューティングから始まるシミュレーション新時代」と題して、講演を行なった。

　まず、川上氏が会社概要と粒子法について解説した。粒子法は、プロメテック・ソフトウェア(以下プロメテック)の共同創業者である東京大学の越塚誠一教授が考案したシミュレーション手法であり、従来の差分法や有限要素法とは異なり、計算に格子を用いないことが特徴だ。プロメテックは、古くからGPUコンピューティングに取り組んでおり、NVIDIA CEOのジェン・スン・フアン氏やNVIDIAフェローのデビッド・B・カーク氏も来日してミーティングを行なうなど、NVIDIAとは強い繋がりがあるという。

　粒子法は、流体の大きな変形にも対応でき、メッシュ生成が不要なことが粒子法の利点であり、エンジンクランク室内のオイル潤滑解析や自動車水はね解析、ギアボックスオイル解析などに向いているとのことだ。

　GPUコンピューティングへの最適化も進んでおり、CPUコア数を8から72まで増やしても、性能は4.7倍にしかならないが、Tesla C2070を1つ追加するだけで、性能は6.2倍に向上する。また、マルチGPUにも対応しており、Tesla C2070を2枚追加したシステムでは、粒子数100万といった大規模なモデルの解析も可能とのことだ。

プロメテック・ソフトウェアの会社概要。2004年に設立されたベンチャー企業であり、粒子法ソフトウェアを開発している

プロメテック・ソフトウェアとNVIDIAは以前から強い繋がりがあり、共同でGPUの新しい使い方を提案してきた

粒子法は、東京大学の越塚誠一教授が考案したシミュレーション手法であり、従来の差分法や有限要素法とは異なり、計算に格子を用いないことが特徴だ。なお、越塚教授は、プロメテック・ソフトウェアの共同創業者であり、現在も取締役を務めている

流体の大きな変形にも対応でき、メッシュ生成が不要なことが粒子法の利点であり、エンジンクランク室内のオイル潤滑解析や自動車水はね解析、ギアボックスオイル解析などに向いている

GPUコンピューティングの実力の計測結果。CPUコア数を8から72まで増やしても、性能は4.7倍にしかならないが、Tesla C2070を1つ追加するだけで、性能は6.2倍に向上する

GPUによるParticleworksの高速化事例。Tesla C2070を1枚追加するだけで、混練解析や撹拌解析、ギアボックスオイル解析のパフォーマンスが6.6～7.9倍にもなる

マルチGPU構成の検証結果。Tesla C2070を1枚差しの環境と2枚差しの環境で比較したところ、2枚差しの方が性能が高くなっている。また、粒子数を30万個から100万個に増やすと、6GBメモリ搭載のTesla C2070の1枚差しでは、メモリ不足となり、シミュレーションを行なえなかったが、2枚差しでは問題なくシミュレーションが完了した

Keplerの性能を発揮するにはKeplerに合わせた最適化が必要

　次に北岡氏が、より詳細なパフォーマンス比較やGPUコンピューティングのKepler最適化について解説を行なった。Particleworksでは、前世代のTesla C2075に比べて、最新のTesla K20cでは平均1.47倍の性能向上が得られていることを示したが、それだけの性能向上を実現するには、工夫が必要だという。

　粒子法による解析で、パフォーマンスのボトルネックとなるのは、浮動小数点演算性能と、ランダムメモリアクセス性能である。Tesla C2075からTesla K20cの比較では、実測で倍精度演算性能は2.05倍に、メモリバンド幅は1.36倍に向上している。粒子法では、疎行列(ゼロの要素が多い行列)とベクトルとの乗算が頻出するため、その演算をGPU化することで、大きな性能向上が見込める。Fermi対応バージョンでは、ランダムメモリアクセスにテクスチャメモリを利用し、行列の1行を1つのwarp(CUDAコアをまとめた実行の単位)で実行することで演算を高速化しているという。

　しかし、FremiとKeplerでは、CUDAコアの構成が異なるため、Fermi用に最適化したコードをそのまま実行しても、大きな性能向上は見込めないとのことだ。Fermi用コードをそのまま実行した場合の性能向上率は1.23倍であり、メモリバンド幅の増加率よりも低い。

　そこで、Kepler用コードでは、2つの工夫を行なったという。1つは、テクスチャメモリの明示的な利用をやめ、リードオンリーキャッシュメモリを活用するようにしたことで、もう1つが、新たに用意された命令であるWarp Shuffle Operationを利用するようにしたことである。Warp Shuffle Operationは、warp内でデータを交換する機能で、シェアードメモリが不要なため、数%の高速化が得られるという。

　こうしてKepler用に最適化したコードで再び実験したところ、Fermi用コードをそのまま使った場合、性能は1.23倍にしか向上しなかったものが、Kepler用に最適化したコードでは1.48倍に向上したという。

　つまり、Keplerの性能を活かすには、Keplerのアーキテクチャに合わせたコーディングをすることが必要なのだ。北山氏は、Kepler最適化のポイントとして、warpを単位としてSIMD的に処理を記述すること、ブロック数とスレッド数を適切に選択すること、Warp Shuffle命令を利用すること、テクスチャメモリを使わずにconst * _restrictを利用することを挙げた。

前世代のTesla C2075と最新のTesla K20cのParticleworksのパフォーマンス比較。C2075に比べて、K20cのパフォーマンスは平均1.47倍に向上している

解析事例1。樹脂の撹拌解析。粒子数は約80万個

解析事例2。バレル研磨解析。流体と粉体の連成問題で、容器を回転させたときの流体と粉体の挙動を見ることが目的

解析事例のシュミレーション結果のまとめ。どのケースでもK20cではC2075に比べて一定の速度向上が見られ、その平均は1.47倍となった

Tesla C2075とTesla K20cのスペック比較。実測で倍精度演算性能は2.05倍に、メモリバンド幅は1.36倍に向上している

ParticleworksはMPS(粒子法)を基礎としており、圧力や粘性、乱流、表面張力、熱伝導、揮発、粉体との練成などのシミュレーションが可能で、これらの機能はすでにGPUコンピューティングに対応済みだ

MPSの動作概要。まず粒子に重力などの外力を加えて、速度や位置といった物性値を更新する。次に、非圧縮という条件を満たすために圧力方程式を解いて、粒子の位置と速度を補正する。その繰り返しで解析を行なう。近傍粒子間のインタラクションですべての物性値が計算され、パフォーマンスのボトルネックとなるのは、浮動小数点演算性能と、ランダムメモリアクセス性能である

最適化のポイント。MPSでは、疎行列とベクトルの乗算が頻出する

Fermi対応バージョンの疎行列とベクトルの乗算ルーチンのソースコード。ランダムメモリアクセスにテクスチャメモリを利用し、行列の1行を1つのwarpで実行することで演算を高速化している

GPUの基本構造。GPUは階層的に構成されており、高い実効性能を得るにはCUDAコアをまとめたwarpが単位となるように処理を記述する必要がある

先ほどのコードをGeForce GTX 480上で実行したときの結果。ベクトルの要素数は10万で、warp単位で実行すると、スレッド(CUDAコア)単位で実行したときに比べて、10倍近くも高速化されている

カーネル起動パラメータのブロック数とスレッド数が重要になる

ブロック数とスレッド数の選び方のガイドライン。FermiとKeplerではCUDAコアの構成が違うため、推奨値も変わってくる

先ほどのFermi用コードをそのままTesal K20c(Kepler)で実行したときの結果。コードを修正せずにそのまま実行すると、性能は1.23倍にしかならず、メモリバンド幅の増加率よりも低い

こちらはKepler用に最適化を施したコード。テクスチャメモリの明示的な利用をやめたことと、Warp Shuffle Operationを利用するようにしたことがポイント

Warp Shuffle Operationは、warp内でデータを交換する機能で、シェアードメモリが不要になり、数%の高速化が得られる

メモリの階層構造。Read Only Data Cacheを活用することがポイント

Kepler用に最適化したコードでの実験結果。Fermi用コードをそのまま使った場合、性能は1.23倍にしか向上しなかったが、Kepler用に最適化したコードでは1.48倍に向上した

最適化に関するまとめ。Particleworksでは、FermiからKeplerに変えることで平均1.47倍の性能向上が見られた。ただし、Fermi用に最適化したコードそのままではあまり性能は向上しない。warpを単位としてSIMD的に処理を記述すること、ブロック数とスレッド数を適切に選択すること、Warp Shuffle命令を利用すること、テクスチャの代わりに、const * _restrictを利用することが、Kepler最適化のポイントである

ParticleworksにおけるGPUコンピューティングの導入実績。ワークステーションにおいては、自動車、自動車部品・機械部品、化学、鉄鋼と多くの分野で実務使用されている。また、それ以外の分野でも試験運用を行なっているところが多い

CAEソフトはユーザーとともに育てるものであり、ユーザーコミュニティの創出が重要である。そのために、プロメテックでは各種イベント/セミナーなどを主催している

イベントでのユーザー事例紹介で講演を行なった企業一覧。マツダやトヨタなど、自動車業界で広く使われていることがわかる

まとめ。粒子法は、従来CAEではアプローチできなかった問題を取り扱える新しいソリューションであり、ユーザーに着実に浸透してきている。また、GPUパワーの向上とともに、その実用性は年々高まってきている

【動画】解析事例1のシミュレーション結果

【動画】解析事例2のシミュレーション結果

SpMVをGPU化することで、解析速度が33%向上

株式会社アライドエンジニアリング社長秋葉博氏

　続いて、アライドエンジニアリング社長秋葉博氏が、「ADVENTUREClusterのGPU対応」と題して講演を行なった。

　ADVENTURECluster(以下ADVC)は、同社が開発・販売を行なっているCAEソフトであり、自動車や自動車部品、エレクトロニクスなど広い分野で利用されている。現在、アルゴリズムを改良中で、GPU化をNVIDIAの協力のもと継続中であるとした。

　ADVCは、同社が新しく開発した陰解法反復法ソルバ(CGCG法)を採用していることが特徴だが、その計算時間のプロファイルを調べたところ、CG法が全体の70%を占めており、中でもSpMV(疎行列とベクトルの乗算)が30%と比較的大きな割合を占めていることが分かった。いわゆるホットスポットであり、SpMVをGPU化することで、大きく計算時間が短縮されることが期待できる。GPU化にあたっては、ロードバランスとメモリアクセスが重要になるため、行列データの格納方式を従来のBCSRからGPUに適したBELLに変更したという。

　同社がチューニングを行なったSpMVは、CPUで演算する場合の約5.9倍の性能を発揮したが、NVIDIAがチューニングを行なったSpMVは、CPUで演算する場合の約6.6倍の性能を発揮した。SpMVをGPU化することで解析速度は約33%向上したが、原理的にはCG法全体をGPU化することも可能であり、その場合はパフォーマンスが約3倍に向上する計算だ。

ADVENTURECluster(ADVC)の最新の話題。自動車、自動車部品、エレクトロニクスなど広い分野で導入が進んでおり、継続して機能強化やパフォーマンス向上をはかっている。現在アルゴリズムを改良中で、GPUポーティングをNVIDIAの協力のもと継続中である

陰解法反復法ソルバ(CGCG法)のポイント。領域分割法に基づく陰解法ソルバであり、領域分割は並列化と粗い運動の評価に用いる

ADVCのGPU対応について。まず、計算時間のプロファイルを調べたところ、CG法が全体の70%を占めており、中でもSpMV(疎行列とベクトルの乗算)が30%と比較的大きな割合を占めていた

約230万行×230万列の行列をブロック化して演算を行なう

評価環境とデータ。CPUはCore i7-3820、GPUはTesla K20c。評価データの行列サイズは約230万×230万で、要素数はおよそ5.29兆となる。非ゼロ要素数は約1.5億である

CPUは4コアだが、GPUは2,496コアにもなる。並列化のポイントは、ロードバランスとメモリアクセスと、格納方式のチューニングである。格納方式は、従来ADVCが使っていたBCSRからGPUに向いたBELLに変更した

BELL方式の解説。約700×700の行列にブロック化したのち、行を要素数に圧縮し、ソートを行なうことで、ロードバランスとメモリアクセスを同時に改善できる

SpMVの性能比較。cuSPARSEは、CUDA標準ライブラリに含まれているもので、アライドエンジニアリングがチューニングしたのがアライドSpMV、さらにNVIDIAが最適化を行なったものがNVIDIA SpMVである

GPU化によるプロファイルの変化。SpMVをGPU化することで、33%の速度向上が見られた。原理的にはCG法全体をGPU化することが可能で、それによって全体のパフォーマンスは約3倍になる

国内自動車メーカーの半数がすでにGPGPUを導入済み

スズキ株式会社デジタル技術部CAE推進課長の砂山良彦氏

　最後に、スズキ株式会社デジタル技術部CAE推進課長砂山良彦氏による特別講演「日本自動車工業会によるGPUコンピューティング調査の取り組み」が行なわれた。

　砂山氏は、一般社団法人日本自動車工業会電子情報委員会デジタルエンジニアリング部会スパコン先端技術調査タスクのメンバーでもあり、自社での取り組みと日本自動車工業会(自工会)によるGPGPU調査の結果について語った。

　砂山氏はまず、自工会の組織や体制について解説した。砂山氏が所属するスパコン先端技術タスクは、日本最速のスーパーコンピュータ「京」を活用したCAEの先端技術開発を計画中しており、将来は1つの仮想試作車をスパコン内で仮想走行させ、振動と安全性能を同時に評価できるようにしたいと述べ、先端技術活動研究においては、自工会と公的機関、アプリケーションベンダーの3者の連携が重要だとした。

　次に砂山氏は、自工会が2年間に渡って行なってきたGPGPU調査の背景について語った。2012年度のスーパーコンピュータ性能ランキングTOP10のうち2台がGPGPU、1台がXeon Phiのコプロセッサを採用しており、性能向上のためにはGPGPUの搭載が必須であるとした。今後は、自動車業界においてもGPGPU導入が必須になることが予想されるため、GPGPU導入にあたって、実務に即した解析モデルを用いて、CAEソフトにおける計算の高速化、コストパフォーマンスなどの実用性を調査することになったのだ。

　そこで、GPGPU導入状況に関するアンケートを自動車メーカー9社に行なったところ、2011年度はGPGPUを使用しているメーカーは1社、GPGPUを2～3年以内に導入する計画があるメーカーは2社に過ぎなかったが、2012年度は、GPGPUを使用しているメーカーが4社に増え、GPGPUを2～3年以内に導入する計画があるメーカーも4社に増えたという。つまり、自動車メーカーの約半数がすでにGPGPUを導入済みであり、残りの半数も2～3年以内にGPGPUを導入するということだ。

日本自動車工業会(自工会)は、トヨタ、日産、マツダなど自動車メーカー14社から構成されている

自工会の体制。常任委員会の1つに、電子情報委員会があり、その中にデジタルエンジニアリング部会がある

デジタルエンジニアリング部会の体制。部会のワーキンググループの1つに、次世代スパコン検証準備ワーキンググループがあり、その中にスパコン先端技術調査タスクが設けられている

京を活用したCAEの先端技術開発を計画中。現状では、衝突と振動を別のモデルを使って別々に計算しているが、将来は、1つの仮想試作車をスパコン内で仮想走行させ、振動と安全性能を同時に評価できるようになる

先端技術活動研究における連携。自工会と公的機関、アプリケーションベンダーの3者が連携して、技術を向上させていく

GPGPU調査の背景。2012年度のスーパーコンピュータ性能ランキングTOP10のうち2台がGPGPU、1台がXeon Phiのコプロセッサを採用しており、今後は自動車業界においてもGPGPU導入が必須である。そこで、GPGPU導入にあたって、実際の解析モデルを用いて、CAEソフトにおける計算の高速化、コストパフォーマンスなどの実用性の調査が必要である

計算能力の増強や運用コスト削減、省電力化・省スペース化への対応などが現場の課題として挙げられる。GPGPU導入状況に関するアンケートを自動車メーカー9社に行なったところ、2011年度はGPGPUを使用しているメーカーは1社、GPGPUを2～3年以内に導入する計画があるメーカーは2社に過ぎなかったが、2012年度は、GPGPUを使用しているメーカーが4社に増え、GPGPUを2～3年以内に導入する計画があるメーカーも4社に増えた

自工会がNVIDIAやベンダーに解析データ・解析条件を提供し、その計算結果や分析結果を提供してもらうという体制で活動している。活動内容は、NVIDIAの新アーキテクチャKeplerとCAEソフトのGPU機能強化版による計算高速化の検証である

GPGPU導入によって計算時間が短縮、トータル費用も削減される

　砂山氏は、車両開発を取り巻く環境が変化し、従来型の開発プロセスでは競争に勝つことができず、開発プロセスにおいてCAEが不可欠であると述べた。さらに、年々解析モデルが大規模化し、解析ジョブ件数も増加、適用範囲も拡大しているため、必要な計算量は著しく増大していることを指摘した。

　次に、スズキのCAEサーバの歴史や構造解析ジョブの件数の推移、解析モデルの要素数の推移、ランニングコストの推移が紹介された。CAE用コンピュータの計算能力は25年間で5万倍にも向上したという。1980年代半ばに導入した日立のスーパーコンピュータS-810のピーク性能は630MFLOPSであったが、NVIDIAのTesla K20Xは、カード1枚でその約2,000倍となる1.3TFLOPSの性能を実現しているのだ。

　GPGPU導入効果についてだが、構造解析ソフトAbaqusを利用して4種類の問題を解析したところ、GPGPU導入により、計算時間が大きく短縮されたという。ただし、問題によって高速化の度合いには差があり、自由度数が大きく、計算量が多い問題の方がより効果が大きいこともわかった。Nastranを利用した検証でも、傾向はほぼ同じであった。また、粒子法による流体解析ソフトParticleworksを用いた検証でも、GPGPU導入によって計算時間が80%以上も短縮されたという。

　また、GPGPUの導入は、計算時間を短縮できるだけでなく、トータルコストも削減できることを示した。GPGPUの導入により、ハードウェアコストは多少上乗せされるものの、CPUのみで同じ性能を実現するには追加のソフトウェアライセンス料金がかなりかかるため、ハードウェア、ソフトウェアのトータルコストは、GPGPUを導入した方が安くなるのだ。このあたりの話は、午前中にNVIDIAの担当者が何度も説明していたことにも通ずる。砂山氏は、市販CAEソフトにおけるGPGPU実効性能のさらなる向上に期待したいとし、講演を締めくくった。

車両開発を取り巻く環境の変化。従来型の開発プロセスでは競争には勝てないので、開発プロセスにおいてCAEは不可欠である

計算能力増強の必要性について。解析モデルが大規模化し、解析ジョブ件数も増加。さらに適用範囲も拡大しているため、必要な計算量は著しく増大している

スズキのCAEサーバの歴史。1980年代前半は内製ソフトによるスカラー計算が主流で、1980年代後半からベクトル計算が可能なスーパーコンピュータが導入された。2000年代はブレードサーバなどによる並列計算の時代である。CAE用コンピュータの計算能力は25年間で5万倍にも向上した。また、費用の割合も、昔はハードウェア経費の割合が高かったのに対し、現在はソフトウェア経費のほうが遙かに割合が高くなっている

HPCの今昔。1980年代半ばに導入した日立S-810のピーク性能は630MFLOPSで、主記憶は256MBだったが、NVIDIAのTesla K20Xは、カード1枚でその約2,000倍の1.3TFLOPSの性能を実現し、記憶容量も24倍になっている

スズキ株式会社の構造解析ジョブ件数の推移。年々ジョブ件数は増えており、特に2012年大きく増加している。2012年の月平均ジョブ数は2007年の約5倍である

スズキ株式会社の解析モデルの要素数・自由度数の推移。解析モデルは、この5～6年で約10倍に大規模化した

スズキのCAEサーバのランニングコストの推移。年間の光熱費(消費電力)の割合が増加し、10年で10倍以上になった

KeplerとSandy Bridgeの仕様比較。Kepler(K20X)の消費電力あたりの理論性能値はSandy Bridgeの約3倍

構造解析ソフトAbaqusを利用したテスト環境。テスト問題は4種類用意した

単気筒エンジンの解析結果。自由度数は420万。GPUを追加することで、性能が大きく向上している

こちらも単気筒エンジンの解析結果であるが、自由度数は70万と、より軽いモデルである。自由度数420万の場合に比べると、GPUによる性能向上の度合いが小さい

上記の2つのテスト結果をまとめたもの。黒のグラフが自由度数420万、赤のグラフが自由度数70万である

4気筒エンジンの解析結果。自由度数は220万。8コアCPUにGPUを1つ追加すると、ちょうど2倍に高速化された

四輪ミッションケースの解析結果。自由度数は250万。4コアCPUにGPUを1つ追加すると、計算時間が36%短縮された

流体解析ソフトParticleworksを利用したテスト環境。テストモデルは1つだが、乱流モデルありとなしの2パターンで検証した