イベントレポート

NVIDIAの深層学習推論アクセラレータがArmから提供。最新開発環境「TensorRT4」も

笠原一輝

2018年3月28日 03:53

　NVIDIAは、AI/ディープラーニング(深層学習)関連のテクノロジイベント「GTC 2018」を、米国カリフォルニア州サンノゼ市にあるサンノゼコンベンションセンターにおいて3月26日～29日の4日間にわたり開催している。

　2日目の3月27日には同社CEOのジェンスン・フアン氏による基調講演が行なわれ、昨年(2017年)のGTCで発表したオープンソースな深層学習推論用アクセラレータとなるDLA(Deep Learning Accelerator)が、ArmのProject Trilliumに採用されたことを明らかにした。

　Project TrilliumはArmが2018年2月に発表した、機械学習/深層学習向けのIP製品群＋ソフトウェア開発環境。これにより、Armの顧客はほかのProject Trillium(Arm、物体検出アクセラレータと機械学習プロセッサを発表参照)のIP製品群と一緒にDLAを自社製品に搭載可能になる。

　また、NVIDIAは同社の深層学習の推論向け開発環境となるTensorRTの最新版となる「TensorRT 4」を発表した。

オープンソースのDLAをArm Project Trilliumの一部として提供

　NVIDIAのDLAは、深層学習の推論に特化したアクセラレータ。自動運転向けに発表され、この四半期中にサンプル出荷が開始される予定のXavierに採用されている。

　アクセラレータの特徴は、特定の処理(画像認識や音声認識など)に関して低消費電力で推論を行なえることだ。動画の再生において、CPUやGPUに内蔵されている動画のアクセラレータの機能を使えば、低消費電力に再生できるのと同じような理屈だ。

　DLA(他社のDLAと区別するためにNVDLAと呼ばれることもあるが、本記事ではDLAとして扱う)はオープンソースとして、その仕様やソフトウェアAPIなどが公開されている。このため、競合他社も含めて仕様書をもとに自社製品に実装可能だが、それでもゼロから作る必要があるため、それなりの開発リソースを割く必要がある。

　そこでNVIDIAは、IPデザインをSoCベンダーに提供しているArmと提携し、DLAを機械学習/深層学習の演算ソリューションとなるArmのProject Trilliumの一部分として利用してもらうことを狙う。

　具体的には、ArmがDLAのIPをArmの顧客であるSoCベンダーなどに提供していく。これにより、SoCベンダーは開発費を抑えながらDLAの機能を自社製品に実装可能になる。

TensorRTをGoogleのTensorFlow 1.7へ統合

　NVIDIAは深層学習の推論向け開発環境となるTensorRTの最新版「TensorRT 4」も発表した。

　TensorRTとは、NVIDIA GPUによる深層学習の推論を最適化するもので、INT8、FP16で演算することが可能。クラウドデータセンターの処理の70%を占める画像認識や音声認識などの深層学習の推論を、GPUで効率よく処理することができる。

　今回発表された新バージョンでは、深層学習のフレームワークではもっとも人気があるTensorFlow 1.7にTensorRTが統合されており、TensorFlowをベースに深層学習の推論を利用したソフトウェアを開発しているエンジニアが、従来よりも容易にNVIDIAのGPUや前出のDLAに最適化できるようになる。なお、最適化後は性能が8倍に上がるという。

　また、NVIDIAは、Amazon、Facebook、Microsoftなどとも協力しており、FacebookのONNX、MicrosoftのWinML、さらにはCaffe2、Chainer、CNTK、MXMNet、Pytorchなど、ほかのフレームワークへの最適化も進めていくと明らかにした。

　このほか、SAP、MathWorksなどのソフトウェアベンダーもTensorRTを利用して、NVIDIAのGPU/DLAによる深層学習の推論の最適化を進めていくとしている。