ニュース

32GBのHBM2を搭載したディープラーニング専用ASIC「Lake Crest」は2017年末に登場

~IntelがAI関連説明会を開催、ソフト最適化でCPUでも高速学習が可能

 インテル株式会社は9日、都内にて同社の人工知能(AI)への取り組みに関する記者説明会を開催した。

 説明会にはインテル株式会社 データセンター・グループ・セールス ディレクターの福原由紀氏、同社 データセンター・グループ・セールス アジアパシフィック・ジャパン担当 HPCディレクターの根岸史季氏が登壇。11月17日(米国時間)に、米サンフランシスコにてIntelが開催したAIに関するイベント「AI Day」で発表された内容などについての解説を行なった。

インテル株式会社 データセンター・グループ・セールス ディレクター 福原由紀氏
同社 データセンター・グループ・セールス アジアパシフィック・ジャパン担当 HPCディレクター 根岸史季氏

 福原氏は、「Intelでは、産業革命と同様人々の生活に大きく影響を与えるものとして、AIを世界により早く着実に浸透させていくために取り組んでいる」と述べ、発表された通り、同社ではSaffron Technology、Movidius、Nervana SystemsなどのAI関連企業の買収、Googleとの協業を行なっているとした。

 具体的な製品としては、AI実装のための共通アーキテクチャとして「Nervana」ポートフォリオを展開。汎用性の高い「Xeonプロセッサ」、機械学習(マシンラーニング)分野でより高い性能を発揮できる「Xeon Phi」、プログラマブルな低遅延の推論処理を可能とする「Xeon+FPGA(Altera Arria 10)」、ニューラルネットワーク(NN)の処理に特化しクラス最高性能を謳う「Xeon+Lake Crest」を用意する。

 また、Nervana AI Academyと題して、AIに関するデベロッパゾーン、学生向けの「Student Developerプログラム」など、啓発と啓蒙(Educate & Solve)の提供、エコシステムの構築や標準化についての取り組みを推進するなど、AIの開発サイクルを早めるための活動も行なっており、同社は市場のニーズを満たすエンドツーエンドのアーキテクチャおよび資産を持つ唯一のサプライヤーであるとアピールした。

AI時代におけるインテリジェンスの実現
AI関連企業を買収
2020年までにAIコンピューティングサイクルは現在の12倍に
多様なAI
Googleとの協業
AIについての諮問委員会を設置
Intel Nervanaポートフォリオ
Nervana AI Academy
Intelの優位性

 次いで登壇した根岸氏は、ディープラーニングでは従来の機械学習と異なり、複数の抽象化レベルから特徴を抽出するというアプローチにより、画像認識や音声認識などで人間の認識能力を超える結果を出すなど、「人間の仕事」を自動化できるレベルに到達できたことで、「いつかできると思われていたことが、実際にできるようになった」時代を迎えたと説明。

AIの分類
機械学習
機械学習のタイプ
従来の機械学習
ディープラーニング
エンドツーエンドのディープラーニング
人間を超える結果も

 しかし、課題もあり、1つは学習処理に大規模なコンピューティングリソースが必要となる点で、Baidu Researchでは、1モデルの学習処理は10EFLOPSに及ぶという。

 2点目は、学習後の性能が学習データの量に応じて変化してしまう点で、より多くのデータを与えようとする結果、膨大なデータ量を処理しなければならなくなる。

 根岸氏は、特にデータ量はスケーリングの観点において大きなボトルネックになってしまい、標準的な技術では通信のオーバーヘッドが性能の上限を決めてしまうため、一定数を超えるとプロセッサを増やしても学習速度が比例しなくなると指摘。Nervanaテクノロジでは、通信ファブリックの向上によりほぼ比例してスケーリングが可能であるとした。

膨大なコンピューティングリソース
データ量に依存
スケーリングはI/Oバウンド

 Narvanaプラットフォームでは、前述の通りXeon/Xeon Phi/FPGA/Lake Crestが用意されるが、まずXeonについては、次世代となる"Skylake-EP"のXeon E5プロセッサでは、現行製品からApache Sparkの性能が18倍に向上していると説明。すでに初期開発版を出荷していることを明らかにした。加えて、AlteraのArria 10 FPGAとの組み合わせでは、最高の電力効率最適化を実現するとした。

Nervanaプラットフォーム製品群
Skylake世代のXeon
学習処理高速化
Arria 10 FPGA

 Xeon Phiについては、「Knights Landing」では最大400GBのダイレクトなメモリアクセスや、32ノードでスケーリングした場合、学習時間を31倍に高速化できるというスケーラビリティを持つとGPUと比較した場合の優位性をアピール。

 根岸氏は、HPCの世界でも絶対的に高速なハードウェアというのは存在せず、ソフトウェアの最適化によってハードウェアの特徴を引き出せるかがキモになると述べ、デソフトウェアをXeon Phiに最適化したところ、同じハードウェアを用いたCaffe/AlexNetでの正規化スループット性能が最大400倍に向上したことを挙げ、「ディープラーニングというワークロードはCPUに向いていないとされてきたが、CPU向けの最適化が行なわれていないだけである」と述べ、Intelではソフトウェアの最適化にもソリューションを提供する(後述を参照)。

 さらに、単精度演算にフォーカスし、ディープラーニング性能の向上を狙った「Knights Mill」も2017年に投入することで、ソフトウェアとハードウェア両方から最適化のアプローチをかけていくとした。なお、このKnights MillはKnights Landingをベースとした第2世代の製品であり、10nmプロセスを採用する次世代(第3世代)の「Knights Hill」とは別の製品となる。

Xeon Phi
Knights Millでは機械学習の推定処理性能が4倍に

 Lake Crestについては、ディープラーニングに特化したハードウェアで、学習処理を高速化するアクセラレータに相当すると説明。

 元々はNervanaが「Nervana Engine」としてディープラーニング向けに設計したASICで、テンソルベースのアーキテクチャを採用し、メモリにはアクセス速度8Tbpsという32GBのHBM2を搭載。ディープラーニングでは処理によって適切な演算精度が異なるが、Lake Crestでは「FlexPoint」と称する、従来の浮動小数点などと異なる新たな数型を用いることで、最大10倍の並列化を実現し、テンソル演算あたりの電力を低減するとした。このFlexPointの考え方は、前述のKnigts Millでも使われているという。

 加えて、Lake Crestでは、PCI Express比で最大20倍高速というチップ間リンク用の独自のインターコネクトを備える。フォームファクタとしてはPCI Express接続の拡張カードとして提供されるとのことで、リリース時期については2017年後半に数社ほどの限定的な顧客に提供開始する予定であるとした。

 また、独立したアクセラレータであるLake Crestに加えて、アクセラレーションを統合したブート可能なXeonプロセッサ「Knights Crest」も投入予定であるとした。こちらの投入時期は明言されなかったが、「機械学習の時間を2020年までに100分の1へ短縮する」という同社の掲げる目標について、"1つの目安"として欲しいと言及していた。

Lake Crest
ワークロードに最適化したハードウェア設計
モデル並列化をサポート
アーキテクチャ
Knights Crest

 最後に根岸氏は、「Intelはソフトウェアでもソリューション提供する」と、同社の提供するソフトウェアについて説明を行なった。

 Intelでは、ディープラーニングフレームワークをIntelアーキテクチャ向けに最適化するため、MKL-DNN(ディープニューラルネットワーク向けマスカーネルライブラリ)、MLSL(Machine Learning Scaling Library)を提供。MKL-DNNでは、DNNで多用される2次元畳み込み、局所反応正規化、正規化線形関数ニューロン活性化、内積などの演算処理を、ライブラリを呼び出すことでフレームワークを問わずIntelアーキテクチャに最適させる。MKL-DNNは現在テクノロジプレビューがリリースされており、オープンソースで提供される。

 また、NN向けの高レベル実行グラフ「Intel Nervana Graph Compiler」により、XeonやXeon Phi、FPGAなどハードウェアに依存せず最適化を実現するという。

 そのほか、高性能ディープラーニングフレームワーク「Neon」、データ分析や数値コンピューティングなどに向け高速化されたビルド済みのPythonディストリビューション、データ分析ライブラリ(Intel DAAL)、トレーニングツールや導入ルールを含むDeep Learning SDKなどを提供し、ハードウェアだけでなく、ソフトウェアでもオープンで高性能な強力なソリューションを提供するとアピールした。

AIソリューション
ソフトウェアソリューション
コンピューティングビルディングブロック
Intelアーキテクチャ向けに最適化
コンピューティング基盤を提供
Intel MKL-DNN
MLSL
Neon
Nervana Graph Compiler
Python対応Intelディストリビューション
DAAL
Deep Learning SDK
トレーニングツール
導入ツール
IntelのAIソフトウェア