ニュース

Intel、次世代Xeon「Cooper Lake」で深層学習向け新命令Bfloat16をデモ

~NNPはNVIDIA GPUよりスケーリングや密度が強みとアピール

NNP-I1000を紹介するIntel 副社長 兼 AI製品事業本部 事業本部長 ナビーン・ラオ氏

 米Intelは12日午前10時(現地時間)から、米カリフォルニア州サンフランシスコ市の会場において「AI Summit 2019」というイベントを開催し、同社のAI向けの新ソリューションを発表した。

 発表されたのは開発コードネーム「Spring Crest」(スプリングクレスト)で知られる学習向けのNNP-T1000、開発コードネーム「Spring Hill」(スプリングヒル)で知られるNNP-I1000という2つの深層学習アクセラレータ製品で、本日より一部の顧客に限定して提供が開始される。

 さらにIntelは、2020年の前半に出荷を予定している、次世代のエッジ向け深層学習・推論チップとなる「Keem Bay」(キームベイ)の概要を明らかにした。

 また、Intelは同イベントにおいて、同社が2020年の前半に出荷を計画している次世代Xeonプロセッサ「Cooper Lake」(クーパーレイク)においてサポートを計画している新命令「Bfloat16」のデモをはじめて行なった。

 Bfloat16はFP32演算の代わりに、2つの16bit精度のデータを利用できる新しい命令セットで、深層学習の学習、推論の双方に効果があるとされている。

次世代Xeon SPとなるCooper LakeのBfloat16が動作する様子をはじめてデモ、学習でも推論でも有効と強調

 Intel 副社長兼AI製品事業本部事業本部長 ナビーン・ラオ氏は、「Intelは3年前にNervanaを、そしてMovidiusを買収してAIのポートフォーリオを拡充した。そこから変革を続けてきて、今ではフルラインナップを提供できるようになった。すでにIntelは35億ドル(約3,815億円)のAI関連の売り上げがあり、AIでのビジネスにおける存在は小さくない」と述べ、IntelがAI、具体的に言うと機械学習、深層学習の学習や推論で大きな売り上げを持っており、かつ広範囲な製品のラインナップがあることを強調した。

 ラオ氏は「AIはワンサイズフィッツオール(1つの製品ですべての領域をカバーすること)ではない。異なる処理には異なるソリューションが必要になる。90年代のインターネットが専業の会社からしか提供されていなかったが、今では多くの企業がそのサービスを提供しているが、AIも同じようになる」と説明。

 「このため、それぞれのニーズに合わせて正しいソリューションが必要だ」と述べ、1つのソリューションだけでAIを利用しようという企業のニーズを満たすことは難しく、それぞれのニーズに合わせたソリューションが必要になると説明した。

Intel 副社長 兼 AI製品事業本部 事業本部長 ナビーン・ラオ氏
AI関連で35億ドルの売り上げ
ワンサイズフィッツオールではない
IntelのAI向け製品群
XeonでのAI
PCでもエッジAIの実装がはじまっている
オープンな開発環境
AI実現に向けてのニーズの高まり

 ラオ氏はIntelのAIのソリューションは、CPUになるXeon、Core、そして今後投入される単体型GPU(開発コードネーム: Xe)、FPGA、そしてアクセラレーターと幅広い製品群を用意していると述べ、それぞれについて説明した。

 同社がデータセンター向けに提供しているXeon Scalable Processors(以下Xeon SP)では、現在提供している第2世代Xeon SP(開発コードネーム: Cascade Lake-AP)において、同社が「DL Boost」と呼んでいる推論処理に利用できるINT8を利用した新命令セットについて紹介し、それにより大きな性能向上が実現できるとした。

Cooper Lakeを利用したBfloat16のデモ、FP32で学習する場合に比較して同じ精度で高速に演算できる

 そして、ラオ氏は次世代のXeon SPとなるCooper Lakeについて触れ「Cooper LakeではBfloat 16をサポートする。Bfloat 16では推論や学習で利用する16bit精度のデータをFP32にマイグレーションして演算できるので、推論だけでなく学習での性能も大きく向上する」と述べ、Intelは展示会場でCooper Lakeを利用したBfloat 16のデモを行なった。

 公開されたデモは、Bfloat16で16bitのデータを2つまとめて演算する場合と、FP32で深層学習の学習処理演算を行なった場合の結果で、Bfloat16の場合、FP32とほぼ同じ精度でより高速に処理できる様子が示された。

 このデモは開発中のCooper Lakeで動作しているとのことで、IntelはCooper Lakeを2020年前半に投入する計画であることをすでに明らかにしている。

 このほかにも、ラオ氏はクライアントPCで新しいツールキットを利用してCore i3で深層学習の推論処理をしたところ、AMDのRyzen 7 3700Uに比べて4.3倍の性能を発揮すること、また現在開発中の単体GPUやFPGAといった別の種類のソリューションを用意していること、さらにはプロセッサだけでなく、インターコネクトやネットワークなどのソリューション、さらにはOptane DC Persistent Memoryのような新しいメモリ階層など、システム全体のスループットや演算性能を維持するソリューションを備えていることを強調し、そうした充実した製品群を組み合わせて顧客がAIの導入で抱えている問題を解決していくのだとアピールした。

 そして、そうしたハードウェアだけでなく、Intelにはソフトウェアを開発する部門があり、そこに数千人のエンジニアが働いていると強調し、データサイエンティストやAIを作る企業などが特別な知識がなくても、簡単にAIのソフトウェアを最適なハードウェアで開発できる環境を提供していくと強調した。

Xavier比で4倍高効率なKeem Bayを2020年前半に投入

 ついでラオ氏はIntel IoT事業部担当副社長 ジョナサン・バロン氏をステージに呼び、同社が買収したMovidius由来のエッジ向け推論アクセラレータ「Movidius Myriad VPU」の最新製品について説明した。

 バロン氏は「IoTではデータが爆発的に増えており、レイテンシの観点からも、これからはエッジでも処理が行なわれていく。このため新しいアプローチが注目されている。そうした市場向けの新製品として我々はコードネームKeem Bayを投入していく」と述べ、Movidius Myriad VPUの新しい製品として、Keem Bayと呼ばれる製品を2020年前半に投入していくとした。

 バロン氏によれば、Keem Bayはエッジにおける深層学習の推論向けのチップで、画像認識などに活用される製品。オンチップ搭載されているメモリが64bit幅になり、スループットが従来世代(Myriad X)に比べて10倍になっているという。

Intel IoT事業部担当副社長 ジョナサン・バロン氏
エッジの重要性は高まっている
Intelが提供している開発キットのOpenVINO
Keem Bayの特徴
Keem Bayのチップ
Keem Bayの性能

 バロン氏は競合製品との比較も紹介し、性能ではNVIDIA「Jetson TX2」に搭載されているParkerに比べて4倍の推論性能を実現し、電力あたりの推論性能ではTX2の6.2倍、NVIDIA「Xavier」との比較では、同じ性能であれば電力は5分の1に抑えられると説明した。

 こうした性能により、NVIDIAのXavierとの比較で、推論時の効率が4倍になると主張した。

 また、バロン氏は推論や学習向けに、さまざまな半導体の中からどんな半導体を選んで推論を実行させたら良いか分からないAI開発者向けのソリューションとして「Dev Cloud for the Edge」を提供することを明らかにした。

 これは、開発者がクラウド上で実行できるベンチマークのようなもので、自分のモデルをクラウド経由でDev Cloud for the Edgeに読み込ませると、自動ないしは手動でターゲットとなるハードウェアを選んで、ベンチマークが実行できるもの。バロン氏によればIntelはこれを無償で提供する。

Dev Cloud for the Edge
オンラインコースを開設

 また、AIの開発者になりたい学生向けのコースとして、Udacityと協力してオンラインで学習できるコースを提供し、女性エンジニア向けのスカラシップも提供していくことなどを明らかにした。

32個のNNP-I1000を搭載した1Uラックで、4UラックのT4 GPUx20を上回る性能を実現

Intelが公開したNNP-I1000のM.2モジュール、手前はヒートシンク付き

 記者会見の後半では、ラオ氏が同社のクラウド向け深層学習向けアクセラレータについての発表を行なった。すでに別記事(Intel、NVIDIAの牙城を崩す深層学習アクセラレータ「Nervana NNP」を正式発表参照)で紹介しているとおり、開発コードネーム「Spring Crest」こと学習向けのNNP-T1000、開発コードネーム「Spring Hill」ことNNP-I1000の2製品を正式に発表し、一部限定顧客への提供開始を発表した。

 すでに両製品や、テストベッドとなるNNPーL1000(Lake Crest)に関しては、開発パートナーとなるFacebookやBaiduなどに提供がされていたが、今回から広く一般に提供が開始される。

AIの複雑性が増していき、より処理能力へのニーズが高まっている
AIの複雑性が増していき、より処理能力へのニーズが高まっている

 ラオ氏は「AIモデルの複雑性は3.5カ月で2倍の演算性能が必要になるほどに進んでいる。データも以前は犬か猫かを認識していた程度のものから、複雑な画像認識を行なったり、音声認識も会話から文字起こしを行なうなど、さらに複雑になっている。このため、それに対応できるだけの演算性能が必要になる」と述べ、Intelはそれに対応するだけのAIアクセラレータを製品化していくと述べた。

NNP-I1000
NNP-I1000の概要
M.2だけでなくE1.Lでも提供する

 ラオ氏は、まず深層学習の推論用アクセラレータの「Spring Hill」ことNNP-I1000について紹介し、Ice Lake相当のCPUが2つと、12個のICE(Inference Compute Engines)と呼ばれる演算器を内蔵しており、高効率で推論の演算ができると説明した。

 ラオ氏は「NNP-I1000はSKUによるが、消費電力は10~15W程度で、M.2のカードとして搭載できる。またデータセンター向けのSSDと同じフォームファクタでも提供可能で、ラックに格納して高密度に利用できる」と述べ、NNP-I1000をチップ単体だけでなく、M.2やPCI Expressの拡張カードとして、さらにはE1.Lと呼ばれるデータセンター向けSSDに定義されている定規型フォームファクタでも提供し、ラックマウントでデータセンターで使うことができると述べた。

1Uのラックに23機のNNP-I1000が入る
NVIDIAとの性能比較

 性能については、「NVIDIAのT4 GPUが20機搭載されている4Uラックと、NNP-I1000が32機搭載されている1UラックでResNet-50の推論を実行すると、ラックあたりの処理能力は3.7倍高い」と述べ、直接の競合となるNVIDIAのT4 GPU(NVIDIAのTuringベースの推論処理用データセンター向けのGPU)に比べて、ラックあたりの性能が大きく向上すると述べた。

 NNP-I1000を利用するソフトウェア環境についても触れ、Kubernetesなどのコンテナからも利用できるような環境を提供しており、ハードウェアに詳しくないAI開発者でも簡単に利用できるとした。

ソフトウェア環境
Facebook AI部長 ミーシャ・スメルヤンスキー氏(左)とラオ氏

 続いてNNPシリーズの開発パートナーであるFacebookのAI部長 ミーシャ・スメルヤンスキー氏を紹介し、FacebookがどのようにAIを、そしてNNP-Iを利用しているかに関して説明した。

 スメルヤンスキー氏は、「FacebookはさまざまなAIを活用している。ユーザーが写真をアップロードした時のタグ付けや自動翻訳機能、さらにはスパムの発見などにもAIが活用されている。

 FacebookはこのプロジェクトにIntelと2年かけて準備を続けてきた。AIはソフトウェアなしには実現できないが、それを実行するハードウェアが必要になる。NNP-Iでは高性能かつ高効率で、それを動かすハードウェアとして最適だ」と述べた。

高いスケーリング能力がNNP-T1000の特徴、32機まで性能低下はほぼなしとIntel

 ラオ氏が最後に紹介したのが、深層学習の学習用アクセラレータとなるSpring CrestことNNP-T1000だ。

 ラオ氏は「NNP-T1000の特徴は、業界最高レベルのスケーリング性だ。ResNet-50では最大で95%の利用率が可能で、競合は73%に過ぎない。8基構成から32基構成まで同じデータレートを実現でき、32基を越える場合でも他社に比べて良好なスケーリングを実現できる」と述べ、複数のチップを接続して1つの大きなアクセラレータとして利用した場合でも、大きな性能低下なく利用できるとアピールした。

NNP-T1000を公開するIntel 副社長 兼 AI製品事業本部 事業本部長 ナビーン・ラオ氏
NNP-T1000の概要
モジュール型のNNP-T1000を搭載したサーバー、1シャーシに8つのNNP-T1000を搭載できる
こちらはPCI Expressカード
8基から32基までは性能低下がほとんどない

 よく知られているとおり、NVIDIAはNVSwitchというNVLinkのスイッチチップを利用して、16個のTesla V100を接続した「DGX-2」というスーパーコンピュータを顧客に提供している。

 これはNVLinkというインターコネクトの特性上、そうしたスイッチチップを使わなければ16個のTesla V100を接続できないからだ。別途スイッチが必要になるということは当然コストアップになるし、何より性能面で枷をともなうことになる。

 今回Intelがアピールしたのは、Intelの場合には最初から多くの数のチップを接続できるよう設計しているため、32個までは性能の低下がなく接続でき、それ以降もNVIDIAのソリューションよりも高い性能を実現できるという意味だ。

1つのシャシーがNNP-T1000を8つ搭載し、1つのラックでシャシーを6つ搭載し、10個のラックが用意されている深層学習専用のスーパーコンピューター、480個のNNP-T1000が搭載されている

 ラオ氏はそうしたNNP-T1000の特徴を活かし、1つのシャーシに8つのNNP-T1000を搭載し、そのシャーシが6つ搭載されているラックが10個接続されているスーパーコンピュータを公開。高い処理能力で深層学習の学習ができるとアピールした。

 NNPI-T1000を活用する顧客の例として中国Baiduを挙げ、Baidu AI研究フェロー ケニース・チャーチ氏を呼び、Baiduの深層学習フレームワーク「Paddle Paddle」(パドルパドル)からNNP-T1000や次世代Xeonなどを利用できるようにして、5倍の速度アップを実現すると説明した。

Baidu AI研究フェロー ケニース・チャーチ氏
チャーチ氏のスライド