ニュース

Intelは機械学習で覇権を握れるか?

~GPGPUに対するXeon Phiの優位点を語る

Xeon Phi。右はOmni-Path非対応のモデル

 インテル株式会社は14日、HPC(High Performance Computing)事業に関する記者向けラウンドテーブルを実施した。

 今年(2016年)6月に発表したXeon Phiを中心に、Intelの機械学習(マシンラーニング)に関する今後の取り組みや導入メリットなどを説明する内容となっており、Intel本社でHPC事業に携わっているヒューゴ・サレー氏を迎えての開催となった。

 なお、同日の午後13時~18時まで東京秋葉原の秋葉原UDXのセミナールームにて、「インテル HPC & マシンラーニング・セミナー」と題するセミナーが開催されており、東京大学 情報基盤センター長 中村宏氏によるセッションやパートナー企業各社による講演などが行なわれている。

16GBの内部メモリを備え、ブータブルに対応したXeon Phi。年末までに10万個が世界中の研究者に向けて出荷

Xeon Phi

 まずサレー氏は、これまでHPCがライフサイエンスや政府といった大規模システム用に使われてきたのに対し、今日では一般産業に広く浸透しつつある歴史的経緯を振り返った。

米Intelでコーポレーション データセンター事業本部 HPCプラットフォーム事業部 HPCセグメント・マーケティング ディレクターを務めるヒューゴ・サレー氏

 特に自動車産業においては、設計の全フェーズでHPCが使われており、デザインだけでなく、燃費を向上させるための計算、静音性を高めるための空力解析、安全・衝突試験といったありとあらゆる部分でHPCが必要とされている現状を指摘。そして自動運転といった機械学習の活用がさまざまなところで進みつつあり、社会に変革がもたらされつつあるとした。

 そうしたHPCによる機械学習を行なうための手段として、先日リリースした「Xeon Phi」がもっとも適したプロセッサであると述べ、ブータブル可能になり、これまでのコプロセッサの域を超越したXeon Phiが機械学習のシーンをがらりと変えると発言した。

 サレー氏は、Xeon Phiの特徴として、まずPCI Expressからのアクセラレートというボトルネックが解消されたこと、16GBのメモリを内部に搭載したこと、HPCファブリック「Omni-Path」の実装によるシステムの帯域向上などを挙げる。

 また、Xeon Phiは従来のx86プロセッサによるワークロードを実行できるため、これまでのXeonで動くものがXeon Phiでも使用でき、その汎用性の高さも導入メリットとなっている。これによって、ROI(Return On Investment)を短期達成できることに加え、TCO(Total Cost of Ownership)を大きく改善できる点を強調した。

ブータブルに対応し、コプロセッサではないXeon Phi
内部構造。16GBのメモリを統合している

 現状のXeon Phiのラインナップは4つで、最上位の7290は最高性能を発揮するために、7250は消費電力を重視しつつの性能を、7230はバランスを取った性能で、1番下位の7210に関してはXeonと近い価格を実現。顧客ごとに異なるニーズを満たすべく、それぞれに明確な目的を想定した布陣となっている。各CPUとも内蔵メモリは同じ16GBであり、外付けメモリのDDR4を搭載可能な容量も384GBと同じで、この点は顧客からのフィードバックを元に、必要な要望を取り入れたためだという。

 既にXeon Phiの出荷数は3万個を越えており、Intelの試算によれば2016年末までには10万個を超えるという予測が出ているという。世界各地で採用が進んでおり、日本においては波大学計算科学研究センターと東京大学情報基盤センターによる「JCAHPC」や京都大学などで運用が始まっているようだ。

Xeon Phiのラインナップ
Xeon Phiの納入先

NVIDIAのGPGPUに対するXeon Phiのメリット

 サレー氏はXeon Phiにおける機械学習の性能についても説明。Xeon Phiの1ノードと128ノードでは深層学習のAlexNetトポロジーにおいて、トレーニングに50倍以上の差が出るとする。

 そして、ニューラルネットワークのWord2Vecのよる処理をXeon Phi 7250とNVIDIA Titan Xと比較し、Xeon Phiはノード数が増えてもリニアに処理能力が上がっていくのに対し、TitanXでは上昇率が低い点と、20までしかスケールアップできないことを指摘。また、機械学習のk近傍法で4ノードのXeon Phiが4カードのTitan Zに2.1倍以上の性能差を出していることなどを示して見せた。

1ノードに対し、128ノードで50倍の性能
Word2VecでXeon Phi 7290とTitanXと比較。Xeon Phiはノード数を増やすごとにリニアに性能が伸びるため、超並列化のメリットがある
k近傍法をTITAN Zと比較。4ノードのXeon Phiで、4カードのTITAN Zに2.1倍以上の性能を出している
機械学習においてGPUよりも速く、スケーラビリティが高い点を謳う

 なお、サレー氏はPascalなどの最新のGPUが比較に使われていない理由として、NVIDIAが現時点で公に公開しているデータを利用したためとし、Pascalに対してどの程度の差が出るかは明らかにされなかった。

 サレー氏はGPGPUに対するXeon Phiのメリットとして、これまでのXeonがHPC市場の90%以上のシェアを持っており、ネイティブのソケットでブート可能なことから、環境移行の容易さや、GPU以上に超並列化して性能を上げられること、PCI Expressのボトルネックがないことなどを挙げた。

 これによって、オペレーションの効率が向上し、システムの性能も上昇、消費電力が下がる点をアピール。また、内蔵メモリを備えていることに加え、広く流通しているDDR4メモリも使用できる。GPUでメモリを多数必要とする場合は、CPUを介してメモリにアクセスするというオーバーヘッドが発生するといったGPGPUのマイナス面にも触れた。このほか、FPGAも備えていることから、FPGAで必要となる特定のアルゴリズムにもXeon Phiで対応できるといった融通性の高さも、Intelならではの特色の1つであると説明した。

 Intelは現在HPCのためのオープンソースコミュニティ「OpenHPC」を展開しており、オープンソースの深層学習のフレームワークに最適化したライブラリなどを提供し、対応するフレームワーク増やしていくという。説明会ではCafeへの最適化が言われていたが、これ以外にもTensorFlow、Chainerにも対応していく予定があると言う。

オープンソースコミュニティの「OpenHPC」を展開中
オープンソースの深層学習フレームワーク用にライブラリの提供などを行なっていく

 サレー氏は、Xeon Phiを使ってHPCコミュニティの発展に尽力していくというIntelの機械学習に対する姿勢を語ってくれた。