後藤弘茂のWeekly海外ニュース

HuaweiやNVIDIA、スタートアップが深層学習チップをHot Chipsで発表

後藤弘茂 (Hiroshige Goto)

2019年8月28日 18:45

深層学習ブームに沸くチップカンファレンス

　最先端のプロセッサの公開の場である半導体チップのカンファレンス「Hot Chips」は、今年は盛況だった。Hot Chipsは、数年前まで500人台の参加者に落ち込んでいた。ところが、今年(2019年)8月18～20日に開催された「Hot Chips 31」は、登録だけで800人を越えたと言われている。

　実際、会場となった米スタンフォード大学の講堂「The Memorial Auditorium」は、1階席がぎっしりになる例年にない混雑ぶりだった。なぜこんなにチップカンファレンスが盛況になったのか。それは、深層学習チップのバブルが訪れているからだ。

　現在、深層学習などの機械学習をアクセラレートするチップが怒濤の勢いで発表されている。深層学習プロセッサを開発するスタートアップが次々に登場、既存のチップベンダーも深層学習向けチップを投入、GoogleやTeslaなどチップが本業ではない企業も独自に開発、大学や研究機関もこぞって試作チップを発表している。

　そのため、Hot Chipsだけでなく、半導体チップ関係の学会ではどこでも深層学習プロセッサの発表が激増している。そして、深層学習チップを発表していないベンダーの研究者や関連産業の研究者も、業界動向を掴むためにカンファレンスに詰めかける。そうした状況で、現在、半導体チップのカンファレンスは大賑わいとなっている。

　Hot Chipsでも、深層学習系のセッションが激増した。機械学習系のセッションコーナーが、トレーニングと推論の2本立てになったほか、機械学習のセッション以外でも、深層学習エンジンを搭載したチップが当たり前のように登場している。CPUやGPUのような汎用のプロセッサも、深層学習向けの拡張が一般的になっている。つまり、カンファレンス全体で、深層学習の話題が溢れるという状態になっている。

Huaweiはスケーラブルな深層学習コア「DaVinci」を発表

　Hot Chipsの機械学習のトレーニングのセッションでは、前回の記事で紹介したCerebras Systemsのウェハサイズチップ「Cerebras Wafer Scale Engine (WSE)」が登場。そのほかに、Cerebrasと同様のスタートアップのHabana Labsと、Intel、Huaweiが講演を行なった。

　Huaweiは、同社が開発した深層学習向けアクセラレータコアアーキテクチャ「DaVinci」の概要を発表した。

　DaVinciの特徴は、基本となるアーキテクチャを共通化しながら、組み込みからデータセンターまでの幅広いレンジをカバーすること。エッジトレーニング向けの「DaVinci」、データセンター向けの最大規模の「DaVinci Max」、監視カメラ向けの「DaVinci Mini」、スマートフォン向けの「DaVinci Lite」、ウェアラブル向けの「DaVinci Tiny」がある。

幅広い性能レンジを一貫したアーキテクチャでカバーする

スカラー、ベクター、マトリクスの3種類の演算ユニット

DaVinciコアの基本構成

DaVinciコアのアーキテクチャ構成の例

　DaVinciのAIコアは、マトリクス演算ユニット、ベクター演算ユニット、スカラー演算ユニットを備える。各DaVinciによって、3種の演算ユニットの構成が変わる。

　基本となるDaVinciコアでは、マトリクス演算ユニット「Cube」は16-bit浮動小数点(FP16)で16の3乗の4,096ユニット、整数8-bit(INT8)では8,192演算ユニットとなる。ベクタ演算ユニットは2,048-bit(8x16)で、FP16とINT8のほかに32-bit浮動小数点(FP32)もサポートする。

　たとえば、データセンター向けのDaVinci Maxでは、マトリクスユニットは8,192 Op/cycle(オペレーション/サイクル)、ベクターは256 Ops/Cycleとなる。

　モバイル向けのDaVinci Liteでは、ベクターが4,096 Ops/Cycle、ベクターが128 Ops/Cycleと半分。超低電力向けのDaVinci Tinyでは、ベクターが512 Ops/Cycle、ベクターが32 Ops/Cycleとさらに小さくなる。

DaVinciベースの2種類のチップ。高性能の「Ascend 910」と、中規模の「Ascend 310」

HBMメモリを4スタック搭載するAscend 910

Ascend 910のダイ

3D接続したSRAMでメモリ帯域をさらに高める将来プランも

　アーキテクチャにスケーラビリティを持たせたことで、DaVinciはさまざまなアプリケーションへの適用が可能になった。

　Huaweiは、DaVinci Maxベースの、高性能AIプロセッサ「Ascend 910」を発表。Ascend 910では、FP16で256 TeraFLOPS、Int8で512 TeraOPSの性能を発揮する。

　Ascend 910は、メッシュネットで32個のDaVinciコアを接続、4スタックのHBMメモリをパッケージに搭載する。Ascend 910はEUV露光を取り入れた7+ nmプロセスで製造される。Ascend 910を8個とAscend 910でサーバーノード「Ascend 910 AI Server」を構成、さらに2,048ノードのクラスタ「Ascend 910 AI Cluster」で512 PegaFLOPSの深層学習性能を達成するという。

　このほか、Huaweiは、8W電力の「Ascend 310」も発表した。

スタートアップのHabanaがNVIDIA対抗のチップ「GAUDI」を発表

　新興のHabana Labsは、Hot Chipsで深層学習のトレーニング向けチップ「GAUDI」と、推論向けチップ「GOYA」の2種類のチップを公開した。

　GaudiとGoyaのどちらも、Tensorプロセッサ「TPC」として「VLIW (Very Long Instruction Word)」アーキテクチャのベクターコアと、GEMM (General Matrix to Matrix Multiplication)コアを搭載する。データセンターでのトレーニング向けのGaudiは、8個のTPCとGEMMを搭載する。

Habana LabsのトレーニングプロセッサGaudi

Hot Chipsで発表を行ったEitan Medina氏(Chief Business Officer, Habana Labs)

　Gaudiの最初の実装である「Gaudi HL-2000」では、メモリは4スタックのHBMメモリで、メモリ帯域は1TB/s、メモリ容量は32GB、ホストインターフェイスはPCI Express Gen4 x16。ここまでは、最近の深層学習トレーニングプロセッサの標準的な構成だが、Gaudiは10ポートの100Gigabit Ethernetも搭載する点が重要な特徴だ。

　GaudiのEthernetはリモートDMA「RDMA over Converged Ethernet (RoCE)」をサポートし、ダイレクトにGaudiノード間でのDMA転送ができる。

Gaudiのスペック

GaudiのEthernetインターフェイス

　Gaudiは、PCI Expressカードと専用ソケット「HL-205」の2種類で提供される。フル性能でノード連携ができるHL-205ベースのシステムとして、8個のGaudiを搭載した「HLS-1」が公開された。NVIDIAのDGXに対抗するシステムだ。

　HL-205の場合も、ホストCPUとはPCI Expressで接続する。このほか、GaudiはPCI Expressで既存のサーバーにアドオンで搭載することも可能で、PCI Expressカードでも提供される。

左が100Gb Ethernetベースの専用カードHL-205、右がHL-205ベースのシステム

PCI Expressカードでも提供

Gaudiは専用ソケットでのシステムを公開

　Habana Labsのインファレンス向けのGoyaは、アーキテクチャの基本はGaudiと共通だが、メモリはDDR4 2チャネルでメモリ帯域は40GB/s。データ量の少ない推論に最適化されている。I/OインターフェイスはPCI Express Gen4で、Ethernetは持たない。

　Goyaのセッションでは、この1年話題をさらった自然言語認識のニューラルネットワーク「BERT」のアクセラレーションがフィーチャされた。

Goyaの構成図

Goyaの自然言語認識の性能例

　Intelは、買収したコアのトレーニングチップ「Intel Nervana NNP-T(Spring Crest)」の概要をHot Chipsで発表した。IntelはHot Chipsでほかにも重要な発表を行なっているので、まとめて別記事で紹介したい。

　しかし、Intelも含めて3チップに共通しているのは、高コストなHBMメモリを使い、大きめのダイで、コストの高いチップを作っていることだ。

　Intelのような大手やHuaweiのような自社需要があるメーカーだけでなく、Habana Labsのようなスタートアップでも、高コストなチップを作る。つまり、深層学習のトレーニング向けチップについて、それなりの価格で販売できることを期待していることがわかる。

NVIDIAはリサーチチップRC18を発表

　NVIDIAはHot Chipsでは、GPUと深層学習プロセッサを発表。深層学習セッションでの発表は、リサーチチップ「RC18」だ。NVIDIAは、2012年の「RC12」から、「RC13」「RC16」「RC17」と研究目的の試作チップを作り続けている。

　今回のRC18は、今年(2019年)3月のNVIDIAが主催するGPUコンピューティングのカンファレンス「GTC (GPU Technology Conference) 2019」で、NVIDIAのリサーチ部門を統括するBill Dally氏(William J. Dally, Chief Scientist and SVP of Research, NVIDIA/Professor(Research), Stanford University)が初公開。

　6月に京都で開催された半導体技術の学会「2019 Symposia on VLSI Technology and Circuits」で詳細が紹介された。

NVIDIAのリサーチチップの系譜

RC18のマルチダイ構成

　RC18の特徴は、小さなダイを低電力インターフェイスで連結してスケーラブルなアーキテクチャにしている点。最大では36個のダイをパッケージ上で連結して、深層学習ワークロードを分散して実行する。

　1個のダイには16個のプロセッサエンジンを搭載、低電力低レイテンシのダイ間インターコネクト「Ground-Referenced Signaling (GRS)」で接続する。将来のNVIDIAのプロセッサで予想されるマルチダイ構成の試験のためのチップだ。

　今回のHot Chipsでは、NVIDIAはインファレンスアクセラレータとしての機能やチップ設計メソドロジにポイントを置いて説明を行なった。

NVIDIAのRC18のダイと36ダイのMCM(Multi-Chip Module)パッケージ

RC18のアーキテクチャ

RC18の設計手法

RC18のテストシステム