福田昭のセミコン業界最前線

VLSIシンポジウムが「AIハードウェア」シンポジウムになる日【後編】

～2017年～2018年のシンポジウムからAI関連の研究成果を総ざらい

福田昭

2019年7月24日 06:00

　半導体技術の研究開発コミュニティで「人工知能(AI)」に対する関心が急速に高まりつつある。半導体のデバイス技術と回路技術の研究成果が披露される国際学会「VLSIシンポジウム」における人工知能(AI)関連の発表件数が、2016年以降に急激に増加しているのだ。

　研究成果の発表件数に占める人工知能(AI)関連の割合は、2010年代前半は5%にも満たなかった。それが2018年には11.7%、2019年には12.6%と増加した。「人工知能(AI)」のハードウェアに関する研究は、半導体の研究開発における一大分野を形成するまでに成長してきた。

　前編では、2010年～2019年のVLSIシンポジウムにおける人工知能(AI)関連の研究発表件数の推移を明らかにするとともに、2010年～2016年までの人工知能(AI)関連の研究発表を総ざらいすることで、研究の動きを説明した。2010年代前半にはじまった、いわゆる「第3次人工知能ブーム」の牽引役は深層学習(ディープラーニング)と機械学習(マシンラーニング)である。深層学習のニューラルネットワーク処理をハードウェアとして組み込んだ半導体チップは、VLSIシンポジウムでは2016年にはじめて登場した。

　本編すなわち後編では、2017年～2018年のVLSIシンポジウムにおける人工知能(AI)関連の研究成果を総ざらいする。研究成果の発表件数は2017年が10件、2018年が21件である。

2017年 : ネットワーク構造を再構成可能な深層学習アクセラレータ

　2017年のVLSIシンポジウムでは、同シンポジウムとしてはたぶんはじめて、人工知能(AI)をテーマとする発表セッションが設けられた。VLSIシンポジウムは、回路技術をテーマとする「回路シンポジウム」と、デバイス技術をテーマとする「技術シンポジウム」に分かれている。

　「回路シンポジウム」では「機械学習と深層学習(SESSION 2: Machine / Deep Learning)」のセッションが、「技術シンポジウム」では「量子コンピューティングとニューロモルフィックコンピューティング(SESSION 13: Quantum Neuromorphic Computing)」のセッションが設けられた。第3次人工知能(AI)ブームの大波が半導体の研究開発に押し寄せてきていることを象徴するような出来事だと言える。

　それでは、研究成果の紹介に移ろう。すでに述べたように、2017年はAIに関する10件の研究成果が発表された。

2017年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その1)

　はじめにご紹介するのは、ニューラルネットワークの構造を再構成可能な深層学習アクセラレータに関する、2件の研究成果である。

　北海道大学と東京工業大学、慶應義塾大学の共同研究チームは、ニューラルネットワークの構造を再構成可能な深層学習アクセラレータを試作し、その性能を評価した(論文番号C2-1、論文タイトル : BRein Memory: A 13-Layer 4.2K Neuron/0.8M Synapse Binary/Ternary Reconfigurable In-Memory Deep Neural Network Accelerator in 65 nm CMOS)。フルコネクトのディープニューラルネットワーク(FC-DNN)、畳み込みニューラルネットワーク(CNN)、自己回帰ニューラルネットワーク(RNN)などを再構成できる。

　SRAMベースのXNOR(排他的論理和の否定)ゲートアレイで演算を実行する。ニューラルネットワークの重みづけ(シナプス)は、2値と3値のどちらかに設定可能であり、要求仕様に応じた変更を可能にした。重みづけのビット数が最大でも3値と小さいため、消費電力当たりの性能が高い。2.3～6.0TOPS/Wの性能(消費電力当たり)を達成している。

北海道大学と東京工業大学、慶應義塾大学の共同研究チームが開発した深層学習アクセラレータの概要(論文番号C2-1)。2017年4月18日にVLSIシンポジウムの実行委員会が報道関係者に公表した資料から

試作した深層学習アクセラレータのシリコンダイ写真。北海道大学と東京工業大学、慶應義塾大学の共同研究チームが2017年のVLSIシンポジウムで発表した論文(論文番号C2-1)から

試作した深層学習アクセラレータによって13層のディープニューラルネットワーク(DNN)を構築し、手書き数字を認識させた結果の概要。左上(a)はディープニューラルネットワークの構成。右上(b)はニューラルネットワークの層数と推論誤差の関係を32bitの浮動小数点プロセッサによる深層学習と比較した結果。下(c)は、CPUとGPU、FPGAによる13層のDNN処理と試作チップ(深層学習アクセラレータ)による13層のDNN処理を比較した結果。北海道大学と東京工業大学、慶應義塾大学の共同研究チームが2017年のVLSIシンポジウムで発表した論文(論文番号C2-1)から

　中国の清華大学も、ニューラルネットワークの構造を再構成可能な深層学習アクセラレータを試作して性能を評価した(論文番号C2-2、論文タイトル : A 1.06-To-5.09 TOPS/W Reconfigurable Hybrid-Neural-Network Processor for Deep Learning)。FC-DNN、CNN、RNNなどを再構成できる

　2個の8bit乗算器を内蔵するプロセッサ・エレメント(PE)のアレイによって演算を実行する。重みづけのビット数は可変で、最大で16bitまで増やせる。試作したアクセラレータのピーク性能は0.4096TOPS(409.6GOPS)、消費電力当たりの性能は1.06～5.09TOPS/Wである。

試作した深層学習アクセラレータのシリコンダイ写真(左)と概要(右)。清華大学が2017年のVLSIシンポジウムで発表した論文(論文番号C2-2)から

2017年 : 機械学習を利用した医療用プロセッサ

　次に、機械学習を利用した医療用プロセッサに関する2件の研究成果をご紹介する。脳波または心電波形を、機械学習によって認識するプロセッサである。

　米国のプリンストン大学は、機械学習によって疾患の発作を検知する医療用マイクロプロセッサを開発した(論文番号C2-3、論文タイトル : A Heterogeneous Microprocessor for Energy-Scalable Sensor Inference Using Genetic Programming)。試作したマイクロプロセッサは、脳波測定の信号から「てんかん」の発作を、心電波形測定の信号から「不整脈」の発作を検出してみせた。

機械学習によって疾患の発作を検知する医療用マイクロプロセッサのシリコンダイ写真。プリンストン大学が2017年のVLSIシンポジウムで発表した論文(論文番号C2-3)から

試作した医療用マイクロプロセッサの概要(左)と、過去に国際学会で発表された類似の研究成果との比較(右)。プリンストン大学が2017年のVLSIシンポジウムで発表した論文(論文番号C2-3)から

　米国のアリゾナ州立大学を中心とする研究グループは、ニューラルネットワークの機械学習によって心電波形から個人を認証するとともに、心電波形の異常を検出するプロセッサを開発した(論文番号C9-1、論文タイトル : A 1.06 μW Smart ECG Processor in 65 nm CMOS for Real-Time Biometric Authentication and Personal Cardiac Monitoring)。携帯型の心電モニター向けである。試作したプロセッサの消費電力は個人認証モードが1.06μW(電源電圧0.55V)、不整脈の検出モードが0.83μW(電源電圧0.51V)と低い。

機械学習によって心電波形から個人を認証するとともに、心電波形の異常を検出するプロセッサ(論文番号C9-1)。2017年4月18日にVLSIシンポジウムの実行委員会が報道関係者に公表した資料から

試作したプロセッサの概要。左上は電源電圧と個人認証モードの消費電力、動作周波数の関係(測定結果)。右上はシリコンダイ写真。左下は心電波形による個人認証モード、心電波形の異常検出モード、心電波形の不整脈検出モードにおける消費電力。右下は個人認証モードにおける消費電力の内訳。米国のアリゾナ州立大学を中心とする研究グループが2017年のVLSIシンポジウムで発表した論文(論文番号C9-1)から

2017年 : 不揮発性メモリをニューロンやシナプスに適用

　2017年のVLSIシンポジウムではこのほか、6件の研究成果が発表された。メモリセルに演算機能を持たせたり、不揮発性メモリをシナプスあるいはニューロンに利用したりといった研究の成果である。

2017年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その2)

2017年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その3)

　米国のミシガン大学とIntelの共同研究グループは、アナログのニューロンとスパース符号化によって電力効率を高めたニューラルネットワークの学習チップを試作した(論文番号C2-4、論文タイトル : A 3.43TOPS/W 48.9pJ/Pixel 50.1nJ/Classification 512 Analog Neuron Sparse Coding Neural Network with On-Chip Learning and Classification in 40nm CMOS)。消費電力当たりの処理性能は3.43TOPS/Wと高い。

　米国のミシガン大学とFujitsu Semiconductor Americaの共同研究グループは、検索およびインメモリコンピューティングに向けた6トランジスタのSRAMセル技術を開発した(論文番号C12-2、論文タイトル : A 0.3V VDDmin 4+2T SRAM for Searching and In-Memory Computing Using 55nm DDC Technology)。128×128個のSRAMセルアレイを内蔵するマクロを試作している。

検索およびインメモリコンピューティングに向けた6トランジスタのSRAMセル技術の概要(論文番号C12-2)。2017年4月18日にVLSIシンポジウムの実行委員会が報道関係者に公表した資料から

　米国のサンディア国立研究所は、多値記憶の抵抗変化メモリをシナプスと周期的な桁上げの両方に利用することで学習精度を向上させる機械学習チップを考案した(論文番号T13-2、論文タイトル : Achieving Ideal Accuracies in Analog Neuromorphic Computing Using Periodic Carry)。MNISTデータセット(手書き数字の認識に使われる代表的なデータセット)による学習の精度が、80%から97%に向上することを、シミュレーションによって確認した。

　ドイツのNaMLabとフラウンホーファ光マイクロシステム研究所、ドレスデン工科大学半導体マイクロシステム研究所の共同研究チームは、ニューロモルフィックシステムのシナプスにハフニウム酸化物の強誘電体トランジスタ(FeFET)を適用する試みを発表した(論文番号T13-3、論文タイトル : Novel Ferroelectric FET Based Synapse for Neuromorphic Systems)。FeFETはシナプスとして有力なデバイスになるとする。

　ベルギーのimecは、フルコネクトニューラルネットワークのシナプスに多値記憶の抵抗変化メモリを適用することを検討した結果を発表した(論文番号T13-4、論文タイトル : Design-Technology Co-Optimization for OxRRAMBased Synaptic Processing Unit)。1Mbitの抵抗変化メモリセルアレイを試作し、MNISTデータセットによる推論の精度を検討した。

　64値のシナプスを1個の抵抗変化メモリセルアレイで構成すると、セル間のばらつきによって推論の精度が76%と低い水準にとどまってしまう。そこでシナプスをたとえば4値に減らし、その変わりに3個の抵抗変化メモリセルアレイを使う。複数の抵抗変化メモリを使うことで、精度を89%と高めた。

　米国のノートルダム大学とジョージア工科大学の共同研究チームは、バナジウム酸化物の抵抗変化メモリを低消費電力のニューロンに適用した、ストカスティックサンプリングマシンを提案した(論文番号JFS4-3、論文タイトル : Ultra-Low Power Probabilistic IMT Neurons for Stochastic Sampling Machines)。

　バナジウム酸化物が絶縁体と金属の間で相転移する現象を不揮発性の抵抗変化メモリとして利用する。MNISTデータセットの推論に必要な消費電力は、シミュレーションによると22nm CMOS ASICの約4.5分の1と低くて済む。

2018年 : データの「まばらさ」に応じて構成を変える高効率プロセッサ

　ここからは、2018年のVLSIシンポジウムにおけるAI関連の研究成果を報告していく。2018年も前年と同様に、AI関連の講演セッションが設けられた。しかもセッションの数が増えた。

　「回路シンポジウム」では「機械学習プロセッサ(Session C4 : Machine Learning Processors)」、「ロボット応用と機械学習応用(Session C13 : Robotics and Machine Learning Applications)」、「ヘルスケアプロセッサおよびニューロンプロセッサに向けた機械学習(Session C24 : Machine Learning for Health and Neuro Inspired Processing)」の3つものAI関連セッションが設けられた。「技術シンポジウム」では「AIに向けたデバイスとシステム(Session T3 : Devices and Systems for AI)」のセッションが用意された。前年の2セッションから、2017年は倍の4セッションへと増えた。

　それでは、研究成果の紹介に移ろう。すでに述べたように、2018年は21件の研究成果が発表された。はじめは、深層学習を高速に処理するアクセラレータ技術に関する4件の発表をご紹介する。

2018年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その1)

　中国の精華大学と台湾の国立清華大学の共同研究グループは、ニューラルネットワークを構成するベクトルデータのまばらさ(sparsity)に応じて処理アルゴリズムを変更することで、電力効率を著しく高めたアクセラレータを開発した(論文番号C4-1、論文タイトル : STICKER: A 0.41-62.1 TOPS/W 8bit Neural Network Processor with Multi-Sparsity Compatible Convolution Arrays and Online Tuning Acceleration for Fully Connected Layers)。

　ニューラルネットワークを構成するニューロン(アクティベーション)やシナプス(重みづけ)などのベクトルデータは、「ゼロ」を含んでいる。「ゼロ」の割合が多いほど、まばらさ(スパーシティ : sparsity)が高い。ニューラルネットワークにおける演算の大半は乗算すなわち内積なので、「ゼロ」のデータに対しては演算を省いたり、メモリへの書き込みを省いたりしても、学習や推論などの精度には影響しない。

　そこで、ニューラルネットワークに「スパーシティ」を検出する回路を持たせることで、演算のモードを切り換えることにした。演算を担当するプロセッサエレメント(PE)のモードを変更するとともに、メモリの容量を節約した。この結果、ニューラルネットワークを調整する速度が32.5倍と著しく向上するとともに、必要なメモリ容量を92%も削減できたとする。

開発した深層学習アクセラレータの概要(左)とデモンストレーション用システムおよびシリコンダイの写真(右)。精華大学と国立清華大学の共同研究グループが2018年のVLSIシンポジウムで発表した論文(論文番号C4-1)から

　IBMのT.J. ワトソン研究所は、データのビット数を変更可能な深層学習プロセッサコアを開発した(論文番号C4-2、論文タイトル : A Scalable Multi-TeraOPS Deep Learning Processor Core for AI Training and Inference)。ニューラルネットワークが扱うデータのビット数を、1bit(2値)あるいは2bit(3値)、16bit浮動小数点に設定できる。試作したプロセッサコアの演算性能は24TOPS(2値)/12TOPS(3値)/1.5TFLOPS(16bit浮動小数点)である。

　中国の清華大学と北京航空航天大学(Beihang University)の共同研究チームは、重みづけのビット数とアクティベーションのビット数をそれぞれ変更可能な深層学習プロセッサを開発した(論文番号C4-3、論文タイトル : An Ultra-high Energy-efficient Reconfigurable Processor for Deep Neural Networks with Binary/Ternary Weights in 28nm CMOS)。

　重みづけは2値または3値、アクティベーションは1/2/4/8/16bitを選べる。演算処理は32個のプロセッサエレメント(PE)が実行する。重みづけが2値、アクティベーションが1bitのバイナリニューラルネットワークを選んだときの処理性能(消費電力当たり)は765.6TOPS/W(動作周波数200MHz、電源電圧0.65V)ときわめて高い。

試作した深層学習プロセッサのシリコンダイ写真と概要(左)、性能(右)。清華大学と北京航空航天大学の共同研究チームが2018年のVLSIシンポジウムで発表した論文(論文番号C4-3)から

　Intelは、8bit整数と16bit整数、16bit浮動小数点のデータパスに対応した行列乗算アクセラレータを開発した(論文番号C4-4、論文タイトル : 2.9TOPS/W Reconfigurable Dense/Sparse Matrix-Multiply Accelerator with Unified INT8/INT16/FP16 Datapath in 14nm Tri-gate CMOS)。消費電力当たりの演算性能は2.9TOPS/W(電源電圧0.75V)である。

2018年 : バイナリCNNの高速・低消費アクセラレータ

　次に、畳み込みニューラルネットワーク(CNN)に関する3件の研究成果をご報告する。いずれも重みづけメモリの分解能を2値(バイナリ)に減らすことで、高速化と低消費電力化を両立させたCNNアクセラレータの開発成果である。

2018年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その2)

　韓国科学技術院(KAIST)は、カメラで取り込んだ顔画像の傾きを修正する機能を備えた、畳み込みニューラルネットワーク(CNN)ベースの顔認識プロセッサを開発した(論文番号C13-3、論文タイトル : B-Face: 0.2 mW CNN-Based Face Recognition Processor with Face Alignment for Mobile User Identification)。モバイル機器のユーザー認証用である。試作したプロセッサの消費電力は0.2mWと低い(画像認識のフレーム速度は1フレーム/秒)。

　顔画像の傾きを修正する(直立にする)回路と、2値と少ない分解能の重みづけによるCNN(バイナリCNN)回路を組み合わせることで、低い消費電力を実現した。顔認識用の画像データセット「LFW(Labeled Faces in the Wild)」を使用してテストしたときに、顔認識の精度は96%である。

従来の顔認識フロー(上)と、今回提案した顔認識フロー(下)。顔検出回路とCNNによる認識を使った従来の方式では、顔が傾いた画像だと認識精度が低下する。今回提案した方式では、顔の傾きを検出して、直立した顔の画像に修正する前処理を設けた。認識にバイナリCNNを使っても、十分な認識精度を得られる。韓国科学技術院が2018年のVLSIシンポジウムで発表した論文(論文番号C13-3)から

試作した顔認識プロセッサのシリコンダイ写真(左)と概要(右)。韓国科学技術院が2018年のVLSIシンポジウムで発表した論文(論文番号C13-3)から

　中国の清華大学と北京航空航天大学(Beihang University)の共同研究チームは、バイナリCNNベースの音声認識プロセッサを開発した(論文番号C13-4、論文タイトル : A 141 uW, 2.46 pJ/Neuron Binarized Convolutional Neural Network based Self-learning Speech Recognition Processor in 28nm CMOS)。試作したプロセッサの消費電力は0.141mWと低い(動作周波数は2.5MHz)。

　スマートフォンやウエラブル機器、IoT(Internet of Things)機器などの電池動作機器を想定した。バイナリCNNベースの回路は消費電力が低いものの、そのままでは認識の精度に劣る。そこで自己学習機能を組み込むことで、音声認識の精度を高めた。中国語音声による起動の認識率は96%、コマンドの認識率は95%に達するとしている。

バイナリCNNベースの音声認識プロセッサ。左上(a)は想定する用途。音声入力によって電子機器を起動したり、操作したりする。中央上(b)は、自己学習によって音声認識の精度が向上していく様子。下(c)は音声認識のフロー。清華大学と北京航空航天大学の共同研究チームが2018年のVLSIシンポジウムで発表した論文(論文番号C13-4)から

試作したプロセッサのシリコンダイ写真(左)と概要(右)。清華大学と北京航空航天大学の共同研究チームが2018年のVLSIシンポジウムで発表した論文(論文番号C13-4)から

　米国のプリンストン大学とAnalog Devicesの共同研究グループは、バイナリCNNの入力層と隠れ層を高速に処理するアクセラレータを開発した(論文番号C13-5、論文タイトル : A Mixed-Signal Binarized Convolutional-Neural-Network Accelerator Integrating Dense Weight Storage and Multiplication for Reduced Data Movement)。重みづけとアクティベーションを2値化(バイナリ化)したバイナリニューラルネットワーク(BNN)を、SRAMベースの演算回路で処理する。ピーク性能は9.438TOPS、消費電力当たりの性能は658TOPS/Wときわめて高い。

試作したアクセラレータのシリコンダイ写真。プリンストン大学とAnalog Devicesの共同研究グループが2018年のVLSIシンポジウムで発表した論文(論文番号C13-5)から

試作したアクセラレータの性能。上の表は試作したアクセラレータの概要を類似の研究成果と比較したもの。下の表は試作したアクセラレータの画像認識精度をソフトウェア処理の精度と比較したもの。「chip」とあるのが試作したアクセラレータ、「SW」とあるのがソフトウェア処理。機械学習用の画像データセットには「MNIST」、「CIFAR(Canadian Institute For Advanced Research)-10」、「SVHN(The Street View House Numbers)」を使用した。プリンストン大学とAnalog Devicesの共同研究グループが2018年のVLSIシンポジウムで発表した論文(論文番号C13-5)から

2018年 : 4Kビデオ符号化の消費電力を深層学習で大幅に低減

　ここからは、機械学習を特定用途に応用したプロセッサや機械学習に関する新しい試みなどを報告する。4件の発表がある。

2018年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その3)

　台湾のMediatekは、深層学習によって消費電力を低減した4K×2Kビデオ符号化(H.264/H.265)LSIを開発した(論文番号C24-2、講演タイトル : A 0.76mm² 0.22nJ/Pixel DL-assisted 4K Video Encoder LSI for Quality-of-Experience over Smart-Phones)。スマートフォンの動画撮影用である。撮影した画像のなかで、ユーザーが注目する部分を深層学習によって抽出し、符号化処理による画像の品質を調整する。具体的には、ユーザーが注目しない部分の画質を下げることで、高い処理速度と消費電力の低減を両立させる。試作したLSIは、消費電力を従来に比べて82.3%削減できた。

試作した4Kビデオ符号化LSIの概要(左)と評価ボード(右上)、シリコンダイ写真(右下)。Mediatekが2018年のVLSIシンポジウムで発表した論文(論文番号C24-2)から

　台湾の国立台湾大学と国立台湾大学病院、国立交通大学の共同研究チームは、サポートベクトルマシン(SVM)による学習機能を備えた医療用プロセッサを開発した(論文番号C24-3、論文タイトル : A 1.9mW SVM Processor with On-chip Active Learning for Epileptic Seizure Control)。脳波信号から、てんかんの発作を検出する用途を想定している。最終的には、てんかんの発作を抑制するシステムの構築を目指す。

　6時間の脳波信号測定を2名の被験者で実施してテストしたところ、試作したプロセッサはてんかんの発作を96.1%の精度で検出できた。また、てんかんと誤って判断する割合を、オンチップの適応学習機能によって1.83%から0.34%に減らせた。てんかん発作検出の遅延時間は適応学習なしが0.71秒、適応学習ありが0.78秒で、ほとんど変わらなかった。

試作した医療用プロセッサのシリコンダイ写真(左上)と脳波測定からてんかんの発作を検出させた結果(右上)、実際の脳波信号波形とてんかん発作の検出結果(下)。国立台湾大学と国立台湾大学病院、国立交通大学の共同研究チームが2018年のVLSIシンポジウムで発表した論文(論文番号C24-3)から

左の表はCPUとソフトウェアによるサポートベクトルマシンの学習性能(左)と、試作したプロセッサの学習性能(右)の比較。右のグラフは学習におけるエネルギー効率とシリコンダイ面積を比較したもの。試作したプロセッサのエネルギー効率はCPUに比べて15万倍と高く、シリコン面積は364分の1と小さい。国立台湾大学と国立台湾大学病院、国立交通大学の共同研究チームが2018年のVLSIシンポジウムで発表した論文(論文番号C24-3)から

　東芝は、プロセッサエレメント(PE)のアレイによる深層学習アクセラレータに向けた高性能の8bit積和演算器(MAC)を考案した(論文番号C24-5、論文タイトル : PhaseMAC: A 14 TOPS/W 8bit GRO based Phase Domain MAC Circuit for In-Sensor-Computed Deep Learning Accelerators)。考案したコンセプトを実証するシリコンダイを試作し、アナログMACに比べて電力効率が48%向上することと、シリコン面積が26.6分の1に小さくなることを確かめた。

　Intelは、4,096個のニューロンと1,024×1,024個の8bitシナプスを集積したスパイキングニューラルネットワーク(SNN)のアクセラレータを試作した(論文番号C24-1、論文タイトル : A 4096-neuron 1M-synapse 3.8pJ/SOP Spiking Neural Network with On-chip STDP Learning and Sparse Weights)。MNISTデータセットの推論精度は97.9%、消費エネルギーは1.7μJである。

　2018年のVLSIシンポジウムで発表されたAI関連の研究成果はまだある。今年(2019年)のVLSIシンポジウムで発表された研究成果とともに、次回(完結編)でご紹介したい。