福田昭のセミコン業界最前線

VLSIシンポジウムが「AIハードウェア」シンポジウムになる日【前編】

～2010年～2016年のシンポジウムからAI関連の研究成果を総ざらい

福田昭

2019年7月17日 06:00

　半導体のデバイス技術と回路技術の研究成果が披露される国際学会「VLSIシンポジウム」で、人工知能(AI : Arificial Interigence)のハードウェアに関する研究が一気に台頭してきた。筆者が2010年～2019年までに開催された過去10回のVLSIシンポジウムにおける講演論文(招待論文を除く)を調査したところ、AIハードウェア関連の論文数が2016年以降に急激に増加していることが、明らかになった。

　VLSIシンポジウムは半導体のデバイス技術と回路技術の両方をカバーしていることから、半導体技術の研究開発における全体的な傾向を把握するのに最適な国際学会だと言える。この学会でAIハードウェア関連の発表が急増していることは、半導体の研究開発コミュニティがAIハードウェアに対する興味と関心を急速に高めていることを強く示唆する。

2010年～2019年のVLSIシンポジウムにおける講演論文の総数(技術シンポジウムと回路シンポジウムの合計)と、AIハードウェア関連の講演論文数、講演論文の総数に占めるAIハードウェア関連の割合。VLSIシンポジウムの論文集から筆者がカウントしたもの。論文数はいずれも招待論文を含まない

　VLSIシンポジウムにおける講演論文(招待論文を除く)の総数は過去10年間、180件前後で安定してきた。そのなかでAIに関する論文は、2010年代の前半にはかなり少ない数にとどまっていた。2010年と2011年はゼロ件。2012年は2件、続く2013年は3件と増えたものの、2014年は2件に減り、2015年は1件とさらに減っていった。

　変化がはじまったのは2016年である。この年、AIに関する論文の件数は5件となり、前年の1件から急増した。続く2017年には、講演論文の件数は8件とさらに増えた。VLSIシンポジウムの講演論文(招待論文を除く)の総数に占める割合は4.5%に高まり、半導体の研究開発における新しい分野が確立したと言える状態となった。

　そして2018年。VLSIシンポジウムで発表されたAIに関する論文(招待論文を除く)の件数は、21件と前年の約2.6倍に急増した。論文総数に占める割合は11.7%に拡大し、半導体の研究開発における主要な分野へと一気にのし上がってきた。

　2019年(今年)のVLSIシンポジウムは、AI分野における前年の論文数急増が1回かぎりのブームなのかどうかに、関心が集まった。実際には前年を超える23件の研究論文が発表された。論文総数に占める割合は12.6%に増加した。半導体の研究開発におけるAIブームは、短くても2年は続いていることが証明されたとも言える。

第3次のAIブームが2010年代半ばに勃発

　半導体の研究開発における2016年以降のAIブームは、2010年代半ばに勃発した「人工知能(AI)ブーム」に触発されたものであるのは明らかだ。AIに関する研究開発の歴史は60年以上とかなり長い。本コラムで以前にご報告(「機械学習」が最先端半導体回路の研究を熱くする)したように、AIの研究開発は過去に盛況だった時代(ブーム)と、冷え込んだ時代(冬の時代)を繰り返してきた。今回のブームは「第3次人工知能(AI)ブーム」と呼ばれている。

AIの研究開発における過去の「ブーム」と「冬の時代」

　2010年代にはじまった第3次のAIブームを引き起こすきっかけとなったのは、ビッグデータ(大量のデータ)を活用した「機械学習」と、機械学習のなかでもデータの特徴を自動的に抽出する技術「深層学習」である。粗く言ってしまうと、まず、インターネット技術の普及によって大量のデータが普遍的に存在するようになったことが、機械学習の研究開発を加速した。そして機械学習の弱点であった特徴抽出を自動化する深層学習の登場とその劇的な効果が、AIの研究開発に関する爆発的な広がりを生み出した。

2010年代前半に起きたAI研究のおもなトピックス

　これらの動きに呼応するように、半導体技術の研究開発でもAIを対象とする事例が急激に増加してきた。

2010年～2013年 : 機械学習で画像やパターンなどを認識

　とは言うものの、すでに述べたように、2010年代前半における動きはそれほど活発とは言えなかった。2010年以降のVLSIシンポジウムにおけるAI関連の発表を、単年ごとに見ていこう。なお発表はいずれも一般講演であり、招待講演は含まれていない。

　2010年と2011年は、VLSIシンポジウムで発表されたAI関連の研究成果はゼロ件だった。AI関連半導体の研究に関しては「冬の時代」が続いていたとも言える。

　2012年には、1件の発表があった。自動車の運転自動化を支援する画像処理SoCの開発成果である。発表者は台湾の国立台湾大学(論文番号C18-2)。機械学習の専用回路を内蔵したSoCであり、物体(前方を走行する自動車)を認識して追跡する機能を備えた。140ｍの距離にある物体を60フレーム/秒の速度で認識する。

2012年のVLSIシンポジウムで発表されたAI関連の研究成果

カメラで取り込んだ画像から自動車を認識して追跡するシステム。国立台湾大学が2012年のVLSIシンポジウムで発表した論文(論文番号C18-2)から

試作した画像処理SoCの概要(左)とシリコンダイ写真(右)。国立台湾大学が2012年のVLSIシンポジウムで発表した論文(論文番号C18-2)から

　続く2013年には、3件の発表があった。1件はパナソニックの研究成果で、3端子の強誘電体記憶素子をシナプスとするニューラルネットワークのアクセラレータである(論文番号T16-2)。9個のニューロンと144個のシナプスを搭載したシリコンダイを試作し、STDP(Spike Timing Dependent Plasticity)による学習を実行してみせた。

2013年のVLSIシンポジウムで発表されたAI関連の研究成果

パナソニックが試作したアクセラレータのシリコンダイ写真。1個のニューロンに16個のシナプスがつながっている。同社が2013年のVLSIシンポジウムで発表した論文(論文番号T16-2)から

　もう1件は韓国科学技術院(KAIST)の研究成果である(論文番号C14-2)。リアルタイムに物体を認識する用途に向けた。ニューロファジイ技術を使って、自分に近づきつつある物体を認識するプロセッサを試作した。

KAISTが試作した物体認識プロセッサの概要(左)とシリコンダイ写真(右)。KAISTが2013年のVLSIシンポジウムで発表した論文(論文番号C14-2)から

　3件目は、台湾の国立交通大学を中心とする研究チームによる開発成果である(論文番号C20-3)。携帯型の心電モニターに応用することを想定したパターン認識用プロセッサ(SoC)を試作した。機械学習の結果を利用して心臓の異常を検出する。試作したプロセッサは不整脈を95.8%、心筋梗塞を99%の精度で検知できた。

機械学習を利用したプロセッサ(SoC)の応用例。携帯型心電モニターが心筋梗塞(MI)を検知する様子。国立交通大学を中心とする研究チームが2013年のVLSIシンポジウムで発表した論文(論文番号C20-3)から

試作したSoCの概要(右)とシリコンダイ写真(左)。国立交通大学を中心とする研究チームが2013年のVLSIシンポジウムで発表した論文(論文番号C20-3)から

2014年～2015年 : 学習速度がGPGPUの8倍と高い機械学習プロセッサ

　2014年のVLSIシンポジウムでは、AIハードウェアに関する2件の研究成果が発表された。1件は、米国ミシガン大学によるニューロモルフィックコンピューティングの研究成果である(論文番号C8-1)。人間の脳における視覚受容野を模倣したスパース符号化による画像の学習と推論を、オンチップで実行するASICを試作した。試作したASICでの学習は数秒で完了する。推論の性能は1.24G画素/秒(電源電圧1.0V、動作周波数310MHz)。

2014年のVLSIシンポジウムで発表されたAI関連の研究成果

スパース符号化によって人間の脳における1次視覚野の処理を模倣する手順。ニューロンモデルの受容野における重み付けの合計によって入力画像を再構成する。ミシガン大学が2014年のVLSIシンポジウムで発表した論文(論文番号C8-1)から

試作したASICの概要。256個のニューロンと128K個のシナプスを内蔵した。ミシガン大学が2014年のVLSIシンポジウムで発表した論文(論文番号C8-1)から

　もう1件は、台湾の国立交通大学による機械学習プロセッサの研究成果である(論文番号C16-3)。ビッグデータの分析などを想定して開発した。学習によってデータ密度を推定する。推定アルゴリズムにはベイズ逐次分割(BSP)を用いた。ハードウェアのアーキテクチャはMIMD(Multiple Instruction-Multiple Data)方式のプロセッサアレイである。試作した機械学習プロセッサの処理速度は、CPUによる機械学習の219.9倍、GPGPUによる機械学習の8.2倍に達するとした。

試作した機械学習プロセッサ(「D2MLP」と呼称)の概要(右)とシリコンダイ写真(左)。国立交通大学が2014年のVLSIシンポジウムで発表した論文(論文番号C16-3)から

試作したD2MLPとCPU、GPGPUとの性能比較。左上(a)は学習に必要な時間、右上(b)は学習に必要なエネルギー、左下(c)は開発したプロセッサの学習時間が各種の工夫によって短縮される様子。右下(d)はデータの次元数と処理時間の関係。国立交通大学が2014年のVLSIシンポジウムで発表した論文(論文番号C16-3)から

　続く2015年には、1件の発表があった。米国のカーネギーメロン大学とスタンフォード大学、Intelの共同研究グループによる開発成果である(論文番号T14-4)。多値記憶の抵抗変化メモリによって発振周波数を変化させる発振器を試作した。神経回路網の振動現象を模倣したニューラルネットワークをパターン認識に応用することを目指している。

2015年のVLSIシンポジウムで発表されたAI関連の研究成果

2016年 : 深層学習を高速・低消費に実行するプロセッサが登場

　すでに説明したように、2016年のVLSIシンポジウムではAIハードウェアに関する発表が5件と急増した。そして同シンポジウムではたぶんはじめて、深層学習のハードウェアに関する研究成果が登場した。2件の深層学習ハードウェアに関する論文が発表された。

2016年のVLSIシンポジウムで発表されたAI関連の研究成果

2016年のVLSIシンポジウムで発表されたAI関連の研究成果(続き)

　最初の1件は、ベルギーのルーベンカトリック大学による発表である(論文番号C17-1)。畳み込みニューラルネットワーク(CNN)の処理を高速かつ低消費電力に実行するプロセッサ(CNNプロセッサ)を試作した。CNNプロセッサは、256個のSIMD(Single Instruction-Mutiple Data)方式の積和(MAC)演算ユニットを2次元マトリクス状に配置したコアを内蔵する。演算処理のビット数を変更可能にすることで、用途の異なるCNN処理に対応した。性能は0.3TOPS/W～2.6TOPS/W(動作周波数は204MHz、ビット数の違いによって性能が変化)である。

畳み込みニューラルネットワーク(CNN)の構造例と、用途によるパラメータの違い。ルーベンカトリック大学が2016年のVLSIシンポジウムで発表した論文(論文番号C17-1)から

試作したCNNチップの概要。ルーベンカトリック大学が2016年のVLSIシンポジウムで発表した論文(論文番号C17-1)から

試作したCNNチップの性能。横軸は電源電圧、左の縦軸は動作周波数、右の縦軸は電力効率。扱うデータのビット数を小さくすることで、電力効率が向上することがわかる。ルーベンカトリック大学が2016年のVLSIシンポジウムで発表した論文(論文番号C17-1)から

　次の1件は、米国のミシガン大学による研究成果である(論文番号C17-2)。ディープニューラルネットワークのスパース化によって電力効率を向上させた、物体認識用の深層学習プロセッサを試作した。2層の制限付き畳み込みボルツマンマシン(CRBM : convolutional restricted Boltzman machine)と1層のサポートベクトルマシン(SVM : support vector machine)によって推論を実行する。10.98TOPS/Wの性能(電源電圧0.65V、動作周波数120MHz)を得た。

2層の制限付きCRBMと1層のSVMによってDBN(Deep Brief Network : ディープニューラルネットワークの一種)を構成。ミシガン大学が2016年のVLSIシンポジウムで発表した論文(論文番号C17-2)から

試作したプロセッサの概要(左端)。中央と右端は類似の研究成果で、比較のために掲載している。ミシガン大学が2016年のVLSIシンポジウムで発表した論文(論文番号C17-2)から

　ここからは、残りの3件の研究成果を順次、簡単に説明していこう。最初は、米国のプリンストン大学によるインメモリコンピューティングの研究成果である(論文番号C23-5)。6個のトランジスタで構成したSRAMセルのアレイ(128×128個のセルアレイ)に演算機能を付与することで、機械学習による推論を実行させた。10種類の手書き数字の認識に要するエネルギーは、633pJ(動作周波数50MHz)とかなり小さい。

試作した機械学習チップの概要(右)とシリコンダイ写真(左)。プリンストン大学が2016年のVLSIシンポジウムで発表した論文(論文番号C23-5)から

　次は、米国のスタンフォード大学と台湾の国家実験研究院(NARLabs)による共同研究グループの研究成果である(論文番号T18-2)。抵抗変化メモリの記憶素子を垂直方向に積層した3次元アレイをニューラルネットワークのシナプスに応用することで、高速かつ低消費のニューラルネットワークアクセラレータの実現を目指す。4個の抵抗変化記憶素子を垂直に形成したストリングとFinFETをモノリシックに接続したテスト回路を試作した。

4層の3次元記憶素子をニューラルネットワークのシナプスに利用したパターン認識回路の構造図。スタンフォード大学と国家実験研究院(NARLabs)の共同研究グループが2016年のVLSIシンポジウムで発表した論文(論文番号T18-2)から

試作したテスト回路の構造(左上)と製造工程(左下)、抵抗変化記憶素子の断面を透過型電子顕微鏡(TEM)で観察した画像(右)。スタンフォード大学とNARLabsの共同研究グループが2016年のVLSIシンポジウムで発表した論文(論文番号T18-2)から

　最後は、イタリアのミラノ工科大学と米国のMicron Technologyによる共同研究チームの研究成果である(論文番号T18-3)。抵抗変化メモリをニューラルネットワークのシナプスに応用することを目指す。従来のシナプス向け抵抗変化メモリは、2個のトランジスタと1個の記憶素子でシナプスを構成していた(2T1R方式)。これを1個のトランジスタと1個の記憶素子に変更する(1T1R方式)ことで、シリコン面積を削減した。

　2017年以降のVLSIシンポジウムにおけるAI関連の研究成果は、本コラムの後編でご紹介したい。