福田昭のセミコン業界最前線

VLSIシンポジウムが「AIハードウェア」シンポジウムになる日【完結編】

~2018年~2019年のシンポジウムからAI関連の研究成果を総ざらい

2018年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その4)

 「人工知能(AI)」のハードウェア技術に関する研究開発が、急速に活発化してきた。そのほとんどは、半導体のプロッサ技術やメモリ技術などによってAIのハードウェアを高速かつ低消費電力にしようとする研究である。このような動きを反映し、半導体のデバイス技術と回路技術の研究成果が披露される国際学会「VLSIシンポジウム」における人工知能(AI)関連の発表件数は2016年以降に急激に増加した。全体の発表件数に占めるAI関連の割合は、2010年代前半は5%にも満たなかった。それが昨年(2018年)には11.7%と一気に増加し、今年(2019年)も12.6%と勢いが続いている。

 そこで本コラムでは、過去10年(2010年~2019年)のVLSIシンポジウムにおける人工知能(AI)関連の研究成果を総ざらいしている。はじめに「前編」では、2010年~2016年のAI関連発表をまとめた。続く「後編」では、2017年~2018年(一部を除く)のAI関連発表を解説した。

 本編(完結編)では、2018年の残りと2019年のAI関連発表をまとめて概観する。2018年のAI関連の研究成果は21件である。その中で今回は、後編で紹介しきれなかった残りの10件を報告する。それから2019年のAI関連の研究成果を概観する。発表件数は23件である。

2018年:機械学習の性能を高める新しいアイデアが続出

 2018年はまず、機械学習の性能を高める新しい技術を中心に、4件の研究成果を報告する。

 米Qualcom Technologiesは、機械学習のアクセラレータ向けに改良した高速のレジスタファイル(RF)を開発した(論文番号C2-2、論文タイトル:A 7nm Double-Pumped 6R6W Register File for Machine Learning Memory)。3本の読み出しポートと3本の書き込みポートを備えており、クロックサイクル当たりで2回のデータアクセスを実行する。

 128×32bitのRFを内蔵するテストチップ(シリコンダイ)を試作し、性能を評価した。実測では、クロックサイクル当たりで1回のデータアクセスに比べ、読み書きのスループットを最大で73%高められた(電源電圧は0.64V)。シミュレーションでは、同じスループット(12Gワード/秒)のときに消費エネルギーを42%削減できている。

試作したテストチップのシリコンダイ写真(上と中央)と概要(下)。Qualcom Technologiesが2018年のVLSIシンポジウムで発表した論文(論文番号C2-2)から

 IBMのT.J. ワトソン研究所は、ディープニューラルネットワークの学習用重みづけメモリにキャパシタベースのクロスポイントアレイを適用することを提案した(論文番号T3-1、論文タイトル:Capacitor-Based Cross-Point Array for Analog Neural Network with Record Symmetry and Linearity)。DRAM用溝形キャパシタと3個のトランジスタによるアナログメモリセルを、クロスポイントアレイにレイアウトする。

 低消費電力化を目指したディープニューラルネットワークの重みづけメモリには、不揮発性メモリセルのクロスポイントアレイが数多く提案され、テスト回路が試作されてきた。IBMの論文によると、不揮発性メモリは推論用の重みづけメモリには適しているものの、学習用にはあまり適さない。学習用ニューラルネットワークの重みづけには例えば1,000ステップといった非常に細かな調整が必要なこと、重みづけの値(ステップ)の上昇と下降に入力パルスに対する対称性と線形性が要求されることが、その理由である。

 これに対してキャパシタは、蓄積する電子の数が十分に多ければ、重みづけのステップ数を多く確保できるとともに、重みづけ値(ステップ)の上昇と下降に対称性と線形性をもたせられると主張する。DRAM用キャパシタで問題となるリーク電流は、学習用ニューラルネットワークでは重みづけの値がひんぱんに更新されるので、問題にはならない(学習精度には影響を与えない)という。

 メモリセルを試作して重みづけメモリとしての性能を測定するとともに、シミュレーションによって学習の性能を推定した。試作したメモリセルは、400ステップの上昇と下降を10サイクル繰り返することができた。また相変化メモリ(PCM)や抵抗変化メモリ(ReRAM)などをベースにした重みづけメモリに比べ、格段に優れた対称性と線形性を示した。MNISTデータセットを使った学習のシミュレーションでは、97%の精度を得た。

DRAMキャパシタをベースとする学習用重みづけメモリ。左は単位セルの回路図。中央は4×5のクロスポイントアレイの回路図。右はクロスポイントアレイをシリコンにレイアウトした図面。IBMが2018年のVLSIシンポジウムで発表した論文(論文番号T3-1)から
重みづけメモリ用技術による非線形性と対称性の違い。縦軸はステップダウン、横軸はステップアップしたときの非線形性。「ゼロ」が完全に線形であることを意味する。グラフ内の直線は対称性が完全なときのプロット。「This work」とある星型のプロットが今回のメモリ技術。IBMが2018年のVLSIシンポジウムで発表した論文(論文番号T3-1)から

 米国のコロンビア大学とアリゾナ州立大学の共同研究チームは、SRAMセルとXNOR(排他的論理和の否定)ゲート、累算器(アキュムレータ)をまとめたインメモリコンピューティング(IMC:In-Memory Computing)のマクロをアレイ状にならべた2値/3値ディープニューラルネットワークを考案した(論文番号T16-3、論文タイトル:XNOR-SRAM: In-Memory Computing SRAM Macro for Binary/Ternary Deep Neural Networks)。256×64のアレイとフラッシュA-D変換器などを内蔵するシリコンダイを試作している。ディジタルASICに比べ、消費エネルギーを33分の1に、消費エネルギー遅延時間積(EDP)を300分の1と大幅に削減した。MNISTデータセットによる推論精度は98.3%である。

試作したシリコンダイの写真。256×64のSRAMアレイやフラッシュA-D変換器などを内蔵する。コロンビア大学とアリゾナ州立大学の共同研究チームが2018年のVLSIシンポジウムで発表した論文(論文番号T16-3)から
インメモリコンピューティング用ハードウェアに関する最近の研究成果との比較。コロンビア大学とアリゾナ州立大学の共同研究チームが2018年のVLSIシンポジウムで発表した論文(論文番号T16-3)から

 台湾の国立交通大学とUMC(United Microelectronics Corp.)の共同研究グループは、FinFETのしきい電圧をシナプスとする、フィールドプログラマブルなシナプスアレイを考案した(論文番号T3-3、論文タイトル:An Energy Efficient FinFET-Based Field Programmable Synapse Array (FPSA) Feasible for One-Shot Learning on EDGE AI)。

 エッジ端末のニューラルネットワークにおけるワンショット学習(1回だけの学習)向けである。クラウドやサーバーなどにおける機械学習と違い、エッジ端末ではハードウェアの規模が小さく、許容できる消費電力が低い。このため、回路の規模をなるべく小さくしつつ、消費電力を下げたシナプスが求められる。

 一方でエッジ端末では大掛かりな学習の必要性があまりない。極端に言ってしまうと、1回限りの学習が実行可能であれば実用的には十分であることが少なくない。そこで、クラウドで事前に学習ずみのニューラルネットワークのモデルをエッジ端末のニューラルネットワークに転送し、エッジ端末ではワンショット学習だけで済ませる使い方を想定した。

 回路規模がもっとも小さなデバイスは、1個のトランジスタである。そこで国立交通大学とUMCの共同研究グループはFinFETのしきい電圧をシナプス(重みづけメモリ)とすることを考えた。しきい電圧は、ホットキャリア効果によって調整する。電圧パルス列をFETのソースドレイン間に加え、電圧パルスを徐々に高くすることによってしきい電圧を上昇させる。言い換えると、ドレイン抵抗を高める。

 実際にFinFETを試作し、しきい電圧とドレイン抵抗を電圧パルス列によって調整できることを確かめた。またシミュレーションによると、抵抗変化タイプの不揮発性メモリ(相変化メモリや抵抗変化メモリなど)をシナプスとしたアレイに比べ、同じ規模のアレイで読み出し電力が10分の1と低くてすむ。ただし学習そのものに必要な消費電力はかなり大きく、課題が残るようだ。

左の表は、人工知能(AI)の学習におけるクラウド(サーバー)とエッジ(端末)の条件の違い。右の図は応用として想定したAIシステム。大量のリソースを要する学習作業はクラウド(サーバー)であらかじめ済ませておく(事前学習)。事前学習ずみのニューラルネットワークのモデルをエッジ(端末)に移し換える。エッジ(端末)での学習は実行可能であるものの、少量のリソースですむワンショット学習(1回限りの学習)に限定する。国立交通大学とUMCの共同研究グループが2018年のVLSIシンポジウムで発表した論文(論文番号T3-3)から
左のグラフはFinFETに加える電圧パルス列と、しきい電圧の変化(イメージ)。電圧をじょじょに高くしていくことで、しきい電圧をリニアに上げていく。中央のグラフは電圧パルス数としきい電圧の変化量の関係(測定値)。約45回の電圧パルス印加によってnチャンネルFinFETのしきい電圧は約0.2V上昇し、pチャンネルFinFETのしきい電圧は約0.5V上昇した。右のグラフは電圧パルス数とドレイン抵抗の関係(測定値)。約45回の電圧パルス印加によってnチャンネルFinFETのドレイン抵抗は8倍に、pチャンネルFinFETのドレイン抵抗は175倍に増大した。国立交通大学とUMCの共同研究グループが2018年のVLSIシンポジウムで発表した論文(論文番号T3-3)から

2018年:ReRAMをシナプスにした低消費のニューラルネットワーク

 2018年は続いて、抵抗変化メモリ(ReRAM)技術をニューラルネットワークに応用する4件の研究成果を紹介する。アナログReRAMに演算機能を持たせる、アナログReRAMをシナプス(あるいは重みづけメモリ)に利用する、といった成果である

2018年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その5)

 パナソニック セミコンダクターソリューションズは、アナログの抵抗変化メモリ(アナログReRAM)をシナプスに応用したニューラルネットワーク演算処理チップを開発した(論文番号T16-4、論文タイトル:A 4M Synapses Integrated Analog ReRAM Based 66.5 TOPS/W Neural-Network Processor with Cell Current Controlled Writing and Flexible Network Architecture)。

 試作したチップのニューラルネットワークは、2個のReRAMセルで1個のシナプスを構成する。ReRAMセルのアレイは積和(MAC)演算機能を備える。ニューラルネットワークの入出力を2値化(バイナリ化)することで、アナログデジタル(A-D)変換回路およびデジタルアナログ(D-A)変換回路を不要にした。またニューラルネットワークの構成は外づけのコントローラによって変更可能である。

 180nm世代の製造技術で2M個のシナプスを内蔵する演算処理チップと、40nm世代の製造技術で4M個のシナプスを内蔵する演算処理チップを試作した。消費電力当たりの性能は、2M個のシナプスを内蔵する演算処理チップが20.7TOPS/W、4M個のシナプスを内蔵する演算処理チップが66.5TOPS/Wである。MNISTデータセットを使った学習による推論精度は最高で90.5%と、それほど高くはない。

試作したニューラルネットワーク演算処理チップのシリコンダイ写真。左は180nm技術で製造したシリコンダイ、右は40nm技術で製造したシリコンダイ。なお寸法は左右でそろっていないので、注意されたい。パナソニックセミコンダクターソリューションズが2018年のVLSIシンポジウムで発表した論文(論文番号T16-4)から
試作したニューラルネットワーク演算処理チップと、SRAMをベースとするニューラルネットワーク演算処理技術を比較した表。右端の2列が試作チップ。パナソニックセミコンダクターソリューションズが2018年のVLSIシンポジウムで発表した論文(論文番号T16-4)から

 中国の清華大学と米国のアリゾナ州立大学の共同研究チームは、ニューラルネットワークのシナプスに適用するアナログ抵抗変化メモリ(アナログReRAM)の線形性を高める手法を考案した(論文番号T10-1、論文タイトル:A Methodology to Improve Linearity of Analog RRAM for Neuromorphic Computing)。ハフニウム酸化物(HfOx)を記憶素子とするReRAMセルである。トップ電極とハフニウム酸化物層の間に、「ETML(Electro-Thermal Modulation Layer)」と呼ぶ層を挿入することで、熱伝導率を向上させるとともに酸素空孔分布を均一化することで、非線形性の低減を図った。

 ETML層を改良することで、ReRAM記憶素子のセット動作における非線形性を当初の0.96から0.04まで大幅に低減し、リセット動作における非線形性を当初のマイナス3.26からマイナス0.63までこれも大きく低減した。MNISTデータセットの学習精度に与える誤差に換算すると、当初の6%から、最終的には1%にまで削減できたという。

 中央大学は、ディープニューラルネットワーク(DNN)によって画像を認識する用途に向け、抵抗変化メモリ(ReRAM)の長期信頼性を向上させる方法を考案した(論文番号T10-4、論文タイトル:5x Reliability Enhanced 40 nm TaOx Approximate-ReRAM with Domain-Specific Computing for Real-Time Image Recognition of IoT Edge Devices)。IoTのエッジ端末で画像をリアルタイム認識するモジュールを想定している。ReRAMには主に、画像のデータを格納する。

 隣り合う画素のデータ(例えば8bitデータ)は、最大ビット(MSB)が同じであることが多い。一方、ReRAMは低抵抗状態(LRS)で不良が発生することが多く、高抵抗状態(HRS)では不良の発生が少ない。

 そこで隣接する画素で最大ビット(MSB)が異なるときはLRS、同じときはHRSをReRAMに格納する。この工夫によってReRAMのデータ保存不良を81%削減できた(測定値)。さらに、隣接する画素間で同じオーダーのビット間に誤り訂正をかける。これら2つの工夫によってReRAMのデータ保存期間を5倍に延ばすとともに、データ書き換え回数を3.3倍に増やすことができた(測定値)。

左は、IoTのエッジ端末で画像をリアルタイムで認識するモジュールのイメージ。ReRAMダイにReRAMコントローラ、画像認識プロセッサ、アナログデジタル変換チップ、イメージセンサなどを積層する。中央と左はReRAMとReRAMコントローラによって8bitの画素データを操作する様子。このようなReRAMを「A-ReRAM(Approximate-ReRAM)」と呼んでいた。中央大学が2018年のVLSIシンポジウムで発表した論文(論文番号T10-4)から

 中国の清華大学と米国のスタンフォード大学の共同研究チームは、抵抗変化メモリ(ReRAM)のセルアレイ内部で行列同士の乗算を実行してアレイ内に結果を格納するクロスポイントアレイを開発した(論文番号T3-4、論文タイトル:Novel In-Memory Matrix-Matrix Multiplication with Resistive Cross-Point Arrays)。従来のクロスポイント構造ReRAMセルアレイで行列同士の乗算を実行する場合に比べ、演算に必要なサイクル数を4分の1に減らすとともに、消費エネルギーを43%削減し、シリコン面積を70%縮小できたとする。

 従来のクロスポイント構造ReRAMセルアレイで行列同士の乗算を実行する場合には、アナログの出力値をデジタル値に変換するA-D変換回路と、結果を格納する別のメモリを必要としていた。このため演算のサイクル数が多くなる、消費エネルギーが増加する、シリコンダイ面積が拡大するといった課題を抱えていた。そこでReRAMセルアレイ内部で乗算を実行して結果を同じセルアレイに格納する、クロスポイント構造を考案した。具体的には2つの行列の列(カラム)と行(ロウ)を順番にかけ合わせ、結果を順次、足していく。こうすることで、セルアレイ内部で演算を完結させた。

行列同士の演算を実行する回路のブロック図。左(a)は、従来の回路方式(VMM:Vector-Matrix Multiplication)。ReRAMのクロスポイントアレイのほかに、A-D変換回路と結果格納用メモリを必要とする。右(b)は開発した回路方式(M2M:in-memory Matrix-Matrix Multiplication)。クロスポイントアレイの規模は増大するものの、A-D変換回路と結果格納用メモリを省ける。清華大学とスタンフォード大学の共同研究チームが2018年のVLSIシンポジウムで発表した論文(論文番号T3-4)から
3×3の行列同士を乗算するフロー。2つの行列の列(カラム)と行(ロウ)を順番にかけ合わせて結果を合計する。清華大学とスタンフォード大学の共同研究チームが2018年のVLSIシンポジウムで発表した論文(論文番号T3-4)から

2018年:3D NAND技術を活用した機械学習用大容量メモリ技術

 このほか2018年のVLSIシンポジウムでは、AIハードウェアに関する2件の研究成果が報告された。1件は3D NAND製造技術を応用した大容量フラッシュメモリ技術の発表、もう1件は絶縁物から金属に相転移する材料をニューロンに応用する技術の発表である。

2018年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その6)

 台湾のMacronix Internationalは、機械学習用の大容量メモリに、3D NANDフラッシュ技術をベースにしたフラッシュメモリを利用することを提唱した(論文番号16-5、論文タイトル:A Novel 3D AND-Type NVM Architecture Capable of High-Density, Low-Power In-Memory Sumof-Product Computation for Artificial Intelligence Application)。64層の3次元積層構造で記憶容量が128Gbitと大きなシリコンダイを作れるとする。

 3D NANDフラッシュ技術をベースに、AND接続した3次元構造のNORフラッシュを機械学習用メモリとする。この構造によって高速な読み出しと高い記憶密度を両立させた。メモリセルを試作して特性を評価している。シミュレーションによると、消費電力当たりの性能は5~40TOPS/Wが得られるという。

 東京大学は、二酸化バナジウム(VO2)が金属と絶縁物の間で相転移する現象をニューロモルフィックコンピューティングの基本素子(スパイキングニューロン)に応用した(論文番号T3-2、論文タイトル:Analog Spike Processing with High Scalability and Low Energy Consumption Using Thermal Degree of Freedom in Phase Transition Materials)。キャパシタを使った基本素子に比べ、シリコン面積を大幅に削減できる。

 二酸化バナジウムと金属電極による不揮発性の抵抗変化記憶素子を試作し、電圧パルス列(スパイクに相当)の入力によって二酸化バナジウムが絶縁体から金属に相転移すること実験で確かめた。さらに、2個の抵抗変化記憶素子とトランジスタを組み合わせたラッチ回路を試作し、電圧パルス列の入力でスパイキングニューロンに相当する動作が起こることを確認した。

2019年:フルHDビデオをCNNで補完する超解像プロセッサ

 ここからは、2019年のVLSIシンポジウムで発表された、AIハードウェア関連の研究成果23件をまとめて紹介していく。はじめは、ニューラルネットワークの処理を高速に実行するアクセラレータあるいはプロセッサの研究成果である。5件の発表がある。

2019年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その1)

 米国のNVIDIAとスタンフォード大学、マサチューセッツ工科大学(MIT)の共同研究グループは、最大で36個のシリコンダイ(プロセッサ)をメッシュ接続する大規模な深層学習アクセラレータを開発した(論文番号C24-1、論文タイトル:A 0.11 pJ/Op, 0.32-128 TOPS, Scalable, Multi-Chip-Module-Based Deep Neural Network Accelerator with Ground- Reference Signaling in 16nm)。要求性能に応じてシリコンダイの数を変更可能である。この研究成果に関しては、後藤氏のレポート(NVIDIAが36ダイで構成するディープラーニングチップ「RC 18」を学会発表)が詳しいので、興味のある方は参照されたい。

最大で36個のシリコンダイ(プロセッサ)をメッシュ接続する大規模な深層学習アクセラレータ(論文番号C24-1)。2019年4月17日にVLSIシンポジウムの実行委員会が報道関係者に公表した資料から

 韓国科学技術院(KAIST)は、60fpsのフルHDビデオを補完処理する畳み込みニューラルネットワーク(CNN)ベースの超解像プロセッサを開発した(論文番号C24-2、論文タイトル:A Full HD 60 fps CNN Super Resolution Processor with Selective Caching based Layer Fusion for Mobile Devices)。モバイル機器の動画解像度の向上や動画像認識の精度向上などの用途を想定する。

 試作した超解像プロセッサは、解像度を480×270画素から1,920×1,080画素へ4倍に向上させたときに60fps(動作周波数200MHz)、解像度を960×540画素から1,920×1,080画素へ2倍に向上させたときに25fps(動作周波数200MHz)の処理速度を得ている。消費電力当たりの性能は1.1TOPS/W(電源電圧1.1V、動作周波数200MHz)である。

CNNベースの超解像プロセッサのシリコンダイ写真(左)と概要(右)。韓国科学技術院(KAIST)が2019年のVLSIシンポジウムで発表した論文(論文番号C24-2)から

 韓国科学技術院(KAIST)はさらに、バイナリ形式の直接帰還アラインメント(DFA)によってエネルギー効率を向上させたディープニューラルネットワーク(DNN)の学習用プロセッサを発表した(論文番号C24-3、論文タイトル:A 1.32 TOPS/W Energy Efficient Deep Neural Network Learning Processor with Direct Feedback Alignment based Heterogeneous Core Architecture)。試作したプロセッサの性能(消費電力当たり)は0.77~1.32TOPS/Wである。

 米国のミシガン大学とNVIDIAの共同研究グループは、スパースニューラルネットワーク(SNN)による推論処理を高速に実行するプロセッサを開発した(論文番号C24-4、論文タイトル:SNAP: A 1.67 – 21.55TOPS/W Sparse Neural Acceleration Processor for Unstructured Sparse Deep Neural Network Inference in 16nm CMOS)。また米国のミシガン大学とワシントン大学、アリゾナ州立大学の共同研究チームは、スパース行列(Sparse Matrix)の行列積を高速に計算するアクセラレータを試作した(論文番号JFS1-2、論文タイトル:A 7.3 M Output Non-Zeros/J Sparse Matrix-Matrix Multiplication Accelerator Using Memory Reconfiguration in 40 nm)。

2019年:AIハードウェアの消費電力をメモリ技術で大幅に削減

 続いて、メモリ技術をAIハードウェアに応用する研究成果を報告する。SRAM技術をベースとする発表が3件、抵抗変化メモリ(ReRAM)技術をベースとする発表が2件ある。

2019年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その2)

 ルネサス エレクトロニクスは、SRAMベースの3値メモリを重みづけに使った畳み込みニューラルネットワーク(CNN)のアクセラレータを開発した(論文番号JFS3-3、論文タイトル:A Ternary Based Bit Scalable, 8.80 TOPS/W CNN Accelerator with Many-Core Processing-in-Memory Architecture with 896K Synapses/mm2)。重みづけ用メモリとアクチベーション用SRAMなどを集積したアクセラレータを試作し、動作を確認した。性能は0.152TOPS、消費電力当たりの性能は8.80TOPS/W、消費電力は19.5mWである(電源電圧は0.72V)。

 韓国の浦項工科大学校(POSTECH)は、6トランジスタのSRAMセルをXNOR(排他的論理和の否定)の演算回路として利用するバイナリニューラルネットワーク(BNN)回路を考案した(論文番号C11-4、論文タイトル:Area-Efficient and Variation-Tolerant In-Memory BNN Computing Using 6T SRAM Array)。従来は8トランジスタあるいは12トランジスタのSRAMセルによってXNORの演算回路を構成していた。トランジスタ数を減らすことで、シリコン面積の縮小を期待できる。

 256×64個のSRAMセルアレイを内蔵したBNNアクセラレータを試作し、MNISTデータセットとCIFAR-10の推論を実行した。MNISTデータセットの推論精度(測定値)は98.42%とかなり高い。CIFAR-10の推論精度(測定値)は79.38%とやや低かった。

バイナリニューラルネットワーク(BNN)用のSRAMセルベースXNOR演算回路の例。左上と左下は8個のトランジスタで構成した回路(既存の研究成果)、右上は12個のトランジスタで構成した回路(既存の研究成果)。右下は浦項工科大学校(POSTECH)が提案した6個のトランジスタによる回路。POSTECHが2019年のVLSIシンポジウムで発表した論文(論文番号C11-4)から

 中国の清華大学と台湾の国立清華大学、中国のTsingMicro Techの共同研究グループは、バイナリ形式のリカレントニューラルネットワーク(RNN)をベースとする音声認識プロセッサを試作した(論文番号C11-5 、論文タイトル:A 5.1pJ/Neuron 127.3us/Inference RNN-Based Speech Recognition Processor Using 16 Computing-in-Memory SRAM Macros in 65nm CMOS)。モバイル機器やウエアラブル機器などで、ユーザーが音声で操作命令(コマンド)を入力する用途を想定した。試作チップは、SRAMセルを3bit出力のXNOR演算回路とする、16個のコンピューティングマクロを内蔵する。3種類の音声認識用データセットで試作したプロセッサの性能を評価した。

モバイル機器やウエアラブル機器などで、ユーザーが入力した音声(コマンド)をRNNで認識するフロー。清華大学と国立清華大学、TsingMicro Techの共同研究グループが2019年のVLSIシンポジウムで発表した論文(論文番号C11-5)から
試作した音声認識プロセッサの概要(左)とシリコンダイ写真(右下)、デモンストレーション用ボード(右上)。清華大学と国立清華大学、TsingMicro Techの共同研究グループが2019年のVLSIシンポジウムで発表した論文(論文番号C11-5)から
3種類の音声認識用データセットで試作したプロセッサの性能を評価した結果。清華大学と国立清華大学、TsingMicro Techの共同研究グループが2019年のVLSIシンポジウムで発表した論文(論文番号C11-5)から

 米国のウィスコンシン大学マディソン校とフランスのCEA-LETIによる共同研究グループは、ReRAMとCMOSロジックをモノリシックに集積した不揮発性FPGAを開発した(論文番号C17-3、論文タイトル:Liquid Silicon: A Nonvolatile Fully Programmable Processing-In-Memory Processor with Monolithically Integrated ReRAM for Big Data/Machine Learning Applications)。機械学習用である。130nm世代のCMOS技術で128×128bitのReRAMを内蔵したFPGAダイを試作した。

試作した不揮発性FPGAの概要(左下)とシリコンダイ写真(右上)、評価ボード(右下)。ウィスコンシン大学マディソン校とCEA-LETIによる共同研究グループが2019年のVLSIシンポジウムで発表した論文(論文番号C17-3)から

 ベルギーのimecとルーベンカトリック大学の共同研究チームは、ReRAMを使って歩容認識のモデルを構築した機械学習エンジンを考案した(論文番号T8-2、論文タイトル:Gait Identification Using Stochastic OXRRAM-Based Time Sequence Machine Learning)。1MbitのReRAMセル(1T1Rセル)アレイを65nmのCMOSで試作している。大阪大学産業科学研究所の歩容データセット(OU-ISIR Gait Database)を使って歩容認識をシミュレーションしたときの等価誤り率(EER:Equal Error Rate)は、最小で10%だった。

2019年:特定用途向けのAIハードウェア技術

 ここからは、おもに特定の用途を想定したAIハードウェア技術の研究成果を報告する。いずれも不揮発性メモリ技術をベースにした。4件の発表がある。

2019年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その3)

 米国のノートルダム大学は、相変化スイッチを使った発振器によって言語音声の母音をリアルタイムで認識するニューラルネットワークを構築した(論文番号JFS1-3、論文タイトル:Spoken Vowel Classification Using Synchronization of Phase Transition Nano-Oscillators)。

 相変化スイッチは、二酸化バナジウム(VO2)が絶縁体と金属の間で相転移する現象を利用したもの。4個の発振器を試作して母音認識の学習を実行した。学習用データは5種類の母音を含んだ音声信号で、各種類ごとに40個のサンプルを用意した。学習の精度は最大で96%である。各種類ごとに20個のテスト用サンプルを使った推論(分類)の精度は平均で90.5%だった。

 米国のデューク大学と台湾の国立清華大学、台湾工業技術院、国立中興大学、米国の空軍研究所の共同研究グループは、畳み込みニューラルネットワーク(CNN)あるいはフルコネクトニューラルネットワーク(FC-NN)に向けたインメモリコンピューティング回路を開発した(論文番号T8-3 、論文タイトル:RRAM-Based Spiking Nonvolatile Computing-In-Memory Processing Engine with Precision-Configurable in Situ Nonlinear Activation)。

 メモリ技術はReRAM技術である。64KbitのReRAMセル(1T1Rセル)アレイと非線形のアクチベーション回路(「ISNA」と呼ぶ回路)を内蔵する、ニューラルネットワーク(NN)用プロセッサを試作した。MNISTデータセットを4層のCNN(構成はLeNet)で学習させたときの精度は98.1%、CIFAR-10データセットを5層のCNN(構成はLeNet)で学習させたときの精度は95.9%である(いずれも測定値)。

試作したプロセッサのシリコンダイ写真(上)と概要(下)。デューク大学と国立清華大学、台湾工業技術院、国立中興大学、米空軍研究所の共同研究グループが2019年のVLSIシンポジウムで発表した論文(論文番号T8-3)から
試作したニューラルネットワーク用プロセッサと類似の研究成果を比較した表。デューク大学と国立清華大学、台湾工業技術院、国立中興大学、米空軍研究所の共同研究グループが2019年のVLSIシンポジウムで発表した論文(論文番号T8-3)から

 米国のノートルダム大学は、多値メモリの強誘電体トランジスタ(FeFET)によって多チャンネルバイオセンサーの出力をダイレクトに分類する推論エンジンを試作した(論文番号T4-1、論文タイトル:Energy-Efficient Edge Inference on Multi-Channel Streaming Data in 28nm HKMG FeFET Technology)。16チャンネルの脳波信号からてんかんの発作を検出する。2名の患者から取り出したCHB(Children’s Hospital Boston)-MIT(Massachusetts Institute of Technology) EEGデータセットによる学習を実施した後の推論エンジンの精度は、96.88%と98.26%である。

 東芝と東芝メモリの共同研究チームは、強誘電体トンネル接合の抵抗変化メモリ(ReRAM)を使った強化学習システムを提案した(論文番号T2-4、論文タイトル:In-Memory Reinforcement Learning with Moderately-Stochastic Conductance Switching of Ferroelectric Tunnel)。強誘電体トンネル接合のクロスポイントアレイをポリシーに利用する。

強誘電体トンネル接合をメモリ内強化学習に応用(論文番号T2-4)。2019年4月17日にVLSIシンポジウムの実行委員会が報道関係者に公表した資料から

2019年:アナログPCMをシナプスおよび重みづけメモリに応用

 続いて、アナログ相変化メモリ(アナログPCM)を使った3件の研究成果と、ニューロモルフィックコンピューティングに関する4件の研究成果を発表する。なお2件は、アナログPCMを使ったニューロモルフィックコンピューティングに関する発表である。全体では5件の発表を報告する。

2019年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その4)

 米国のIBM Researchは、2.5M個を超えるPCMのアナログメモリを重みづけに利用したLSTM(Long Short Term Memory)ネットワークを考案した(論文番号T8-1、論文タイトル:Inference of Long-Short Term Memory Networks at Software-Equivalent Accuracy Using 2.5M Analog Phase Change Memory Devices)。自然言語処理に向けた推論用ニューラルネットワークである。テキスト(文章)の推論精度は、シミュレーションによるとソフトウェア処理によるベースラインと同等だとする。テキストには小説「不思議の国のアリス(Alice in Wonderland)」と、データセット「PTB(Penn Tree Bank)」をそれぞれ使用した。

 米国のIBMとアルバックの共同研究グループは、PCMのアナログメモリをシナプスに使った深層学習エンジンを考案した(論文番号T6-4、論文タイトル:Confined PCM-Based Analog Synaptic Devices Offering Low Resistance-Drift and 1000 Programmable States for Deep Learning)。2個のトランジスタと2個のPCM記憶素子で構成したメモリセル(2T2Rセル)と、4個のトランジスタと4個のPCM記憶素子で構成したメモリセル(4T4Rセル)をシナプスに絵適用した。

 2T2Rセルに1,000ステップの重みづけを与えたときの線形性は0.993と非常に高い。3層のフルコネクトニューラルネットワークを構築して学習のシミュレーションを実行した。シミュレーションによるとMNISTデータセットによる精度は、2T2Rセルが95%、4T4Rセルが97.4%である。

 イタリアのミラノ工科大学と米国のIBM Researchによる共同研究グループは、継続学習に向けた、PCMのシナプスとCMOSロジックによる教師あり/教師なしのハイブリッドなニューラルネットワークを構築した(論文番号JFS3-4 、論文タイトル:Energy-Efficient Continual Learning in Hybrid Supervised-Unsupervised Neural Networks with PCM Synapses)。通常のニューラルネットワークでは、新しく学習を実行すると以前の学習によって得たモデルを消失してしまう。これに対して継続学習(Continual Learning)では、以前の学習によって得たモデルを維持しながら、連続して学習を積み重ねられる。

 PCMのシナプスとCMOSロジックによって教師ありの畳み込みニューラルネットワーク(CNN)に教師なしの脳型学習機能を付加した。MNISTデータセットによるテストでは98%の推論精度、CIFAR-10データセットによるテストでは85%の推論精度を得ている。さらに、CIFAR-10データセットで学習していない2種類の分類をテストしたところ、82%の推論精度を達成した。

 台湾の国立中央大学とTaiwan Semiconductor Research Institute(TSRI)の共同研究チームは、ニューロモルフィックコンピューティングのシナプスを想定したスプリットゲート型の強誘電体トランジスタ(SG-FeFET)を考案した(論文番号T12-1、論文タイトル:Split-Gate FeFET (SG-FeFET) with Dynamic Memory Window Modulation for Non-Volatile Memory and Neuromorphic Applications)。既存のFeFETに比べて書き込み電圧が下がるので、書き込みエネルギーの削減と書き換え回数の増加を期待できる。SG-FeFETを試作して実験によって評価したところ、書き込みエネルギーが6割下がるとともに、書き換え可能回数が1桁増加した。

 台湾の国立交通大学とUMC、米国のスタンフォード大学による共同研究グループは、2個のロジック用FinFETによって1個のシナプスを構成するニューロモルフィックコンピューティング用デバイスを試作した(論文番号T12-3、論文タイトル:A Novel Architecture to Build Ideal-Linearity Neuromorphic Synapses on a Pure Logic FinFET Platform Featuring 2.5ns PGM-Time and 1012 Endurance)。1個のFinFETが制御用スイッチ、もう1個のFinFETはストレージ用キャパシタとなる。シナプスとしては理想的な線形性と10の12乗回を超える学習サイクルを確認した。

不揮発性メモリ技術によって過去に試作されたシナプスの発表事例と、今回試作したシナプスを比較した一覧表。国立交通大学とUMC、スタンフォード大学による共同研究グループが2019年のVLSIシンポジウムで発表した論文(論文番号T12-3)から

2019年:不揮発性メモリ技術でニューロンを実現

 最後は、不揮発性メモリ技術で人工ニューロンを実現した3件の発表を含め、4件の研究成果を紹介する。

2019年のVLSIシンポジウムにおける人工知能(AI)関連の発表(その5)

 シンガポール国立大学とシンガポールのIHPC(高性能コンピューティング研究所)、英国のケンブリッジ大学による共同研究グループは、柔らかい基板に印刷技術によって抵抗変化メモリ(ReRAM)の記憶素子を試作した(論文番号T8-4 、論文タイトル:First Demonstration of A Fully-Printed MoS2 RRAM on Flexible Substrate with Ultra-Low Switching Voltage and Its Application as Electronic Synapse)。ReRAMの記憶素子を、ニューロモルフィックコンピューティングのシナプスに応用することを想定している。

 ポリイミドの基板に、印刷技術(エアロゾル方式のインクジェット技術)によって銀(Ag)の電極と、二流化モリブデン(MoS2)の抵抗変化2次元材料による記憶素子をクロスポイントアレイ状に形成した。記憶素子のスイッチング電圧は0.18Vと低く、電流のオンオフ比は10の7乗と高い。また1,000サイクルの曲げ試験にも耐えた。

柔らかい基板(ポリイミド基板)に印刷技術(インクジェット技術)によってReRAM記憶素子のクロスポイントアレイを形成。左はイメージ図。中央上は記憶素子の構造。中央下の写真は試作したクロスポイントアレイ。右は製造工程と製造パラメータ。シンガポール国立大学とIHPC、ケンブリッジ大学の共同研究グループが2019年のVLSIシンポジウムで発表した論文(論文番号T8-4)から

 米国のノートルダム大学とパデュー大学の共同研究チームは、マルチドメインの強誘電体キャパシタをニューロンとするスパイキングニューラルネットワーク(SNN)を考案した(論文番号T12-4、論文タイトル:Biologically Plausible Energy-Efficient Ferroelectric Quasi-Leaky Integrate and Fire Neuron)。強誘電体キャパシタ(80μm角)を試作してSNNによる学習をシミュレーションによって検証し、発火頻度の低下(エネルギー効率の向上)を確認している。

 中国の北京大学は、1個の強誘電体トランジスタ(FeFET)と1個の抵抗素子によってニューロンの活動をモデル化した素子を考案した(論文番号T12-2 、論文タイトル:Bio-Inspired Neurons Based on Novel Leaky-FeFET with Ultra-Low Hardware Cost and Advanced Functionality for All-Ferroelectric Neural Network)。CMOSロジックの人工ニューロンに比べ、低いコストでニューラルネットワークを構築することを目指す。実際に素子を試作し、人工ニューロンとして動くことを確かめた。

 台湾の国立交通大学と台湾工業技術院の共同研究チームは、スピン注入磁気抵抗メモリ(STT-MRAM)技術によってニューロンとシナプスの両方を実現するニューロモルフィックコンピューティング構造を考案した(論文番号T3-4 、論文タイトル:Extremely Compact Integrate-and-Fire STT-MRAM Neuron: A Pathway Toward All-Spin Artificial Deep Neural Network)。非常にコンパクトで低消費のニューラルネットワークを構築することを目指す。

 STT-MRAMの記憶素子である磁気トンネル接合(MTJ)を、積分発火モデルのニューロンとシナプスに使う。MTJを含む回路を試作し、4bitの積分発火型ニューロンとして動かすとともに、バイナリ形式のシナプスとして利用できることを示した。8層のCNNを構成して学習シミュレーションをCIFAR-10データセットで実行したところ、82%の精度を得た。

人工ニューロン(アナログ積分発火モデル)を構成する手法。左上(a)はCMOSロジック、右上(b)はPCMあるいはReRAM、左下(c)はTS(スレッショルドスイッチ、右下(d)はSTT-MRAM。国立交通大学と台湾工業技術院の共同研究チームが2019年のVLSIシンポジウムで発表した論文(論文番号T3-4)から

 ここまで、過去10年のVLSIシンポジウムにおけるAIハードウェアに関する研究成果を駆け足でご紹介してきた。来年(2020年)もこの勢いが続くことを期待したい。