後藤弘茂のWeekly海外ニュース

Cerebrasが開発したウェハサイズの深層学習チップ

世界最大のチップがカンファレンスで発表される

 チップのサイズは46,225平方mm、縦横215mm×215mmの正方形。NVIDIAの最大のGPUである「Volta GV100(Tesla V100)」ダイの815平方mmの約56倍のサイズだ。人間の頭より確実に大きい。間違いなく、世界最大の“半導体チップ”だ。

 そして、チップ上のトランジスタ数は1兆2,000億と、1兆個を越えた。これも、Voltaの211億トランジスタの約56倍。最大のGPUの56倍のサイズの超モンスターチップ、それが、Cerebrasが開発した深層学習プロセッサ「Cerebras Wafer Scale Engine(WSE)」だ。

世界最大のチップCerebras Wafer Scale Engine(WSE)
ウェハぎりぎりのサイズのチップ。NVIDIAのVolta GPUの56倍のサイズとトランジスタ
Hot ChipsでWSEを発表したSean Lie氏(Chief Hardware Architect, Co-Founder, Cerebras)
ウェハサイズの巨大チップで諸問題を解決する

 Cerebras WSEのアイデアは奇抜だが単純明快だ。可能な限り大きなチップを作る--そのコンセプトに沿ってウェハサイズのチップをCerebrasは作った。半導体チップは、ウェハと呼ばれる円形のシリコン板の上に作られる。通常は、直径300mmのウェハに、数十~数百個のダイを作り、それを1個1個切り出してチップとする。ところが、Cerebrasは、小さなダイを切り出す代わりに、ウェハ1枚をまるまるチップとしてしまった。215×215mmというサイズは、300mmウェハで製造できる最大サイズだ。

巨大化する深層学習ワークロードへの解決策

 米スタンフォードで開催された半導体チップのカンファレンス「Hot Chips 31」で、今年最も話題をさらったのは、CerebrasのWSEだった。WSEは16nmプロセスで製造され、搭載しているAIプロセッサコア数は40万、オンチップのメモリ量は18GB、メモリ帯域は9PB/sec、内部ファブリックの帯域は100 Petabit/sec。どの数字を取ってもとてつもない、深層学習専用のアクセラレータチップだ。

 CerebrasがWSEを開発した背景には、機械学習のニューラルネットワークモデルの大型化がある。膨大なコンピュテーションを必要とする最近のNNは、もはや1個のGPUには収まらない。そのため、NVIDIAもAMDもGPU同士を広帯域連結させて、ワークロードの増大に対応している。しかし、チップ同士の接続は、性能や電力の面で不利となる。それなら最初から数十個のGPUに相当するチップを1個の巨大チップとして製造しようというのが、Cerebrasのアイデアだ。

深層学習のワークロードが急速に増大している
現在はスケーリングが深層学習プロセッシングの大きな制約となっている

 Cerebras WSEの40万個のコンピュートコア「Sparse Linear Algebra(SLA) Core」は、ニューラルネットワークのテンサーオペレーションに最適化されている。演算アレイは積和算とコンボリューションの両方を実行する。また、フルに接続されたデンス(dense)ネットワークだけでなく、剪定されたスパース(sparse)ネットワークにも対応する。スパースNNの実行は、無駄な演算をスキップするようにハードウェアで制御する。

Cerebrasは深層学習に最適化した設計を取る
ニューラルネットワークプロセッサコアSparse Linear Algebra(SLA)
スパースコンピュートをハードウェアでサポートする

 深層学習では膨大なメモリ帯域を必要とする。深層学習向けプロセッサの多くがHBM系メモリを採用しているのはそのためだ。しかし、深層学習のワークロードでは、伝統的なコンピュートとメモリの分断は効率的ではない。そこで、Cerebras WSEでは、18GBのメモリをオンチップに搭載、メモリをコアごとに分散配置している。「重み(ウエイト:weight)」データと「活性化関数(アクティベイション:activation)」データの格納やハンドリングは、基本的にオンチップメモリで行なう。トータルのメモリ帯域は、9PB/secという途方もない数字となっている。

従来のメモリシステムはニューラルネットワークには向いていない
メモリはコア側に分散して配置

ウェハスケールチップの最大の課題はダイ間配線

 ニューラルネットワークプロセッサのアーキテクチャとしては合理的なCerebras WSEのアイデアには、解決しなければならない重大な課題があった。最大のチャレンジは、半導体製造の露光とエッチングの工程で、チップとして配線を生成できる面積が800平方mmちょっとと制約されていることだ。言い換えれば、Voltaの815平方mm以上のサイズのチップは、通常の半導体製造工程では作ることができない。

 通常、ウェハ上では、フォトマスクによる角形の露光ショットパターン(最大でVolta GV100のサイズ)ごとにダイ(半導体本体)が分割して生成される。ダイのパターンの間には境界「スクライブライン(scribe line)」が生成されており、スクライブラインを越えた配線は、通常はできない。

 しかし、Cerebras WSEを実現するには、スクライブラインを越えた配線が必要となる。つまり、通常の半導体製造工程ではできないこことを、実現する必要がある。どうやって不可能を可能にしたのか。ここがCerebrasのテクノロジの肝の部分だ。

 Cerebras WSEでは、個々のユニットの間を、広帯域で低レイテンシなダイ間インターコネクトで接続している。ネットワークは2Dメッシュネットワークとなっている。つまり、2Dメッシュで、ダイ間を接続する特殊なインターコネクト技術をCerebrasは開発した。

Cerebras WSEのインターコネクト技術
標準の製造プロセス技術ではスクライブラインを越えられない

 Cerebrasは、まだ公式に、このダイ間インターコネクト技術の詳細を発表していない。しかし、特許は申請されている。同社の特許申請「United States Patent Application 20190074262」によると、下の図のような手法でダイ間インターコネクトは生成される。

 Cerebras WSEの巨大な215mm角のチップは、よく見ると、12×7のトータル86個の長方形のダイに分割されている。各ダイは29.7×16.94mmで、ダイの間にスクライブラインが生成されている。言い換えれば、Cerebras WSEの各ダイは、29.7×16.94mmのフォトマスクで露光されている。

Cerebrasのダイ間インターコネクトの生成技術
PDF版はこちら
スクライブラインを越える配線をTSMCとのパートナーシップで開発

 Cerebrasの技術では、ダイ間インターコネクトのレイヤの工程で、露光マスクのパターンを縦横とも50%ずらす。ダイ間インターコネクトのマスクは、ちょうど各ダイの上をカバーするように露光する。通常は、すべてのレイヤが同じポジションで露光するのを、ダイ間インターコネクトレイヤだけダイをまたぐように露光させる。こうすると、各ダイはそのままで、ダイの間のインターコネクトが可能になる。Cerebrasはこの技術を、TSMCとのパートナーシップで開発したという。

特殊なパッケージを機器からカスタム開発

 ウェハスケールチップには、このほかさまざまな課題がある。ダイ歩留まり、排熱、パッケージング、電力供給などだ。Cerebrasはこれらの課題も解決したという。まず、ウェハ上の不良による欠陥ダイについては、メッシュネットワークで回避する。

ウェハスケールのチップの製造の課題
欠陥コアは回避してネットワークが接続する

 巨大チップのパッケージングは特殊になるので、新たにカスタムパッケージング機器を開発。通常のチップへの電力は通常は基板経由で行なうが、ウェハサイズとなると難しい。そこで、電力は3Dの配線で基板下から送り、排熱は液冷で行なうことにしたという。

 こうして諸問題を解決したCerebras WSEは、すでに稼働しており、製品としての姿が見える日も近いという。

パッケージングではカスタム機器の必要があった
電力供給と廃熱では3D技術を採用
すでに稼働しているCerebras WSE

 ちなみに、Cerebrasは、Armアーキテクチャの高密度スモールコアサーバーメーカーSeaMicroのメンバが中核となって設立された。SeaMicroはAMDに買収され、AMDのArmサーバー部門となっていた。しかし、Armサーバーの先行きが不鮮明になった段階で、AMDのArm路線は縮小していた。CerebrasのCEOであるAndrew Feldman氏は、SeaMicroの元CEOで、AMDのArmサーバービジネスのリーダーだった。