後藤弘茂のWeekly海外ニュース

NVIDIAの巨大GPUを支えるTSMCのインタポーザ技術

後藤弘茂 (Hiroshige Goto)

2017年6月9日 06:00

巨大化するNVIDIA GPU
PDF版はこちら

シリコンインタポーザも半導体技術の限界に制約されている

　NVIDIAは、次世代GPUアーキテクチャ「Volta(ボルタ)」ベースのハイエンドGPU「Tesla V100(GV100)」で815平方mmのダイサイズ、現行のPascal(パスカル)の「GP100」で610平方mmと巨大ダイのGPUを投入し続けている。

　しかし、無制限に大きなダイのGPUを作れるわけではない。GPUのダイサイズには、制約がある。それは、半導体製造工程におけるフォトマスクのサイズだ。

　半導体製造工程で露光に使われるフォトマスクでは一定の露光サイズが決まっている。現在はワンショットの露光サイズは33×26mmが主流で、面積では約850平方mmとなる。

　GV100の815平方mmというダイサイズは、加工上で必要となる部分を省けば、ほぼギリギリの限界サイズだ。ワンショットによる露光面積は、GPUチップの製造上の明確な限界となっている(2020年以降にハイNAが導入されると、ワンショット露光面積は半分になる)。

　しかし、マスクサイズは、じつはPascal世代のGP100のときから問題となっていた。それは、GPUの土台となっているシリコンインタポーザ(Silicon Interposer)のサイズもマスクの露光サイズによって制約されているからだ。

　NVIDIAは昨年(2016年)のGP100から、ハイエンドGPUのメモリにHBM(High Bandwidth Memory)を採用した。HBMは、シリコン貫通ビア(TSV:Through Silicon Via)技術を使ったスタックドDRAM技術だ。NVIDIAが採用したのは、第2世代のHBM2で、GV100ではメモリ帯域は900GB/sに達する。

　HBMの特徴は、シリコンインタポーザと呼ばれる土台の上にGPUとHBMメモリを配置、チップ間を超高密度の配線で結ぶことで広帯域を実現することにある。NVIDIA GPUでは4個のスタックを載せており、合計4,096-bitのデータバスをシリコンインタポーザで配線している。

インタポーザを使うHBM技術

従来はボード上にあったDRAMをインタポーザ上に載せる

シリコンインタポーザを使いHBM2 DRAMを載せたチップの断面図

　微細な配線を可能にするシリコンインタポーザも、その正体は半導体チップだ。トランジスタは形成しないものの、通常の半導体チップ同様に配線を行ない、TSV技術による縦配線も通す。そのため、シリコンインタポーザにも、GPUチップと同様にマスクサイズの制約がある。ワンショットで露光できる面積は、33×26mmの約850平方mmが上限だ。

　ではどうやって、NVIDIAの巨大GPUを載せる巨大インタポーザを作ることができるのか。

NVIDIAが採用したTSMCのパッケージ技術CoWoS

　NVIDIAのハイエンドGPUの製造は、ファウンダリ最大手の台湾TSMCが行なっている。インタポーザを使うパッケージングもTSMCの「CoWoS(Chip-On-Wafer-On-Substrate)」技術を使っている。

　TSMCは、京都で開催されている半導体学会「2017 Symposia on VLSI Technology and Circuits」(6月5日～6月8日)において、同社の第2世代CoWoS技術の概要を明らかにした(「Wafer Level Integration of an Advanced Logic-Memory System Through 2nd Generation CoWoS technology」W. Chris Chen. VLSI Symposia 2017)。

　第2世代のCoWoS2は、NVIDIA GPUなどの大型で高性能なチップやHBM2などの新メモリに最適化した技術となっている。

　TSMCは現在、パッケージ技術の革新に力を注いでいる。そして、新しいパッケージ技術として「Fan-Out Wafer Level Package(FO-WLP)」技術の「InFO」と、CoWoSを提供している。InFOは、Appleの「iPhone 7」の「A10」プロセッサのパッケージに採用されて一躍有名になった。CoWoSとInFOは大きく異なる技術で、すみ分けている。

TSMCのパッケージ技術CoWoSとInFO

第2世代のCoWoSのビジョン

　TSMCは2012年にCoWoSを導入。CoWoSは最初はFPGAなどに使われていた。VLSIシンポジウムでは、第1世代のCoWoSでは、インタポーザのサイズが850平方mmまでに制限されていたことが明かされた。最初の世代では、GPUのような大型チップにHBMを組み合わせたCoWoSは不可能だったことになる。

上限が850mm2で実用上は800mm2程度のサイズだった第1世代

　そこで、TSMCは第2世代の「CoWoS-2」の開発を進めてきた。TSMCは、まず、インタポーザサイズの拡大に手を着けた。そして、2015年に1,200平方mmまでの拡張サイズのインタポーザの「CoWoS-XL1」を導入した。

2ショットのスティッチングでインタポーザ面積を拡大

　TSMCはVLSIシンポジウムで、CoWoS-XL以降のインタポーザ拡張技術を明らかにした。それによると、マスクを2セット使って「縫いしろ(stitching:スティッチング)」エリアを設けることで、マスク1枚よりも大きなインタポーザダイ(半導体本体)を実現する。

　CoWoS-XLによって、2015年には1,200平方mmまでの面積のインタポーザが適合できたという。

インタポーザを拡大したCoWoS-XL1

マスクを2セット使うことで、1セットのマスクよりも大きな

エリアのインタポーザを実現するCoWoS-XL技術

　2016年のNVIDIAのPascal GP100は、この第2世代のCoWoS技術であるCoWoS-XLを採用している。

　CoWoS-XLは、610平方mmのGP100 GPUダイに、4個のHBM2スタックを、インタポーザ上に載せている。そのため、Pascal GP100のインタポーザ面積は約1,160平方mm(スライドでは1,200平方mmとなっている)となり、当然850平方mmのワンショットサイズには収まらない。そのため、2マスクセットによるスティッチングで、拡大インタポーザとしている。

NVIDIAのGP100モジュール

第2世代CoWoSを使うNVIDIAのGP100

VLSIシンポジウムで示されたHBM2 8Hiスタックの断面図

　GP100のHBM2メモリは、8MbitsのDRAMダイを4層にTSVで積層した「4Hi」構成となっている。GPUが153億トランジスタで、DRAMと合わせて1,500億トランジスタとなる。

CoWoS2の限界に近いインタポーザ面積を使う「Volta」

　TSMCは、VLSIシンポジウムにおいて、CoWoS2では、最大1,700平方mmのインタポーザが可能であることを明らかにした。2ショットなら、計算上これが限界の面積となる。

　そして、この面積は、NVIDIAが今年(2017年)投入する次世代GPU「Volta」のスペックと合致している。

　NVIDIAは、Volta GV100では、GPUダイを815平方mmに拡大し、HBM2を4スタック使った。この構成では、インタポーザサイズが1,600平方mm前後必要になると見られる。つまり、Voltaは、GPUダイがマスクの限界であると同時に、インタポーザもCoWoS2の限界となっている。二重に限界まで使っているのがVoltaだ。

NVIDIA GPUとインタポーザサイズ

NVIDIAが公開したGV100

　また、TSMCはVLSIシンポジウムで、今年中にCoWoS2によって6個のHBM2スタックを搭載した製品が登場すると発表した。GPU以外でもHBM2を使う大型ダイが浸透しつつある。

HBM2が6スタックも可能に

右上がPascal右下が6スタックを使う例。左はインタポーザウェハ上でのCoWoSの製造工程

　ちなみに、2015年にAMDが発売した初のHBM採用GPU「Radeon R9 Fury(Fiji)」は、HBM1メモリを使ってインタポーザに載せているが、こちらはTSMCのパッケージ技術は使っていない。

　Fijiダイ自体はTSMCの28nmプロセス製造だが、台湾のパッケージベンダーASEがパッケージングを、台湾ファウンダリUMCがインタポーザを提供している。

　TSMCはCoWoSとInFOによって、ファウンダリであるTSMCがパッケージングも取りこもうとしている。NVIDIAのCoWoS採用やAppleのInFO採用は、TSMCによるファウンダリ＋パッケージングの垂直ソリューションの好例だ。

　それに対して、AMDのFijiは、TSMCによる垂直型のパッケージングではなく、パッケージングを別ベンダーが提供する従来の水平分散モデルを取っている。

　これは、AMDがFijiを開発した時点では、大型ダイのGPUへのHBM搭載はまだ模索状態で、パッケージベンダーとして実績のあるASEに助けを求めたためと言われている。ちなみに、Fijiも、1,010平方mmの拡大インタポーザを使っており、UMCがTSMCと類似のアプローチをとったと見られる。ただし、TSMCとは製造工程が異なると思われる。

AMDのFijiはUMC/ASEを採用

　TSMCのCoWoSは、製造工程においてシリコンインタポーザのウェハのままで、ダイの積層などの工程をすべて行なってしまう。ほとんどの工程が終わってから、ダイに切り分ける(ダイシング)。それに対して、インタポーザを切り分けてから積層やバンプ接続などの工程を行なう方法があり、「CoCoS(Chip-On-Chip-On-Substrate)」と呼ばれる。FijiはCoCoSで製造されているとTSMCは説明する。

　また、TSMCは、自社のCoWoSが技術的にCoCoSよりも有利であると説明する。簡単に言えば、同じようにHBM2を使っていても、パッケージ技術によって差が出るとTSMCは主張している。

　具体的には、CoWoSでは、GPUダイとHBM2スタックのベースロジックダイの間を極めて近接して配置できるという。

VLSIシンポジウムでは、TSMCはCoCoSよりもCoWoSのほうがデータ転送の信号品質やロス、電力消費のいずれの面でも優れると説明した

HBM2世代の巨大GPUに最適化したCoWoS2

　面積が大きなインタポーザの難点の1つは、メカニカルなストレスに弱いことだ。極めて薄いインタポーザ上に積層したHBM2などを積むため、ゆがみやすい。

　この問題は、NVIDIAが、昨年の半導体カンファレンス「Semicon West」で指摘していた。ただ、NVIDIAはこれをシステムレベルのマテリアルとプロセスの最適化によって解決できると説明している。

曲がるインタポーザ

ストレスがかかる場所

　VLSIシンポジウムでは、TSMCから最適化の方法などが明らかにされた。ポイントはGPUダイとHBM2スタックという異なる種類のダイ/スタックの高さを揃えること。同厚に揃えることで、ヒートスプレッダからのストレスを均等に分散する。TSMCはこれを「Encapsulation(カプセル化)」と呼んでいる。

　HBM2のスタックは、8Hi(8ダイの積層)を見越して720μmに揃えられている。GPU側もその厚さに厳密に合わせると見られる。これによって、信頼性と排熱がより向上する。

GPUとHBM2スタックの高さが揃っているGP100

VLSIシンポジウムで説明されたEncapsulation

Encapsulationによってストレスが解消される

720μmのHBM2の厚さにホストダイも合わせる

　NVIDIA GPUが採用したHBM2は、最初のHBM1に対してデータ転送レートが最大2倍の2Gtps(Giga transfer per second)にまで上がる。

　また、8個のダイを積層する8Hiも可能になる。そのため、信頼性や信号品質が重要となる。TSMCはCoWoSではその点も強味があるとしている。

高速化と大容量化したHBM2

CoWoSの利点