複雑な様相を呈する最先端SRAMのソフトエラー
「国際信頼性物理シンポジウム(IRPS:International Reliability Physics Symposium)」(IRPS 2012)のカンファレンス2日目である4月18日には、半導体チップのソフトエラーに関する講演セッションがあった。
「ソフトエラー」とは主に、一過性の不良を指す。症状としては、メモリではデータが変化したり、データの読み出しが不可能になったりし、ロジックでは出力が変化したり、動作が停止したりする。ただし半導体チップは壊れていない。このため、電源を再投入したり、データを書き直したりすれば、何事もなかったかのように正常に動作する。
ソフトエラーを発生させる原因として良く知られているのは、放射線である。放射線の中でも半導体チップのソフトエラーを起こすのは、中性子線とアルファ線がほとんどを占める。
自然界に存在する中性子線のほとんどは宇宙線によるもので、照射量が高度に依存する。これは大気が中性子線の遮蔽物となっているからだ。航空高度や高山地帯などでは中性子線の照射量は高く、海面高度では中性子線の照射量は低くなる。そして地下深くでは、中性子線の照射量はほぼゼロになる。
アルファ線は自然界には通常、存在しない。半導体チップの場合は、シリコン半導体回路を形成する材料やパッケージの材料などにごく僅かに含まれる放射性同位元素が、アルファ線を放出する。
半導体製品を開発するときに、ソフトエラーに対する強さを調べるにはどうするのか。中性子線ソフトエラーの場合は、中性子のビームを半導体チップに照射し、不良発生の様相を調べる。アルファ線ソフトエラーの場合は、放射性同位元素を半導体チップの近傍に配置し、不良の発生をチェックする。いずれも実際の使用時間ではなく、測定時間を実使用時間よりもはるかに短縮した試験(加速試験)となる。
●高山地帯でソフトエラーを実測する中性子線やアルファ線などの加速試験は有効な手段として半導体業界で認知されているのだが、実際の使用環境を厳密に再現したものではない。しばしば指摘されるのは、加速試験では「半導体チップに厳しい」テストとなる傾向があることだ。可能であれば、自然界でテストすることが望ましい。
そこで中性子線ソフトエラーの影響を見積もる方法として、高山地帯に半導体チップを置いて動作させ、不良発生の有無を測定する実験が数は少ないものの、一部の研究者によって実施されてきた。例えば富士通研究所を中心とする研究グループは米国ハワイ州マウナケア山頂にある日本のすばる天文台(高度4,200m)にSRAMチップと測定装置を持ち込み、ソフトエラーを実測した。SRAMは90nmのCMOS技術で製造したもの。測定結果は2008年のIRPSで発表された。100日間ほどの測定で36回のソフトエラーを観測した。ソフトエラーの発生頻度は東京の7.4倍と推定していた。
なおSRAMチップをテストに使うのは、ロジックやDRAM、SRAM、フラッシュメモリなどの回路の中ではSRAMがソフトエラーに最も弱いからである。このことは半導体業界では良く知られており、ソフトエラーのテストではSRAMを使うのがごく普通になっている。
欧州では、フランス・アルプスの一角に「ASTEP(Altitude SEE Test European Platform)」と呼ぶ宇宙線由来の放射線を測定する施設が2004年に半導体メーカーのSTMicroelectronicsなどによって設けられ、活動を続けてきた。ASTEPの高度は2,552m。海面高度に比べると、約6倍の中性子線照射量がある。
宇宙線由来の放射線を測定する施設「ASTEP(Altitude SEE Test European Platform)」の概要。フランス・アルプスの一角に設けられた | ASTEPで測定した中性子線のカウント数(左縦軸、青色の曲線)と気圧(右縦軸、灰色の曲線)の関係。気圧が低くなると、中性子線のカウント数(照射量)が増える傾向にあることがわかる |
このASTEPを使用し、40nmのCMOS技術で製造したSRAMのソフトエラーを実測した結果を、フランスのAix-Marseille UniversityとSTMicroelectronicsによる共同研究チームがIRPS 2012で発表した(J.L.Autranほか、講演番号3C.5)。この共同研究チームは過去に130nmのCMOS技術によるSRAMと65nm技術によるSRAMのソフトエラーもASTEPで測定しており、3世代のCMOS技術によるSRAMの実測データを比較検討した。
●ソフトエラー測定用SRAMダイを製造ソフトエラーの実測に使用したSRAMチップは、1個のシリコンダイに3種類のSRAMマクロを搭載した。7MbitのSRAMマクロ(標準密度版)、7MbitのSRAMマクロ(高密度版)、デュアルポートの896kbit SRAMマクロである。
製造したSRAMチップ8個を1枚のボードに載せ、32枚のボードを並べて1枚のパネルを形成した。1枚のパネルに256個のSRAMチップが搭載されていることになる。このパネルを2枚用意し、自動テスト回路や制御用PCなどと接続してテスト環境を構築した。512個のSRAMチップを動かしつつ、エラーの発生の有無をチェックし、記録を採る環境である。単純計算だと、およそ7.7GbitのSRAMボードでソフトエラーを測定したことになる。
具体的にはデータをすべてのSRAMチップに順次書き込み、続けて読み出し、データを比較する。この操作を繰り返す。書き込みの周期は2.5秒である。書き込むデータのパターンは「1」と「0」を繰り返すデータ列。半導体メモリの開発コミュニティでは「チェッカボード」と呼ばれるパターンである。
ソフトエラーの測定用SRAMシリコンダイ写真とSRAMシリコンダイの概要 | ソフトエラーの測定環境。512個のSRAMを載せたボードや自動テスト回路などで構成される |
ソフトエラーを実測した期間は2011年3月~2012年1月のおよそ11カ月間。テスト時間は6,702時間で、279日間に相当する。2011年7月~8月にはテスト環境の保守のために一時、テストを休止しており、このため、テスト時間はやや短い。それでも279日間にわたってSRAMをずっと動作させて続けていたことになり、相当に時間のかかるテストであることがわかる。
この期間にカウントした不良(イベント)の発生数は、標準密度版SRAMマクロ(総計3.584Mbit)が40回、高密度版SRAMマクロ(総計3,584Mbit)が36回、デュアルポートSRAMマクロ(総計448Mbit)が5回である。この中で複数のSRAMセルが不良となったイベントは半分近くあり、1回のイベントで最大で17個のSRAMセルがおかしくなった。
海面高度(米国ニューヨーク市)に比べるとASTEPでは6.08倍の頻度でソフトエラーが発生する。言い換えると、同じ実験を海面高度付近で実施したとしても、不良(イベント)の発生回数はおよそ6分の1に減ってしまう。例えば標準密度版SRAMマクロでは、テストに279日間をかけてもイベントの発生回数は6回~7回に過ぎないということだ。これでは統計的な意味を見出すことは難しい。海面高度でまともにテストするには、5年~6年の年月を要する。これでは実用的とは言い難い。高山地帯などの高地におけるテストの重要性がわかる。
ソフトエラーの実測結果。左は複数のSRAMセルが不良になった頻度。右は特に数多くのSRAMセルに不良が発生したときのマップ。黒いマスが、不良の発生したセル | 40nm技術による専用SRAMシリコンダイを使ってソフトエラーを計測した結果のまとめ |
●130nm世代と65nm世代、40nm世代のソフトエラーを比較
ところで、高山地帯で測定したソフトエラーには、中性子線が原因のエラーと、アルファ線が原因のエラーが混じっている。中性子線が原因のエラーを見積るには、アルファ線が原因のエラーを差し引く必要がある。例えばSRAMチップを地下、あるいは山に掘ったトンネルの中に置くと、中性子線の影響はほぼゼロになる。SRAMチップを置くだけではなく、放射性同位元素を使ってアルファ線を照射すれば、テスト時間を短縮できる。
Aix-Marseille UniversityとSTMicroelectronicsによる共同研究チームは、アルファ線が原因のソフトエラーを差し引くことで、海面高度における中性子線ソフトエラーの確率(Mbit当たり)とアルファ線ソフトエラーの確率(Mbit当たり)を推定した。ほぼ同じ実験を130nm技術のSRAMチップと65nm技術のSRAMチップに対しても過去に実施していることから、130nm世代と65nm世代、40nm世代の3世代にわたるソフトエラー発生確率のトレンドを示してくれた。
微細化が進むと、記憶容量(Mbit)当たりのアルファ線ソフトエラーの発生確率は減少した。同じ記憶容量であればシリコン面積は微細化によって小さくなる。アルファ線がヒットする確率が下がるので、ソフトエラーの発生確率も下がる。
一方、中性子線ソフトエラーの発生確率は複雑なトレンドを示した。130nm世代と65nm世代では65nm世代のエラー発生確率が低くなったのに対し、40nm世代では逆に中性子線ソフトエラーの発生確率(記憶容量当たり)が増加した。単純に考えるとアルファ線と同様に、記憶容量当たりのエラー発生確率は微細化とともに低下するはずである。しかしそうはならず、40nm世代のエラー発生確率は130nm世代よりもかえって増加してしまった。
この複雑なふるまいの理由については明確になっていない。中性子線以外の放射線、例えばミュー粒子線や陽子線などが影響している可能性がある。あるいは、未知のメカニズムによってエラーが発生していることも考えられる。
自然界におけるソフトエラーの測定。中性子線ソフトエラーは高山地帯(上のイラスト)、アルファ線ソフトエラーは地下あるいはトンネル(下のイラスト)で測定する | 130nm世代と65nm世代、40nm世代のSRAMソフトエラー発生確率 |
40nm世代のSRAM技術は、マイクロプロセッサやグラフィックスプロセッサなどのキャッシュメモリやタグメモリ、内蔵SRAMなどに使われている。最先端SRAMで起こるソフトエラーのメカニズムが従来に比べるとより複雑になっていることは、間違いなさそうだ。
(2012年 4月 27日)
[Reported by 福田 昭]