|
IRPSレポート ケータイ電話用フラッシュメモリの不良をNokiaが解析会期:3月26日~30日(現地時間) 会場:米San Jose McEnery Convention Center 「国際信頼性物理シンポジウム(IRPS:International Reliability Physics Symposium)」から、現地レポートの続きをお届けする。今回は中日(なかび)である3月29日(現地時間)の発表から、注目を集めた技術講演を紹介しよう。 ●FPGAやSRAMキャッシュなどの論理が反転 FPGAやSRAMキャッシュなどに書き込んだデータの論理値が、反転してしまうことがある。この不良モードはソフトエラー、あるいはシングルイベントアップセットと呼ばれており、何の前触れもなく発生する一過性の不良である。半導体デバイスのフリップフロップやメモリセルなどが破壊されるわけではない。データを書き込み直すと正常に動作する。不良の発生が検知しにくい、厄介な不良モードである。 ソフトエラーを発生させる原因として良く知られているのは、アルファ線(アルファ粒子)である。'78年のIRPSでIntelが、DRAMのソフトエラーがアルファ線によって引き起こされることを発表したのが始まりだ。当時はセラミックパッケージが主流だったので、パッケージの封止に使うガラスに含まれた放射性同位元素が、アルファ線の発生源として指摘されていた。 放射性同位元素がアルファ線の発生源であることは現在も変わらない。プラスチックパッケージの樹脂や半導体チップ(ダイ)の絶縁膜などがアルファ線の発生源となる可能性がある。 また最近では、宇宙線(熱中性子線)によるソフトエラーが指摘されている。熱中性子線が半導体チップ中のボロン(B)原子に衝突し、アルファ線を放出する。このメカニズムは、'95年のIRPSでTexas Instrumentsが明らかにした。宇宙線によるソフトエラーの発生確率は、高度に依存する。海面高度よりも標高の高い山岳地帯の方が、宇宙線によるソフトエラーの発生確率が高い。そして山岳地帯のはるか上空を飛ぶ飛行機では、さらに多くの宇宙線に曝されることになる。 アルファ線と熱中性子線が半導体デバイスに衝突(ヒット)しても、ソフトエラーが発生しないことが望ましい。このソフトエラー耐性を高めるには、いくつかの方法がある。 SRAMキャッシュで良く採用されている対策は、エラー訂正コード(ECC)あるいはパリティビットである。SRAMキャッシュがECCやパリティビットを導入している理由はソフトエラー対策だけではないものの、ソフトエラーに対しては非常に有効な対策手段である。 一方、SRAMセルを基本素子とするFPGAは、対応がやや難しい。メモリデバイスではないので、ECCもパリティビットも使用できないのである。ソフトエラーについては半導体ユーザーである電子機器メーカーが検討し、場合によっては何らか対応策を講じなければならない。 宇宙線によるソフトエラーの対策が必須となる機器は、人工衛星などの宇宙用電子機器である。この分野では、論理回路の3重化(TMR:triple modular redundancy)が対策として知られている。3つの同じ信号処理回路を用意し、出力値を多数決で決める。3つの回路の中で1個の回路でソフトエラーが発生しても、残りの2個の回路が正常であれば問題は生じない。 FPGAに書き込む論理回路も、3重化すればソフトエラーは抑えられる。ただし、必要な論理ゲート数は3重化によって3倍強に増えてしまう。コストが大幅に上昇することになり、ユーザーが許容できるとは限らない。 そこでLos Alamos National LaboratoryとBrigham Young Universityの共同研究グループは、特定の部分だけ回路を3重化することでコストを抑えつつソフトエラー耐性を高める手法を考案した(講演番号3B.4)。
ソフトエラーに弱い回路には2種類ある。1つは、論理回路のデータをFPGAに再度書き込むと正常に動作する回路である。もう1つは、再書き込みでも正常に動作せず、リセットして電源を再投入する必要のある回路である。フィードバック回路がこれに相当する。このような回路だけを3重化の対象とした。 そして実際にXilinxのFPGA「Virtex」シリーズを使い、考案した方法を試してみた。具体的な論理回路としては、1)DSPカーネル、2)リニアフィードバックシフトレジスタ(LFSR)の2種類を使用した。 DSPカーネルの場合、元の回路ではFPGAチップの46.8%に相当するリソース、5,746のスライスを使用する。その中で575kbitがソフトエラー耐性が低く、中でも13.8kbitは正常復帰にリセットを必要とする。このDSP回路に部分的な3重化を加えると、リソースの使用率は65.4%、スライス数は8,036に増えた。ただし正常復帰にリセットを必要とするビットは152ビットとなり、およそ100分の1に減少した。リソースの増大は40%にとどまっており、大きな効果があったと言える。 ただしLFSRでは、元の回路のリソース使用率が20.8%であったのに対し、部分的な3重化によってリソース使用率は80.3%と大幅に増えてしまった。回路によって向き不向きがあるようだ。 ●フラッシュメモリの信頼性が気掛かり 携帯電話は普通、NOR型のフラッシュメモリを搭載している。携帯電話のさまざまな機能を実行する、膨大なプログラムを格納するためである。 フラッシュメモリはデータを電気的に書き換えられる。書き換えたデータは、電源を切った後もずっと保持される。良く考えると、この2つの動作には物理的に矛盾した感覚がつきまとう。電気的にデータを書き込んだり、消去したりできるということは、一定のエネルギーを与えるとデータが変化するということである。フラッシュメモリにデータを書き込んだ後も、データを読み出す度にメモリセルにはわずかながらエネルギーが与えられる。電源を切って放置している間も、室温という熱エネルギーを受ける。データを10年間も本当に保持できるのかどうか。気になるところである。 そんな中、携帯電話の最大手ベンダーであるNokiaは、携帯電話機に搭載されたフラッシュメモリの不良に関する実績データを公表した(講演番号3E.4)。対象となるフラッシュメモリは、メモリメーカーの最終テストに合格して出荷されたチップである。すなわち出荷段階ではすべて、良品だった。ここで述べる不良のデータとはすべて、半導体メーカーから出荷後に何らかの原因で不良品となったチップのデータである。 Nokiaは、世界で最も大量のフラッシュメモリを使用してきたユーザーであり、半導体メモリメーカーによるテストをくぐり抜けてから発覚したフラッシュメモリの不良に関しては、多くのデータを有しているはずである。同社による不良の解析結果は、非常に価値の高いデータとなる。 不良解析の対象となったのは、2002年~2005年のおよそ3年間にわたって集められたNOR型フラッシュメモリの不良データである。メモリ容量は16Mbit~256Mbit、製造技術は0.25μm~90nm。半導体ベンダーは複数である。 不良の原因を分類したところ、半導体ベンダーのウェハー処理工程における欠陥に起因する不良(この不良は半導体メーカーの責任となる)が最も多く、全体の61%を占めた。次いでEOS/ESD(過電圧印加や静電気放電など)を原因とする不良が10%、フラッシュメモリの取り扱い(ハンドリング)に起因する不良が9%の順番である。
ウェハ処理工程における欠陥に起因する不良は、さらに細かく分類されている。最も多かったのは、制御ゲート(第2層多結晶シリコン)とドレイン電極の間でリーク電流が発生する不良で、全体の31%を占めた。次いで多かったのは、隣接する多結晶シリコンの間でリーク電流が発生する不良で、17%を占めている。一方で意外なことにデータ保持に起因する不良は少なく、わずか3%に過ぎなかった。
Nokiaの講演によると、不良の大半はウェハ処理工程で入り込んだ潜在的な不良(不良として認識できない欠陥や不具合)が半導体メーカーから出荷後に顕在化したものである。不良モードは初期不良であるので、半導体メーカーに対しては欠陥の低減とスクリーニングの徹底を要望するとしていた。 またスクリーニングに関連して、バーンイン(一定時間の高温動作後にテストして初期不良を取り除く手法)はフラッシュメモリの初期不良低減にはそれほど効果的ではないと述べた。フラッシュメモリの書き込み動作と消去動作の方が、バーンインにおける高温読み出し動作よりもずっと厳しいからだという。 □国際信頼性物理シンポジウム(IRPS)のホームページ(英文) (2006年3月31日) [Reported by 福田昭]
【PC Watchホームページ】
|
|