福田昭のセミコン業界最前線
半導体の「再現しない不良(NTF)」を高い効率で取り除く手法
2020年5月22日 11:00
半導体メーカーのテストを合格した「良品チップ」が、半導体ユーザーに出荷されてから「不良品」として見つかることがある。半導体ユーザーに届いてから不良が見つかるということは、「何らかの不具合が発生する要因(欠陥)」が半導体チップに隠れており、ユーザーの手元あるいは使用現場で「不良」あるいは「故障」として顕在化したということを意味する。このような不良を「潜在不良」あるいは「潜在故障」と呼ぶ。
潜在不良(Latent Failure)の原因は、半導体メーカーが不良品を解析する作業(不良解析)によって見つかることが多い。不良解析でもっとも重要な作業は、「不良が再現するかどうか」だ。半導体メーカーはユーザーから戻ってきた不良品をテストにかけ、不良が再現するかどうか調べる。不良が再現すれば、解析作業によって不良の要因を推定する。さらには推定した要因を別の半導体チップに埋め込むことで、不良が再現するかどうかを調べる。不良が再現すれば、原因を特定できたことになる。
しかし実際には、半導体メーカーがテストを繰り返しても、不良が再現しないことがある。あるいは再現できても、不良解析作業の途中で、不良が消滅してしまう。さらには不良の要因を推定できても、不良を再現できない。このような不良は「不再現(NTF:No Trouble Found)」と呼ばれる。
半導体ユーザーから半導体メーカーの返却された不良チップのなかで、「不再現」の割合はどのくらいだろうか。半導体の信頼性技術に関する国際学会「国際信頼性物理シンポジウム(IRPS)」で報告された事例によると、少ないもので20%、多いもので80%となっていた。かなり大きな違いがあることがわかる。数多くの不良チップを調べてみないと、どのくらいの割合が「不再現」となるかがわからない、ということでもある。
「不再現」の場合は、不良の原因が特定できない。つまり対策を打てない。半導体メーカーや半導体ユーザーなどの信頼性技術者や品質管理の担当者などにとって、これは相当に「気持ちの悪い状態」だ。対策を打てないということは、不良発生の可能性がつねに残るということを意味する。不良がいつ再発するのか、わからない。気持ちが落ち着かない。
「不再現」を発生させる要因と対策の課題
「不再現」不良の要因は特定できないとはいうものの、考えられる発生要因がないわけではない。いくつもの要因が推察されている。半導体メーカーと半導体ユーザーによるテスト条件の違い、物理的な欠陥による不具合(不良品ではない)、テストカバレージの不足、半導体メーカーの仕様を超えた条件での動作、電源の瞬断/瞬低による誤動作、ソフトウェアあるいはファームウェアのバグ、シングルイベント(ソフトエラー、静電気放電など)、などだ。
考えられている発生要因の大半は、半導体メーカーが単独で対応することが難しい。半導体ユーザーと協力して真の発生要因を推定していくことになる。
本コラムの前回(半導体メーカーのテストをすり抜ける「潜在不良」)で述べた「潜在不良」と「不再現」には、類似点と相違点がある。似ているのは、いずれも半導体メーカーの標準的なテストでは見つからない、という点だ。
不良要因と対策の扱いでは、両者はかなり違う。潜在不良は不良要因を特定できているので、スクリーニング手法を立てやすく、その効果を予測しやすい。不再現は不良要因を特定できないのでスクリーニング手法を見つけにくく、またその効果が予測しづらい。潜在不良は厄介な不良であるが、不再現はさらに厄介な不良だと言える。
物理的な欠陥の入ったシリコンダイを取り除く
「不再現」不良の半導体チップをあらかじめ(出荷前に)取り除くために考えられた有力な手法が、「不良品にならない程度の製造欠陥(物理的な欠陥)の入ったシリコンダイを見つけて取り除く」技術である。この技術は「潜在不良」を発生させる欠陥の入ったシリコンダイをあらかじめ取り除く(スクリーニングする)手法と重複する。
前回で述べたように、「潜在不良」のスクリーニングには製造歩留まりの違いを利用した手法やウェハ面内の欠陥分布を利用した手法、測定パラメータの「外れ値(outlier)」を見つける手法(単変量解析)などがある。これらの手法も、「不再現」不良のスクリーニングに役立つ。ただし、確実ではない。
「不再現」不良の確実なスクリーニングには、さらに複雑な手法が必要とされる。そこで測定パラメータの外れ値を見つける手法(単変量解析)を改良した技術や、数多くの測定パラメータを解析して外れ値を見つけ出す技術(多変量解析)などが研究されてきた。
統計学的手法の助けを借りる
ここで「外れ値(outlier)」の意味について確認しておこう。ある物理量(パラメータ)を数多くのシリコンダイで測定した結果は通常、ばらつきを持つ集団を形成する。理想的にはこの集団は、正規分布(ガウス分布)を形成するとされる。この集団から一見して離れたところにある測定結果が「外れ値(outlier)」であり、何らかの物理的欠陥がシリコンダイに存在するとその影響が「外れ値」となって顕在化する、とされる。
そこで測定結果の分布から「外れ値」のシリコンダイを取り除けば、「潜在不良」あるいは「不再現」不良のダイを取り除けている可能性が高い。現在は、このような考え方に基づいてスクリーニングを実施する。
ただし前述のように「潜在不良」に比べると、「不再現」不良のダイを「外れ値」として取り除くことは簡単ではない。一般的には、より複雑かつ精緻な手法が必要とされる。たとえば本コラムの前回で説明した「PAT(Part Average Testing)」は潜在不良の検出には有効だが、不再現の検出にはあまり有効ではないとされる。
不再現の検出手法として試みられているのは、動作周波数と最小電源電圧(Vmin)の関係、電源電圧と消費電流の関係、リーク電流(IDDQ)の波形と測定分布、電源電流(IDD)の波形と測定分布、高電圧ストレスによる待機時消費電流の変化、などを調べることである。
スクリーニングとオーバーキルのトレードオフ
数多くの測定パラメータを解析して外れ値を見つけ出す手法(多変量解析)は、いくつか存在する。代表的な手法は以下の3つだ。「主成分分析(PCA:Principal Component Analysis)」、「マハラノビス距離(MD:Mahalanobis' Distance)」、「サポートベクトルマシン(SVM:Support Vector Machine)」である。
主成分分析 (PCA)は、数多くの変数(測定パラメータ)のなかから、同一の傾向を備えた測定結果となるパラメータを減らしていくことで、変数の次元を下げて解析を容易にする手法である。2次元あるいは3次元まで変数の次元を下げる。2次元の直交軸にプロットされた測定分布から、外れ値を見つけ出すことは難しくない。
マハラノビス距離(MD)は、2つの変数(測定パラメータ)によるプロットの集団で、中心からの距離を計算したもの。集団の端(「上側管理限界(UCL:upper control limit)」と呼ぶ)よりもMDが長いプロットを外れ値として定義できる。
サポートベクトルマシン(SVM:Support Vector Machine)はマシンラーニングによって外れ値を求める手法の1つ。厳密にはワンクラスSVM、バイナリSVMなどと呼ぶ。良品のデータを学習させることで、正常値と異常値(外れ値)の境界を設定する。
これら3つの手法は競合するものではなく、組み合わせても使える。PCAによって測定パラメータを絞り込み、MDとSVMによって外れ値を検出する、といった使い方だ。
ただし、これらの手法を使っても「不再現」不良を高い精度で検出できるとはかぎらない。外れ値と「不再現」はイコールではないからだ。外れ値を定義すると、必ず良品が含まれる。犠牲となる良品(「オーバーキル(Overkill)」と呼ぶ)は製造歩留まりを低下させ、製造コストを上昇させる。外れ値の定義をゆるくすればオーバーキルは減るものの、「不再現」が出荷されてしまう確率が増加する。トレードオフがある。
また「不再現」不良が「外れ値」ではなく、良品のプロット群に埋もれていることもある。すべての「不再現」をあらかじめ取り除くことは、たぶん、不可能だろう。製造コストを上昇させずに、なるべく多くの「不再現」ダイをスクリーニングすることが求められている。実現は容易ではない。