PCの使用条件からCPUの寿命を予測する
日本からの参加者を歓迎するスライド。例年はこのようなスライドはなく、今年は東日本大震災に配慮したものとみられる |
会期:4月10日~4月14日(現地時間)
会場:米国 カリフォルニア州モントレー
Hyatt Regency Monterey
半導体デバイスの信頼性技術に関する世界最大の国際会議「国際信頼性物理シンポジウム(IRPS:International Reliability Physics Symposium)2011」が4月10日~14日に米国カリフォルニア州モントレーで開催された。
カンファレンス初日の12日午前には、IRPS 2011の発表論文の全体像が示された。IRPS 2011への発表を目指して投稿された論文の数は210件である。実際に採択された論文は147件。内訳は講演発表が86件、ポスター発表が61件である。講演論文の採択率は40%、全体での採択率は70%だった。このほかに招待論文25件の講演発表があった。
国・地域別の投稿論文数では米国が断然トップで、81件と圧倒しており、投稿数全体の3分の1を超える。2位は台湾で30件、3位は韓国で18件を数える。日本は4位で16件の投稿があった。5位はフランスで15件、6位はベルギーで10件、7位はシンガポールで8件、8位は中国で7件、9位はイタリアで6件、10位はドイツで5件となっている。
●加速試験による寿命の保証と知識ベースの寿命予測12日の講演セッションではIntelによる、マイクロプロセッサ(CPU)の使用履歴から寿命を予測する試みの発表が非常に興味深かった。講演者はIntelのRobert Kwasnick氏である(講演番号2C3)。
マイクロプロセッサを含めた半導体チップの寿命とは通常、製品として動作する期間を示す。標準の試験規格に準拠したストレスをサンプルに与えて試験を実施し、試験をパスすることで一定の寿命を保証する仕組みである。例えば10年の寿命を保証する場合は、通常の使用条件よりもはるかに厳しいストレスをサンプルに与えることで、試験期間を1カ月程度に短くする。いわゆる「加速試験」と呼ばれる手法である。
加速試験による品質保証(左)と知識ベースの品質保証(右) |
これに対してIntelが試みた手法は、「知識ベースの品質保証(KBQ:Knowledge Based Qualification)」と呼ばれる。KBQでは不良モードの物理現象をモデル化し、使用条件を入力し、寿命を予測する。加速試験に比べると、実使用状態に近い条件で寿命を保証できるという利点がある。
具体的には、電圧印加のストレスによってゲート絶縁膜が劣化し、絶縁破壊する不良モード「TDDB(Time Dependent Dielecric Breakdown)」に、KBQを適用した。TDDBは経年劣化によって起こるので、マイクロプロセッサが動作を始めてから5年~10年といった期間を経ると発生確率が高まる。偶発的に発生するのではなく、「寿命が尽きる」ように発生する不良モードである。
「Core 2 Duo」の概要 |
研究対象のCPUには、x86アーキテクチャのマイクロプロセッサ「Core 2 Duo」を選んだ。45nmのCMOSプロセスで2007年に量産を始めたマイクロプロセッサである。
「Core 2 Duo」は消費電力の異なる複数の動作モード(ステート)を有しており、動作モードの違いがマイクロプロセッサのトランジスタに与えるストレスの違いに関係する。ステートにはスリープ・ステート(S)、プロセッサ・ステート(C)、パフォーマンス・ステート(P)がある。いずれもアルファベットとそれに続く算用数字でステートを区別する。
「Core 2 Duo」の低消費電力モード |
スリープ・ステートは「S0」がオン状態、「Sx」がオフ状態である。プロセッサ・ステートは「C0」が動作状態(例えば命令を実行している状態)であり、「C1」以降(「C1」~「C4E」)はアイドル状態を意味する。パフォーマンス・ステートは動作状態の「C0」をさらに細かく区分したステートで、電源電圧と動作周波数が異なる。最大の電源電圧と動作周波数のステートが「P0」ステートであり、最小の電源電圧と動作周波数のステートが「Pn」である。
そして「Core 2 Duo」を搭載したノートPC 28,621台に対し、2008年4月から2010年10月にかけて実使用状況のデータを集めた。PCの動作状態では1日当たりで「S0」ステート(オン状態)になっている時間を調査したところ、半分のノートPCは1日当たりのS0時間が8.2時間以下だった。そして95%のノートPCは、1日当たりのS0ステート時間が18.4時間以下であることが分かった。なおPCのOSはWindows XPである。
そしてCPUの動作状態では、1日当たりで「C0」ステート(動作状態)になっている時間を調査したところ、半分のノートPCは1日当たりでC0ステートの時間が3.5時間(1日の14.4%)以下だった。そして95%のノートPCは、1日当たりのC0ステート時間が6.7時間(1日の27.8%)以下であることが分かった。
またこれとは別に1世代前のマイクロプロセッサとWindows Vistaを搭載したノートPC8,930台の実使用状況を2008年末に調べたところ、半分のノートPCはC0ステートの時間が1日の10.6%以下、95%のノートPCはC0ステートの時間が1日の27.6%以下だった。
これらの実測結果から、ノートPCのCPUがC0ステートである時間(CPUが動作状態にある時間)は1日の約4分の1強であることが分かった。
さらに、ベンチマーク・ソフトウェアを使ってCPUの使用状況を調べた。一般的な使用方法のモデルにはSysmark 2007 All、オフィス用途のモデルにはSysmark 2007 Office Productivity、ゲーム用途のモデルには3DMark06 Game Demoを使用し、C0ステート、P0ステート、P1ステートの1日当たりの比率を測定した。またこれらのベンチマークとは別に、「Core 2 Duo」を搭載した業務用ノートPC 400台を対象に2009年半ばに4週間に渡ってC0/P0/P1ステートの比率を測定した。
用途の違いによるC0/P0/P1ステートの比率(1日当たりの割合)。一般的な使用方法(General Usage)、オフィス用途(Office Work)、ゲーム用途(Gaming)はベンチマーク・ソフトウェアを使って測定した。業務用(Corporate)は実使用状態をモニターしたデータ |
その結果、C0ステートの比率が最も多いのはゲーム用途(のベンチマーク)であり、P0ステートの比率が最も多いのは一般的な使用方法(のベンチマーク)であることが判明した。
これらの調査結果から、C0ステートの比率と不良率の関係を予測した。例えばC0ステートの比率が50%で5年間における不良率を1に正規化すると、C0ステートの比率を100%にしたときの不良率は3になる。またC0ステートの比率を25%にしたときには不良率は0.3に下がる。
C0ステートの比率(1日当たりの割合)と不良率の関係 |
またP0ステート(Turbo Boost)の比率と不良率の関係も予測してみせた。こちらはC0ステートに比べるとゆるやかなカーブで、50%での不良率を1とすると100%で2~3となっていた。
半導体チップの寿命を保証する手段としては、かつては加速試験が常識だった。しかし実際には、加速試験が与えるような厳しいストレスを半導体チップが受けることは、ほぼ、ありえない。半導体チップにはさまざまな用途があり、その大半にとっては加速試験をパスするような品質は過剰であるともいえる。一方で、22nm/15nmといった最先端の半導体チップを低いコストで提供するためには、実使用状態を反映したモデルによる寿命保証手法を採用することで過剰品質を改めたいという要求がある。Intelの試みには、こういった思惑が背景にあるのだろう。
(2011年 4月 27日)
[Reported by 福田 昭]