福田昭のセミコン業界最前線

世界トップ性能スパコンの可用性を支える信頼性技術をIRPSで披露

「IRPS 2026(2026年開催のIRPSを意味する)」の会場となった米国アリゾナ州ツーソンのリゾートホテル「Loews Ventana Canyon Resort」の外観(正面玄関付近)。2026年3月23日(現地時間)に筆者が撮影した

 半導体デバイスと電子システムの信頼性技術に関する世界最大の国際会議「国際信頼性物理シンポジウム(IRPS: IEEE International Reliability Physics Symposium)」(通称は「アイアールピーエス」)が3月22日(日曜日)に始まった。開催地は米国アリゾナ州ツーソンのリゾートホテル「Loews Ventana Canyon Resort(ロウズベンタナキャニオンリゾート)」である。

IRPS 2026の全体スケジュール。3月22日と23日はプレイベント(技術講座と最近の話題)、3月24日~26日がメインイベント(基調講演と技術講演会)となる。IRPSの公式Webサイトから筆者がまとめたもの

 本コラムの前々回前回では、IRPS 2026(2026年開催のIRPSを意味する)の開催概要と注目すべきトピックス、ハイライトとなる講演を事前にご紹介した。今回は現地からのレポートをお届けする。

2025年に大きく増えた投稿件数の水準を2026年も維持

 メインイベント(基調講演と技術講演会)の初日である3月24日(火曜日)は、総合チェアと技術プログラムチェアによる恒例の開会挨拶から始まった。IRPS 2026での発表を目指して投稿された論文の数(投稿件数)は274件である。内訳は標準締め切りのレギュラー論文が265件、締め切りを伸ばしたレイトニュース論文が9件であり、いずれも前回(IRPS 2025)から1件増えた。

 ほかの半導体関連国際学会と同様に、IRPSも2025年以降に投稿件数が大きく増えている。2024年以前と比べて比率で約25%、件数で50件前後の増加である。信頼性分野でも研究開発が活発になっていることがうかがえる。

 投稿論文の地域別比率はアジアが最も多く49%を占める。北米が29%、欧州が21%と続く。国・地域別での順位は米国がトップで群を抜いて多い。75件とみられる。2位が中国で40件近い。続いて台湾が25件、韓国が24件、インドが23件とみられる(件数はいずれもグラフからの見積もり)。

最近のIRPSにおける投稿論文と採択論文、招待講演などの状況(2022年~2026年)。2026年3月24日(現地時間)に筆者が撮影した
国・地域別の投稿論文数(左の棒グラフ)と地域別比率(右の円グラフ)。2026年3月24日(現地時間)に筆者が撮影した

 採択論文数は口頭発表(講演による発表)が103件(採択率38%)、ポスター発表が96件(同35%)である。全体での採択率は73%とかなり高い。

 招待講演の数(基調講演を除く)は6件で、前回(IRPS 2025)の22件から大きく減らした。2024年以前も招待講演は20件前後とかなり多い。投稿件数が前回に大きく増えたことから、2026年は採択講演の枠を広げるために招待講演の数を抑えた。

16カ国・地域から454名が参加

 3月24日の開会挨拶で公表された参加登録者数は454名である。地域別では北米が45%、アジアが34%、欧州が21%を占める。国・地域別の参加者数では米国が204名で圧倒的に多く、2位以下を大きく引き離す。第2グループは41名の台湾、40名の日本、38名の中国である。

 第3グループは27名の韓国、23名のイタリア、19名のベルギーと続く。なおIRPSはハイブリッド開催なので、参加登録者にはバーチャル参加者が含まれる。リアル参加者は454名よりも少ないはずだ(どの程度かは不明)。

IRPS 2026の参加登録者数と国・地域別の比率および数。2026年3月24日(現地時間)に筆者が撮影した

 参加登録者の属性も開会挨拶では述べられた。機関別では企業が56%、大学が33%、研究所が11%である。企業の参加者が半分を超える。学生の参加者は全体の約4分の1、24%を占める。IRPSに初めて参加する登録者は全体の42%と、4割強になる。

 なお参考のために過去のIRPSにおける参加登録者属性を探したところ、2015年のデータが見つかった。IRPSに初めて参加する登録者の割合は奇しくも2026年と同じ42%である。複数回参加者を含めた全体に占める学生の参加者比率は13%と、2026年よりも少ない。

参加登録者の属性。左は機関別比率(企業、大学、研究所)、中央は学生参加者の比率、右は初参加者の比率。2026年3月24日(現地時間)に筆者が撮影した

高性能コンピューティング(HPC)の特徴と課題

 開会挨拶の後は、恒例の基調講演が実施された。ローレンスリバモア国立研究所(LLNL: Lawrence Livermore National Lab)のBruce Hendrickson氏による基調講演「Reliability and High-Performance Computing : Lessons From the Bleeding Edge(信頼性と高性能コンピューティング: 最先端から学ぶ)」が興味深かったので、その内容を一部、ご報告したい。

ローレンスリバモア国立研究所(LLNL)のBruce Hendrickson氏による基調講演のタイトルスライド。IRPS 2026の講演スライドから(講演番号KN1)

 始めは高性能コンピューティング(HPC)の特徴と課題が説明された。特徴としては、多くの部品(プロセッサやメモリ、回路基板、コネクタ、ケーブルなど)で構成した極めて大規模なシステムであること。課題としては、高いクロック周波数(回路の動作周波数)と実装密度の高いラックが熱管理を難しくすること。それから従来型のプログラミングモデルが高い信頼性を要求すること、などがある。

高性能コンピューティング(HPC)の特徴と課題(その1)。Bruce Hendrickson氏によるIRPS基調講演のスライドから(講演番号KN1)

 また厄介なことに、アプリケーションは発生した障害の隔離も、障害の継続も許容しない。高性能コンピューティングシステムは数多くのジョブを実行しており、しかもシステムの異なる場所(複数のノード)にジョブを分散させている。従ってノードの1つに障害が発生すると、ジョブ全体に影響が及ぶ。障害対策を何もしなければ、ジョブ全体が止まる。

高性能コンピューティング(HPC)の特徴と課題(その2)。Bruce Hendrickson氏によるIRPS基調講演のスライドから(講演番号KN1)

 障害発生における迅速な復旧の基本的な手法は、チェックポイントを設けて定期的にその時点の状態をストレージに保存しておくことだ。障害が発生しても最初からではなく、ストレージに保存した時点に戻ってジョブを中途から再実行できる。

 ただしチェックポイントの数と保存の周期が問題になる。数多くのチェックポイントで頻繁に状態を保存することは、ネットワークとストレージにとって無視できない負荷となりかねない。

世界最高性能のスーパーコンピュータ「El Capitan(エル・カピタン)」

 これらの課題を克服して世界最高の性能を実現したのが、スーパーコンピュータ「El Capitan(エル・カピタン)」である。LLNLとHPE(Hewlett Packard Enterprise)、AMDが共同で開発し、2024年後半にLLNLに納品された。年に2回発表されるスーパーコンピュータの性能ランキング「TOP500」では、初登場となる2024年11月度の第64回でトップを獲得した。

スーパーコンピュータ「El Capitan(エル・カピタン)」の概要。Bruce Hendrickson氏によるIRPS基調講演のスライドから(講演番号KN1)
スーパーコンピュータ「El Capitan」の巨大さを象徴する主要な数値。Bruce Hendrickson氏によるIRPS基調講演のスライドから(講演番号KN1)

 「El Capitan(エル・カピタン)」の規模はノード数、外形寸法、プロセッサコア数、主記憶容量、ケーブル長、トランジスタ数とも桁違いに大きい。ノード当たりのAPUが4つ、キャビネット当たりのノード数が128個というのは高性能サーバーとしては標準的に見える。

 しかしキャビネットの数が90個で、占有面積がテニスコート2面分というあたりから、異様な感が漂い始める。プロセッサコア数が合計で1,100万を超え、主記憶容量が5ペタバイト(5,000TB)を超え、電力ケーブルの総延長が32マイル(約34.2km)、ネットワークケーブルの総延長が143マイル(約230km)という数値にいたっては、想像がかなり難しい。

 極めつけは総トランジスタ数で、およそ6.7✕10の15乗だとする。自然界に存在する生物などの数と比較すると、地球に存在する魚介類の総数を優に超えており、蟻(アリ)の総数にかなり近い。

「El Capitan(エル・カピタン)」の総トランジスタ数と、自然界に存在する生物などの総数との比較。Bruce Hendrickson氏によるIRPS基調講演のスライドから(講演番号KN1)

3万5,000世帯の都市と同じクラスのピーク電力を消費

 消費電力も、ものすごい。ピーク電力は35MWに達する。米国の3万5,000世帯に匹敵する消費電力だという。そして冷却には、24時間で氷に換算して10キロトンを必要とする。当然ながら1次冷却系は液体によるクローズドループ方式であり、空冷ファンは1次系に存在しない。温まった液体を冷やすための2次冷却系はオープンループ方式なので、ここには空調機や空冷ファンなどが存在する。

「El Capitan(エル・カピタン)」の消費電力と熱管理。右上の写真では、建屋屋上に巨大なファンが6基、レイアウトされている。右下の写真では手前に電力系統、奥に建屋が見える。Bruce Hendrickson氏によるIRPS基調講演のスライドから(講演番号KN1)

冗長電源や誤り訂正機能付き主記憶、ホットスワップ対応などを駆使

 システムの障害発生に対する迅速な回復能力(Resilience)は、施設、ハードウェア、運用、ソフトウェアなどの要素技術を工夫することで高めている。配電系と整流器には冗長性を持たせた。主記憶のHBMはシングルビットの誤り訂正機能とダブルビットの誤り検出機能を備える。適応型ネットワークの通信網は障害発生も停止せず、伝送性能が低下するに留まる。またホットスワップに対応しており、電源を投入した状態で部品を交換できる。

障害発生から迅速に回復するための要素技術。Bruce Hendrickson氏によるIRPS基調講演のスライドから(講演番号KN1)
部品故障の影響限定化とチェックポイント/リスタート機能の強化。Bruce Hendrickson氏によるIRPS基調講演のスライドから(講演番号KN1)

 さらに、部品が故障しても、故障した部品を使用しているジョブだけが影響を受ける。部品故障と関連しないアプリケーションを走らせているユーザーからはシステムがダウンしたように見えない。平均故障間隔(MTBF)で表現すると、全体システムよりもアプリケーションのMTBFが大幅に長い。

 またノードごとにローカルストレージを設けており、チェックポイントの活用による状態保存動作がストレージ全体の性能に与える影響を小さく抑えた。

 スーパーコンピュータ「El Capitan(エル・カピタン)」は2024年11月度の第64回以降、2025年6月度の第65回、2025年11月度の第66回と「TOP500」ランキングの首位を3回連続で維持してきた。高い性能と高い信頼性、高度なレジリエンスを両立させており、現時点の人類における最高傑作の1つだといえよう。