後藤弘茂のWeekly海外ニュース

Hot Chipsで発表されたAMDのARMサーバーチップ「Seattle」など

~元TransmetaのDitzel氏率いるThruChipの無線ダイ積層技術も話題

Freedom Fabricを欠いた状態のAMDのARMサーバーチップ

 米国時間の8月10日~12日に、米クパチーノで開催された半導体チップ関連の学会「Hot Chips 26(A Symposium on High Performance Chips)」では、ARM関連の発表が目に付いた。キーノートスピーチにARMのMike Muller氏(CTO, ARM)が登場したほか、NVIDIAが自社開発の独自マイクロアーキテクチャの「Denver(デンバー)」を、AMDがサーバーSoC(System on a Chip)「Seattle(シアトル)」を発表した。

 AMDのSeattleは高密度サーバー市場に向けたSoCで、ARMの64-bit命令セット「ARMv8」のCPUコア「Cortex-A57」のIPライセンスを受けてSoCを開発した。

 SeattleのCortex-A57は2コアずつのペアで、1MBの共有L2キャッシュとともにCPUモジュールとなっている。合計4モジュールで8 CPUコアの構成となっている。各コアのキャッシュの構成はL1命令キャッシュが48KBでL1データキャッシュが32KB。全CPUコアで共有の8MBのL3キャッシュを備える。メモリはおとなしく2チャネルのDDR3/4インターフェイス。Hubチップは使わず直接続で、最大4 RDIMMで128GBを接続できる。

Seattleの概要
Seattleのブロック図
Seattleのメモリシステム

 SeattleのI/Oは、2チャネルの10GBASE-KR Ethernet、8レーンのSATA 6Gbps、8レーンのPCI Express Gen 3(x8/x4/x2)。10 Gigabit Ethernetを使う、サーバーI/Oとしては意外性のない構成となっている。AMDは、SeattleにSeaMicroのトーラスネットインターフェイス「Freedom Fabric」を統合する予定だったが、それについては言及されなかった。Freedom Fabricは開発の遅れが噂されていたが、それが実証された形だ。

Seattleのリファレンス開発ボード

 ただし、Seattleのダイ(半導体本体)レイアウトでは左上に意味深なブラックボックスがあり、使えないものの現在のダイにFreedom Fabricが載せられている可能性がある。Freedom Fabricは、ARMサーバーでのAMDの強力な武器であるため、簡単に諦めるとは思えない。

 とは言え、Seattleは当面は10 Gigabit Ethernetでスタートすることになる。リファレンスボードも10 Gigabit Ethernetベースだ。Freedom Fabricを欠いているため、現状では、Seattleは標準的なサーバーチップとなっている。

左上にスペースが空いているSeattleのフロアプラン

 SeattleのCPUモジュールのフロントエンドはARMのAMBA 5 CHIだが、内部インターコネクトがARMの標準的なファブリック(Fabric)を使っているかどうかは明らかにされなかった。ARMはサーバー向けのファブリック「CoreLink CCN-508」をすでに提供している。AMDは、同社の第2世代のCortex-A57実装(2015年に登場)からは、内部ファブリックを自社で開発し、x86 CPUと共通の独自ファブリックとする計画「SkyBridge」を立てている。

 Seattleは、メインのCortex-A57とは別に、システムコントロールプロセッサとしてCortex-A5を載せている。これは、AMDが全CPU/APUラインでARMのTrustZoneセキュリティ技術を導入したためだ。x86系のAMDのPC向けAPUも、Cortex-A5を載せている。また、SeattleはCryptographic Coprocessor(CCP)をアクセラレータとして載せている。ただし、Seattleは、AMDが得意とする汎用のGPUコアは載せていない。GPUコアとARMコアの組み合わせは来年(2015年)の製品からとなる。

 Seattleの製造プロセスはGLOBALFOUNDRIESの28nmで、GLOBALFOUNDRIESである点はAMDのパフォーマンスAPUと同じ。AMDはGLOBALFOUNDRIESのラインを増やす方向にあると言われている。

AMD CPU/GPUのロードマップ(PDF版はこちら)

ARMサーバー一番手のApplied Microは第2世代チップを発表

 ARMサーバーCPUでは、Applied Microも同社のARMv8ベースCPU「X-Gene」ファミリの第2世代CPU「X-Gene2」を発表した。同社は「X-Gene 1(Storm)」で、ARMの64-bitサーバーCPUの一番手を切った。Applied Microは、ARMからアーキテクチャルライセンスを受けて自社独自のマイクロアーキテクチャを開発しており、今回発表した「X-Gene2(Shadowcat)」が2世代目となる。製造プロセス技術は、X-Gene 1の40nmからX-Gene2では28nmになり、すでにサンプル出荷をしている。

X-Gene2のブロック図

 CPUコアは最大4命令デコードのアウトオブオーダ実行で、CPUコアの基本構成は前世代と大きくは違っていない。分岐予測の強化やスケジューラエントリの強化、データキャッシュのプリフェッチャの強化などが行なわれた。CPUコアは2コアずつのモジュールになっており、2コアでL2キャッシュを共有する。

X-GeneのCPUモジュール
X-Gene 2(Shadowcat)のブロック図
X-Gene 2のCPUブロック図

 Applied Microのロードマップでは、来年(2015年)サンプル出荷予定の「X-Gene 3(Skylark)」が設計段階にある。CPUコア数を16~64コアに増やし、マイクロアーキテクチャも拡張する。また、X-Gene 3では、20nmプロセスをスキップして一気に16nm FinFETに移行する。現在、多くのベンダー(SCEなど)が28nmプレーナ→14/16nm FinFETへの移行プランを立てており、Applied Microもそれに沿っている。CPUでは最近“Sky”が付くコードネームが増えておりちょっと紛らわしい。

Applied Microのロードマップ
X-Gene3(Skylark)の概要

スタックしたダイ間をワイヤレスでデータ転送

David R. Ditzel氏(CEO, ThruChip Communications)

 Hot Chipsでは、CPU以外にも注目の技術がいくつか発表された。中でも注目を集めていたのは、安価な3Dチップスタック技術を開発したThruChip Communicationsだ。

 3Dスタッキングでは、Through Silicon Via (TSV)を使ったアプローチが、HBM(High Bandwidth Memory)やHMC(Hybrid Memory Cube)などの広帯域DRAM技術に使われている。しかし、TSVは現状ではまだ製造コストが高く厳密なアライメントが必要で、HBMなどではサプライチェーンも変更が必要になるなど問題も顕在化している。ThruChipは積層するダイ間の接続をワイヤレスにし、より高度なウェハ・シニング(wafer thinning)技術を使うことで、こうした問題を解決する。

 ThruChipの技術では、チップ間のデータ接続にはインダクティブコイルを使う無線インターフェイス「ThruChip Interface(TCI)」を使う。この技術はThruChipのCTOの黒田忠広氏がISSCC(IEEE International Solid-State Circuits Conference)などで発表した技術をベースにしている。しかし、学会発表時と比べるとコイルは劇的に小型化(伝送距離によってコイルサイズは変わる)されている。また、コイルをオーバーラップして配置することで実装面積を縮小することもできる。

インダクティブコイルを用いてダイ間をワイヤレスで接続するThruChipの技術

 Hot Chipsでは、実際のHBMダイ上のTSV I/O面積を、ThruChipのTCIコイルで実装した場合の面積の計算結果を比較。DRAMチャネル当たり16コイル/8Gtpsの転送レートで、HBMと同等のメモリ帯域を実現した場合に、TCIの方が劇的に実装面積を少なくできると示した。また、TSVに対してTCIは、伝送電力とディレイの面でも、スタックするダイ数にかかわらず一定という利点がある。

ワイヤレスで電力も伝送するThruChip技術

 また、ThruChipは電力供給もメタルワイヤを使わずに実現する技術「Highly Doped Silicon Vias(HDSV)」を発表した。これはシリコンに打ち込んだビアを使った電力伝送技術で、4μmの極薄ウェハを実現するアドバンスト・ウェハ・シニング技術を使う。ウェハの厚みはウェハメーカーからの出荷時には775μm(300mmの場合)で、ダイシング(dicing)前にウェハを薄く削っている。メモリ製品は相対的に薄く、TSVダイは特に数十μmと薄いが、それよりさらに薄く削る。シニング後のダイをスタックすると、HDSVと次のダイの電極が接続され電力が伝送される。

 TCIによるデータ伝送とHDSVによる電力供給を組み合わせると、データと電力の両方がワイヤレスとなり、ダイ(半導体本体)エリアもより抑えられる。HBMと比較して試算したケースでは、HBMより13%もダイを小型化できるとしている。また、40μm程度のダイ厚保のTSVチップに対して、TCI+HDSVのソリューションではダイの厚みは8μm(4μmシリコン+4μmメタル)になるため、スタックの厚みも4DRAM+コントロールダイで40μm程度と劇的に薄くすることが可能となる。

 ThruChipの技術では、このように、TSVスタック並の広帯域接続を、低い遅延と低い電力で実現し、しかもダイサイズやスタック厚自体も小さくできると、同社のCEOのDave Ditzel氏は説明する。Ditzel氏は、かつて低電力CPUメーカーTransmetaのCEOとしてCPU業界に旋風を巻き起こしたが、今回はThruChip技術で新風を吹き込もうとしている。TCIはすでに28種類のテストチップで実証されているという。ThruChip社自体は、技術コンサルタントとして同技術の浸透を図って行くと言う。

(後藤 弘茂 (Hiroshige Goto)E-mail