大原雄介の半導体業界こぼれ話

チップ間光通信のシリコンフォトニクス、やっぱり時期尚早?

【図1】あくまでこれは「チップ間」接続であり、「チップ内」接続ではない。まだチップ内接続に光を使うのは相当先、とIntelとしても考えを改めたようだ

 8月25日から27日まで、今年(2024年)もスタンフォード大でHot Chipsが開催された。もっとも、コロナを受けてまずオンラインでの開催となり、ポストコロナ以降はハイブリッドに切り替わったおかげで、筆者も問題なく参加できているのは喜ばしいことで、今後もハイブリッドを続けてほしい。

 それはともかく今年のHot Chipsは、「明らかにこれHot Interconnectsネタだろ?」と思うようなネタが増えた。その最右翼はTeslaの「DOJO: An Exa-Scale Lossy AI Network using the Tesla Transport Protocol over Ethernet(TTPoE)」で、ちょろっとだけDojoチップに関する話も入ってはいるが、ほとんどがTTPoEの話で、これはこれで面白い内容だったのだが、“別にHot Chipsでなくてもいいよね?というか、Hot Interconnects行けよ”という感じであった。

 これは1日目にOpenAIが行なった「Predictable Scaling and Infrastructure」もそうで、ご存じの通り同社はAIチップを自作しているわけではなく、NVIDIAからGPUを購入してブン回しているわけで、なのでカスタマイズの要素はそのGPUをどう繋いで、どう作業に振り分けて使うかという話になる。

 細かい話はあまりなかったのだが、「Design for Mass Deployment」として語られた内容はちょっと興味深く、もう少し細かく実例を出して示してほしかった。ただこっちもHot ChipsではなくHot Interconnectsだよね?という感じであった。

 で、Broadcomの「An AI Compute ASIC with Optical Attach to Enable Next Generation Scale-up Architectures」と、ここでご紹介するIntelの「4 Tbit/s Optical Compute Interconnect Chiplet for XPU-to-XPU Connectivity」は境界線上という感じではあるが、どちらかというとHot Interconnectsじゃね?という内容であった。ただその中でもIntelの話は色々想起されるものが多く、それもあってちょっと取り上げみたいと思う。

光通信のニーズの変化

 Intelの考えるところの光通信の進化というのが、冒頭の図1。実際にはかなり早くから光が利用されていたことを考えると、これも大げさというか、Telecom Ageの時代以前にも、たとえば光ファイバーベースのトークンリングを構成してLAN(というのか?)を組んだシステムを1990年台に顧客のところに入れたりしてたから、割とTelecom AgeとDatacom Ageは重なっている気がする。とは言え、確かに光ファイバー関連技術は当初長距離通信向けに開発されたものがベースとなって、ほかの用途にも転用されていることを考えると、大げさではあっても嘘ではないとは思う。

 長距離向けの場合、とにかく長距離に安定して到達でき、かつ帯域を広くすることが最優先であり、コストとか消費電力は二の次であった。DSPについても、なにしろ長距離向けというのはバックボーンに使われる可能性が高いわけで、信頼性第一というわけだ。

 ところがデータセンターの内部が、銅線ベースのEthernetから光ファイバーベースのEthernetに置き換えられてゆく中で、新たなニーズが出てきた。こちらではもちろん帯域が必要ではあるが、コストと消費電力の低減が重要になってきた。

 なにせ複数というか大量にあるラックの中に、これまた大量のサーバーが配されており、これをTOR(Top of Rack)やBOR(Bottom of Rack)にあるネットワークスイッチと接続。このスイッチ同士がさらにラック間やバックエンドの大規模スイッチとつながるといった構成になるから、個々のネットワークポートでの消費電力を削減することは急務だし、データセンターの設置コストにも絡んでくるから、コスト削減も重要視される。この結果として

  • シリコンフォトニクスを利用することで低消費電力化を図る
  • 出力を引き上げる(とともに/または)受光器の感度を引き上げることで、光アンプを廃止できるようにする(これによりコストと消費電力の両方が削減できる)
  • DSPの機能を削減し、可能なら省く(DSPの消費電力が結構バカにならないため。あとDSPで複雑な処理を行なわせており、これがレイテンシ増加の一因にもつながっていた)

といったニーズに変わってきた。これが後述するCPO導入の最大の要因となっている。ちなみに昨年(2023年)11月の記事の冒頭で触れた、IntelがJaviに売っぱらったPluggable Ethernet Transceiverの事業というのは、まさにこのDatacom Age向けのソリューションだったわけだ。

 ちなみにシリコンフォトニクス(Silicon Photonics)とシリコンオプティクス(Silicon Optics)の両方の表記が使われるが、意味は同じである。本稿以下ではシリコンフォトニクスで統一する。

チップ間の光通信

 そして今回の話であるAI Ageの話につながる。要するにチップ間接続に向けたものであれば、到達距離はラック内とかラック間に限られる(というか、その辺で限ることにしないとキリがない)。そして帯域が増える以上、消費電力はもっと抑えないといけない。必然的に、1波長辺りの速度を上げるよりは、波長辺りの速度は控えめにしてDWDMにすることになる。CWDMにすると広範な波長に対応させる必要があるから、DWDMにするのが妥当だろう。

 このためのMUX/DEMUXといった光部品は、既にIntel社内で昔から開発が行なわれているから実装は容易だ。そこで、「高速な光信号を使ったシリアルのチップ間インターコネクト」ではなく「低速な光信号を束ねて広帯域としたパラレルのチップ間インターコネクト」を試作した、というのが今回の発表である。

 ところで先ほど“CPO”という言葉が出てきた。これは「Co-Package Optics」の略であり、もう昨今はこの言葉で一般的に通用し始めているわけだが、これまで用途として示されてきたのはまずEthernetスイッチ向けで、次がコンピュートファブリック、つまり今回説明するチップ間の接続となる(図2)。

【図2】あるいはもしIntelがまだBarefootのTofino向けの開発を続けていれば、将来製品にEthernet CPOを利用した製品があったかもしれない

 実はこの流れ、たとえばBroadcomも同じである。同社はまずPluggable Ethernet Transceiverについて、従来型のII-V族の光向け部品をシリコンフォトニクスに置き換えた(図3)後、その技術をスイッチに適用してから、最後にチップ間接続に持ってゆくとしている(図4)。

【図3】これはPluggable Ethernet Transceiver向けの話。ここで言うIII-V族はおそらくGaAsにInPやSbなどを組み合わせたVCSEL構造のレーザーソースを指しているものと考えられる
【図4】左のSwitchは16ポートのCPOを16個(各辺あたり4つ)搭載し、全部で256レーンの光Ethernet Switchを構成できるとする

 TSMCも同じで、今年6月に開催されたTech Symposiumでは、やはり同社のCOUPE(COmpact Universal Photonic Engine)をまずPluggable Ethernet Transceiverに適用し、次いでスイッチ、最後にXPUに適用するというロードマップを示している

 ほかにシリコンフォトニクスや光Ethernet関連を扱っているMarvellとかGlobalFoundriesのロードマップも、おそらくは似たようなものだろう。Intelはスイッチを扱わない(いやIntel Foundryで扱う可能性はゼロではないから、将来的には可能性はあるのだろうが、直近では見えていないということだろう)関係で、スイッチを飛び越えてXPU向けのチップtoチップに踏み込んだわけだ。

 さてそんなIntelの構成がこちら(図5)。XPUがいわゆるプロセッサで、それとCPO用のチップレットの間はUCIeでの接続である。CPOの方は、底面にEIC(Electrical Integrated Circuit)を設け、ここでUCIeのI/Fと必要ならDSPを集積。そして電気/光変換は、EICの上に積層されたPIC(Photonics Integrated Circuit)で行なう。このPICはシリコンフォトニクスで実装される形だ。

【図5】PICとEICの積層はおそらくFoverosを利用しているものと思われる。多分この実装では、EICにDSPは実装されていなそうだ

 このCPOチップレットでは、4Gbpsでの相互接続が可能になっている。波長は(SR:Short Reach)にもかかわらず1,310nm付近で、普通だとSMF(Single Mode Fiber)でxBASE-LRなどに使われる領域ではあるが、別にMMF(Multi Mode Fiber)では通信できないわけでもない。

 850nm付近を使わなかったのは、出力と減衰の問題ではないかと思う。1波長あたり32Gbpsであるが、1,310nm付近を中心に1.2nm程度の間隔で8波長をDWDM化した上で1本のファイバーに通す。実際には片方向あたり8本のファイバーから構成されるので、合計帯域は32×8×8=2,048Gbpsになるというわけだ。

 ちなみに下の方に書いてあるように、PCI Express 6.0への適用も想定しているあたり、中はEthernetフレームを通しているわけではなく、必要ならPCIeをそのまま通せる構成なようだ。

 そもそも32Gbpsという転送速度とNRZ変調なのは、PCI Express 5.0の信号をそのまま光化しているのではないかと思う。で、“un-retimed PCIe6”なんて書き方をしているあたり、現在はNRZでの送信だが、必要ならPAM4での送信も可能なPHYになっていることを示唆している。

 現状はEICがUCIe 1.1準拠と思われるので、PAM4の信号はそのまま通せないが、2.0準拠になった次世代EICはPCIe 6の信号をそのまま通してPICに引き渡し、そのまま光化して送信する形になるのだろう。そしてこの場合FECは利用せず、PCIeのFLITを使ってエラー訂正を行なう形を考えているものと思われる。

 要するにPCI Expressの光エクスパンダみたいな形で動作するものと思われる。この場合XPUからは、PCI Expressデバイスに対して読み書きするような形で動作し、それがそのまま光ファイバー経由で相手のXPUにつながる格好だ。あるいはPCI Expressだと転送モードに制限があるので論理層はCXLにするのかもしれないが、まぁそのあたりは大きな問題ではない。物理層的にはPCIeを利用していると思われる、というのがここでのポイントである。

 光EthernetだとどうしてもFECに起因するレイテンシが大きくなる。それを避けるためにも、レーンあたりの速度を低めに抑えて、PCI Expressのエラー訂正やFLITを利用することで、XPU間の通信のレイテンシを低めに抑えながら帯域を広げる、というアイディアはなかなか賢いように思える。

なぜIntelはシリコンフォトニクスで全部統合しなかったのか

 ただこの記事の本題はそこではない。なんでIntelはシリコンフォトニクスで全部統合するのではなく、CPOを使ったのか?という話だ。

 図6で言えば、XPUは当然シリコンプロセスである。XPUだから今ならIntel 7とかIntel 3、今後はIntel 18Aとかだろうか。EICはもちろんシリコンプロセス、そしてPICもシリコンフォトニクスを使えばやっぱりシリコンプロセスである。

【図6】4Gbpsは両方向の合計の帯域で、片方向だと2Tbpsになる。ちなみに本文に書いた理由で、EICのインターフェイスは16bit幅で32GbpsのUCIeが4つ用意される格好だろう

 「だったら全部統合しちゃえば製造が楽では?」というのがこれまでの発想で、でも実際にはチップレットにして分離した方がむしろ効果的というのが、今回のIntelの結論である。EICとPICのプロセスは示されていないが、おそらくEICは22nmか14nm、そしてPICは45nmか65nmあたりと想像される。

 理由は簡単である。EICはPICに対してそれなりの電圧で信号を渡す必要があるし、PHYが大きな面積を占める上、今回の想定が正しいとすればプロトコル変換とかFECとかが一切要らないから、ハイスピードロジックが不要である。22nmだと32GbpsのPHYはちょっと厳しいかもしれないが、14nmなら問題なく製造できる。そしてPHYとかは14nmで作ろうが18Aで作ろうが、面積にほぼ変わりがない。

 強いて言うなら、プロセスを微細化するほど動作電圧が下がる関係で、それなりの電圧を必要とする用途に先端プロセスは向かない(不可能ではないが効率は悪い)。であれば22nmとか14nmの古いプロセスを使った方が高電圧を扱いやすいし、面積が変わらないとなると製造コストは安くなる。

 これがもっと極端なのはPICの方で、シリコンフォトニクスベースの回路部品はそもそもFinFETプロセスではなく、プレーナタイプのプロセスで開発されてきたし、こちらはさらに部品のサイズが大きくなる。

 2022年のHot Interconnectsでは、IntelのJames Jaussi氏による招待講演の中で、22nmプロセスでTIAを開発したことが明らかにされていた(図7)。ただすべての構成部品が22nmで作れるわけではないことを考えると、実際はもう少し古いプロセスではないかと筆者は睨んでいる。

【図7】なぜかHot Interconnects 2022のみWebサイトもペーパーダウンロードも不可能になっているのだが、招待講演そのものはこちらから視聴できる

 話を戻すと、そういうわけで大昔の「電気と光を同じシリコンで実装する」というアイディアは残念ながら非現実的であり、チップレット的にコンポーネントを分離するのが現実的な方策というわけだ。

キャンセルされたKnights Hillとの関係

 今回Intelから公開されたチップの写真(図8)を見て、筆者が思い出したのはKnights Hillである。

【図8】一見1対の2本ファイバーに見えるが、この中に8対16本のファイバーが入っているわけだ

 10nmプロセスを利用して2016年に投入予定だったKnights Hillは、2014年11月に開催されたSC14で存在が明らかになり、IntelがALCFに納入するAuroraに導入される予定だった。ところが2017年11月に開催されたSC17で、このKnights Hillがキャンセルされることがブログ記事でサラッと触れられた。

 Web Archiveに保存されている当該記事によれば「One step we're taking is to replace one of the future Intel Xeon Phi processors (code name Knights Hill) with a new platform and new microarchitecture specifically designed for exascale.」だそうで、これが最終的にPonte Vecchioになったわけだが、それはともかく。このKnights Hillに先立つKnights Millの世代で、既にIntelはCPUから直接外部インターコネクト(Omni-Path Fabric)に接続できる製品を用意していた。この世代のOmni-Path Fabricはまだ銅線ベースの100Gbpsのもので、次世代は200Gbpsの銅線ないし光配線を予定していたはずだった。

 で、Knights Hillはこの次世代200Gbpsを光で接続するバージョンも提供予定で、そこはシリコンフォトニクスを入れ込むとかいう話があったらしいのだが、Knight HillのキャンセルやOmni-Path Fabricそのものの撤退などの中でそういう話は全部消えてしまった。

 消えてしまった話なので、この光インターフェイスを持つKnight Hillがどんな構造になる予定なのかとかはさっぱり分からないのだが、多分Knights Mill同様にEICとOICが一体化したような外付けチップを搭載する格好だったのだろう。

 ただ、現実問題としてEICとOICを一体化させるのは結構困難(古いプロセスだとXeon Phiとのインターフェイスの速度が上げられなくなる)であり、これもひょっとするとKnights Hillがキャンセルになった一因ではないかという気もする(まぁ最大の問題はIntelの10nmが2016~2017年のタイムフレームではまるっきり実用にならなかったことだと思うが)。今ならKnights Hillを作るのはプロセス的な意味でも、インターフェイス的な意味でも十分可能である。つまりKnights Hillは10年早かったわけだ。

 話を今回の4Tbps OCPに戻す。こんなインターフェイスはどこまで役に立つんだ?と思われる方もいられるかもしれないが、現にIntelはGaudi 2(図9)とGaudi 3(図10)で外部接続に100GbEなり200GbEを利用している。これを今回の4Tbpsの光で置き換えることで、配線がかなり容易になるし速度も向上し、おそらく通信に要する消費電力は減るだろう。

【図9】Gaudi 2のWhite Paperより。21本の100GbEを3本ずづ7対にして、これでGaudi 2同士の相互接続を行なう格好。ほかに3本の100GbEが、外部接続用に用意される
【図10】Gaudi 3のWhite Paperより。こちらは100GbE→200GbEになったが、やっぱり3本ずつ束ねて7対として、これで8つのGaudi 3同士を相互接続する

 似たような構成は、ほかのAIプロセッサベンダーも採用しており、こうしたチップ間のポイントツーポイントの用途のニーズは大きい。Xeonに採用されるか?というと微妙な気はするが、Intel Foundryの提供するソリューションとしてはかなり有望な感じである。

 逆に言えば、1つのシリコンの中に電気と光の両方を統合するという旧来のビジョンは、現時点でもまだ時期尚早というか技術的に難しいということだ。これが可能になるかどうか?も正直怪しい。どう考えても3Dスタッキングで実装する方が柔軟性が高く、低コストで、確実性があるからだ。