ニュース

7nmプロセスで約600億トランジスタのAIプロセッサ

IPU-Machine M2000に搭載されている新プロセッサColossus Mk2 GC200 IPU

 Graphcoreは、AI向けのIPU(Intelligence Processing Unit)プラットフォーム「IPU-Machine M2000」を発表した。予約受け付けはすでに開始しており、2020年第4四半期から本格的な生産を開始する。

 IPU-Machine M2000は、第2世代にあたる1Uラック型の製品で、同社の開発した新たなプロセッサ「Colossus Mk2 GC200 IPU」を4基内蔵する。1PFLOPSの演算性能を発揮し、第1世代と比べて8倍の性能向上を謳う。

IPU-Machine M2000

 Colossus Mk2 GC200 IPUは、TSMCの7nmプロセスで製造され、823平方mmのダイに594億個以上のトランジスタを搭載。1,472個のIPUコアを内包し、8,832個の並列計算スレッドを実行可能となっており、前世代のMk1 IPU製品で使用しているモデルやシステムは、引き続き動作するという。

 Mk2 GC200 IPUでは、プロセッサ内メモリとして従来の3倍となる900MBの超高速SRAMを各コアのそばに配置。大規模モデルなどをプロセッサ内に保持できる構造とした。独自開発の浮動小数点演算AI-Floatにより性能向上が図られるほか、FP16.32およびFP16.16に加え、ハードウェアレベルでStochastic Roundingをサポート。演算などに必要なエネルギーを削減しながら最高精度の結果を出力できるという。

 また、同社のソフトウェアPoplarにより、独自のExchange-Memoryを通じたStreaming Memoryへのアクセスが可能で、1,000億個のパラメータを持つような大きなモデルにも対応。各IPU-Machine M2000は帯域幅180TB/sと容量450GBまでのExchange-Memoryをサポートし、現行の7nm GPUと比べて10倍以上の容量と100倍以上の帯域を実現できるとしている。

 そのほか、新開発のGC4000 IPU-Gatewayチップにより、IPU-Machine M2000に対して2.8Tbpsの広帯域かつ低遅延な通信を提供。IPU-POD64ラックシステムを利用し16台をまとめた大規模システムも構築でき、導線や光OSFPコネクタを通じてIPU-Machine M2000間を接続し拡張性を実現するIPU-Fabricテクノロジーにも対応する。

GC4000 IPU-GatewayおよびIPU-Fabricテクノロジー