ニュース

中国、1チップで1PFLOPS超えを達成したGPGPU

BR100

 中国Biren Technologyは9日(現地時間)、同社初となるGPGPU「BR100」を発表した。中国企業で製造されるGPUとしては初めて“ペタ”級の演算能力を持ち、世界最速の記録を更新したという。

 BR100は7nmプロセスで製造され、2.5D CoWoSパッケージング技術を採用。チップレット構成となっており、半導体製造過程のフォトマスクのサイズの上限問題を回避しつつ、個々の演算コアの面積を縮小し、歩留まりと生産性を向上させ、シリコン製造コストの削減、ならびにスケーラビリティを兼ね備えたとしている。

 64GBのHBM2Eメモリを備え、バス幅は4,096bit、帯域は1.64TB/s。64wayのHEVC/H.264エンコーダ、512wayのHEVC/H.264デコーダを内蔵する点などが特徴。

 同社が公開したBR100のベンチマーク数値は、FP32の演算性能は256TFLOPS、TF32+の演算性能は512TFLOPS、BF16の演算性能は1.024PFLOPS、INT8の演算性能は2.048POPSとなっている。

BR100
BR100のベンチマーク

 チップレットのメリットを活かし、BR100の半分の規模を持つ「BR104」も同時にリリース。性能はBR100の約半分となっている。「1回のテープアウトで2種類のチップが得られたことで、製品展開の速度を高め、需要の異なる市場をカバーできる」と創始者兼CTOの洪洲氏は述べている。

 このほか、BR104は32GB/2,048bit/819GB/sのHBM2Eメモリを備えている点や、150MB超のキャッシュを内蔵している点などが明らかとなっている。

下位モデルのBR104

 ソフトウェアプラットフォームは「BIRENSUPA」となっており、主要なディープラーニングフレームワークと互換性を維持している。

 BR100搭載製品は浪潮信息よりサーバーとしてリリースされ、ブランド名に「海玄(Hearten)」を冠する。搭載モジュール「壁砺100」という名前で、インターフェイスはPCI Express 5.0 x16、CXLをサポート。消費電力は550Wとなっている。「0AM」ではこれを8個搭載することで、8PFLOPSの浮動小数点演算性能を達成。なお、既に内部テストを開始しており、2022年第4四半期にオープンベータテストを開始する。

海玄(Hearten) 0AM
0AMに搭載される壁砺100

 一方、BR104を搭載したものとしてPCI Expressカードの「壁砺104」を投入。消費電力を300Wに抑えるほか、集積率を高めることでコンパクト化し、2~4Uサーバーに好適としている。こちらは既にオープンベータテストを実施しており、まもなく量産を開始する。

PCI Expressカード型の壁砺104

 Biren Technologyは2019年に創設された新興GPGPUメーカーで、AIやレンダリング向けソリューションを提供している。