ニュース
Google、クラウド上で機械学習専用ASICを使える「Cloud TPU」のベータ提供開始
2018年2月15日 15:07
米Googleは12日(米国時間)、同社のクラウドサービス「Google Cloud Platform (GCP)」上で、「Cloud TPU」のベータ提供開始を発表した。利用価格は1時間あたり6.5ドル。
Cloud TPUは、Googleが設計した機械学習用アクセラレータ「TPU (Tensor Processing Unit)」を、クラウド上で利用できるというもの(Google、180TFLOPSの第2世代機械学習チップ「TPU」参照)。
TPUは、機械学習フレームワーク「TensorFlow」でプログラミングされた機械学習ワークロードの高速化とスケールアップに最適化されている専用アクセラレータ。各Cloud TPUは、4基のカスタムASICと、64GBのHBMを1つのボードに搭載し、最大180TFLOPSの浮動小数点演算性能を謳う。
従来は数日~数週間かけて機械学習モデルをトレーニングしていたのに対し、Cloud TPUで同じモデルの複数のバリエーションを一晩でトレーニングさせておくことで、翌日にもっとも高精度にトレーニングされたモデルを運用、展開するといった、ビジネスクリティカルな機械学習モデルの運用も可能としている。
具体的には、200ドル以下のコストで、「ResNet-50」を1日以内にImageNetのベンチマークに挑める精度でトレーニングできるとする。
また、Cloud TPUなら、共有コンピューティングクラスタでジョブのスケジュールを待つ代わりに、Google Compute Engine VM経由で、ネットワークに接続されたCloud TPUへ排他的なアクセスを行なえるため、時間を節約できるという。
Googleは、TPUでのトレーニングを簡単にするため、画像分類のための「ResNet-50」、機械翻訳と言語モデリングのための「Transformer」、物体検出の「RetinaNet」といった代表的なモデルのTPUへの実装をオープンソース化し公開している。
加えて、TPUの各ボードを超高速専用ネットワークを介して接続し、PFLOPS規模の機械学習スーパーコンピュータとして利用する「TPU Pod」も、2018年後半にもGCPで利用可能となる予定。同社では、TPU Podを使えば、今まで1日かかっていたResNet-50やTransformerの学習を30分で終えられるとアピールしている。