ニュース

Meta、写真内のあらゆるものをきれいに切り出せる技術

Segment Anythingのデモ

 Metaは5日(米国時間)、画像の中のオブジェクトを識別するイメージセグメンテーションを行なうAIモデル「Segment Anything Model(SAM)」、および大規模データセット「Segment Anything 1-Billion mask dataset(SA-1B)」を公開した。SAMはApache License 2.0の下で、SA-1Bは研究目的でそれぞれ利用できるほか、Webブラウザ上で実際にデモできるページも用意している。

 SAMは、オブジェクトとは何かという一般的な概念を学習させ、さまざまな画像/動画の中のあらゆるオブジェクトに対してマスクを生成できるAIモデル。デモでは、基本的に写真内のオブジェクトのどこかをクリックするだけで、きれいに切り出せる。10億枚以上の高品質なデータセットを使って学習したことで、幅広いユースケースに対応できる汎用性の高さも特徴で、水中写真や細胞顕微鏡など、未知の領域の画像に対しても追加の学習なしですぐに適用できるという。

 これまで、反復してマスクを改良していく際に人が介入する対話型セグメンテーションと、アノテーション付きのオブジェクトを大量に使用して学習する自動セグメンテーションの2種類のアプローチがあった。一方SAMでは、単一のモデルでそのどちらも行なえるため、さまざまなセグメンテーション作業を簡単に、柔軟な方法で実現できるという。

 SA-1Bは、権利問題がクリアでプライバシーが保護された約1,100万枚の画像をもとに作成されたデータセット。画像は写真を提供する会社を通じ、地理的/所得水準的な多様さを考慮しつつ複数の国から集めたものだという。既存のセグメンテーションデータセットの400倍となる11億以上の高品質かつ多様なマスクを含むという。

 SAMおよびSA-1Bは、セグメンテーションの民主化を目指すとして同社が取り組んでいるSegment Anything Projectによる成果で、ユーザーの視線に応じてオブジェクトを選択して操作する、コラージュや動画編集時に画像を抽出する、研究において動物や物体を認識し映像内で追跡するなど、幅広い分野/用途での活用や、コンピュータビジョンのさらなる研究促進も見込む。