いま、ここにあるエッジAI

在宅ワークにもはや必須? 高度な背景削除ができる「XSplit VCam」

XSplit VCam

 「XSplit VCam」はSplitmediaLabsが開発した、カメラ映像の背景を削除したり、別の背景に合成できるツールだ。

 XSplitブランドの製品は、「XSplit Broadcaster」(当初は単にXsplitと呼ばれていた)という動画配信ツールが最初に開発され、その後「XSplit Gamecaster」、「XSplit VCam」、「XSplit Express Video Editor」などの複数製品に派生していった歴史を持っている。ちなみにXSplit Broadcasterはゲーム配信の定番ツールの1つとなっている。

ビデオ会議ソフトより高度な背景合成が可能になるXSplit VCam

 XSplit VCamの機能は非常にシンプルで、ユーザー自身などが映っている動画からリアルタイムに人物を切り出して、別の背景(静止画ないしは動画)に合成するものだ。ビデオ会議ソフトウェアから、XSplit VCamはカメラの1つとして認識され、物理的なカメラデバイス(Webカメラなど)に代わって、配信ソフトやビデオ会議ソフトウェアなどに映し出す。

 こうした背景合成機能は、最近ではMicrosoft TeamsやZoom、Cisco Webexといった定番のビデオ会議ツールにも標準で搭載されるようになっているが、それらは、背景をぼかしたり、背景を別の静止画か動画に差し替える程度までしかできない。

 それに対して、Xsplit VCamでは背景ぼかし、単色の背景、静止画、動画、YouTubeの動画、Webページ、さらにはXsplit VCamが標準で用意している写真素材集(100万種類以上)のなかから選ぶことができる。たとえば、Webページを指定すると、PC WatchのWebサイトを背景にしてビデオ会議などもできる。

XSplit VCamの背景合成の例

 Xsplit VCamのもう1つの特徴は、人物の切り抜きがより高度に行なえることだ。こうした切り抜きは、リアルな背景をグリーンの幕などコンピュータが認識しやすいようにしないと綺麗に行なうのが難しい。だが、XSplit VCamでは、切り抜きにマシンラーニングベースのAIが利用されており、人間が手動で動画フレームを1枚1枚処理したかのような品質で切り抜けるようになっている。

XSplit VCamの背景合成を行なったところ。女性の髪などはこうした人物切り抜きで最も大変なところだが、きちんと切り出せていることがわかる

 もちろん、XSplit VCamは、ZoomやTeamsなどと組み合わせても利用できる。

XSplit VCamはTeamsやZoomなどでも利用できる

 XSplit VCamは、XSplitのWebサイトからダウンロード可能。インストール後にXSplitアカウントなどを入れる画面が出るが、「Skip Login」を選ぶとXSplitのアカウントがなくても利用できる。

 ただし、その状態ではXSplit VCamの透かしが入る。透かしの除去には有償ライセンスが必要。ライセンス価格は、1カ月が5.95ドル、3カ月が9.95ドル、12カ月が24.95ドル、永続ライセンスが49.95ドルとなっている。

独自のAI SDKを利用してAIによる背景分離を実現、OpenVINOを利用してIntel CPU/GPUへの最適化を実現

 昨今のビデオ会議で求められるのは、処理をできるだけ短い遅延で行なうことだ。遅延があまりに大きいと、ビデオ会議が不自然になる。そうしたことを防ぐためには、できるだけCPU負荷を下げつつ、切り抜きや合成処理を行なう必要がある。

 SplitmediaLabsによれば、XSplit VCamではそうしたCPUのオフロードにはおもにGPUが利用されている。XSplit VCamではGPUが2つまで指定できるようになっており、GPUが2つある場合は、その両方を利用して演算できるようになっている。OpenCLが利用されており、GPUはIntel/AMDの内蔵GPU、AMD/NVIDIAの単体GPUと、どのGPUでも有効にすることが可能だ。

設定メニューではアクセラレーションに利用するGPUを指定することができる。

 AIの演算は、SplitmediaLabsが独自に開発したAI SDKが利用されている。SplitmediaLabsのAI SDKはおもに2つ用意されており、1つは背景セグメンテーションで、もう1つがヘッドトラッキングだ。

 背景セグメンテーションは人物と背景の分離を行なう処理。人物分離をするうえで、とくに難しいのが髪の毛の判定。XSplit VCamでは、AIを利用した背景セグメンテーションにより、プロが行なう領域指定を学習し、高度なノウハウをもったAIがそれを瞬時に行なう。動画の場合は1秒間に30フレーム程度あるので、その負荷が高くなるのは容易に想像できるだろう。

 ヘッドトラッキングは、XSplitのメインアプリケーションでもあるXSplit Broadcasterや、今後リリースされる予定のXSplit Presenterなどで利用されている。動く頭部を認識して、顔を中心に映像を自動でパンすることが可能になっている。

 なお、SplitmediaLabsはこのAI SDKをサードパーティに対して提供しており、ロジクール(日本でのブランド、海外ではLogitech)のWebカメラ用ソフトウェア「Logicool Capture」の同様の機能にはSplitmediaLabsのAI SDKが利用されている。

 このAI SDKのIntel CPU/GPUへの最適化には、Intelが提供しているOpenVINOツールキットが利用されている。XSplit VCamの背景セグメンテーションには、OpenVINOに含まれるMKL-DNN(Math Kernel Library for Deep Neural Networks)が利用されており、Intel GPUとIntel DL Boostに対応したCPU(第10世代Core=Ice Lake、第11世代Core=Tiger Lake)でアクセラレーションが効くようになっている。DL Boostに対応していないCPUとGPUの組み合わせの場合には、自社のAI SDKに含まれるOpenCLを利用しての最適化が利用される。

 こうした最適化を行なうことで、XSplit VCamは低いCPU負荷で、AIを利用した高度な切り抜きが可能になっている。ビデオ会議ソフトの背景合成機能には満足できないというユーザーであれば、試してみる価値はあるのではないだろうか。

[制作協力:インテル]