ニュース
Google、動画と音声両方で環境音を低減する技術をiOS版YouTube Storiesに導入
2020年10月2日 17:38
Googleは10月1日(現地時間)、動画と音声の両方を活用し、機械学習により環境音を低減、話者の話声を強調する「Looking to Listen」技術を、iOS版のYouTube Storiesに実装したと発表した。
これは、動画に映っている話者の顔の画像と音声の両方を利用し、機械学習により周囲の不要な環境音を低減するもの。同社は同技術を論文として発表したさいに、デスクトップ環境においてリアルタイムの10倍の時間を要していたが、今回の実用化のさいには、リアルタイムの半分にまで短縮を実現した。
具体的には、まず動画からスピーカーの顔を含むサムネイル画像を分離することだが、MediaPipe BlazeFaceおよびGPUによる高速推論を活用することで、わずか数ミリ秒で処理を実行させた。つぎに、サムネイルを個別に処理するモデル部を軽量化したMobileNet(v2)アーキテクチャに切り替え、顔から抽出した音声強調のために学習した視覚特徴を、1フレームあたり10msで出力。これにより、メモリフットプリントの削減を実現した。
さらに、2次元畳み込みを、より少ないフィルタで分離可能なものに置き換えて、視聴覚モデルのパラメータ総数を削減、TensorFlow Liteを用いてさらなるモデル最適化を測った。最後に、Learn2Compressフレームワーク内でモデルを再実装し、ビルトインの量子化学習とQRNNサポートを活用した。
これらによりモデルサイズを120MBから6MBに縮小した。YouTube Storiesの動画は15秒程度なので、録画終了後、数秒で処理結果が得られるようになったとしている。