ニュース

Google、動画で群衆の騒音のなかから1人の音声を分離する技術

サンプル動画。スライダーが中心の「ALL」にあるのが元の状態。「RORY」や「JOHN」にスライドさせると、ほとんどその人物だけの音声になる

 米Googleは11日(現地時間)、騒音のある中で複数人が会話をしているような動画のなかから、特定の人の音声だけを分離する技術を開発したと発表した。

 この技術の根底にあるのは機械学習で、GooleではYouTubeに上がっている10万本の高画質動画を選出。この動画のなかから、BGMや騒音などがなく、話者の顔が映りながら話しているシーンを2,000時間分抽出した。続いて、これらの動画の音声を意図的にミックスし、騒音の中で誰かが話している状況を仮想的に作り出した。

 このデータを用い、たたみ込みニューラルネットワークベースのモデルを訓練させたうえで、今度は機械にふたたび、話者ごとの音声を分離させるようにすることで、騒音のある元の動画からも、特定の人の声だけを抽出できるようにした。

 この技術では、映像情報も重要で、機械は映像のなかで話者の口が動いていることを認識することで、音声抽出の精度を上げている。

 この技術を用いることで、話者の顔が映っている動画であれば、任意の人物を選ぶことで、他の人の音声や騒音をすべてカットし、その人物だけの音声をクリアに聞くことができる。

 また、この技術によってYouTube動画の自動字幕機能の精度が上がるほか、さまざまな応用が考えられる。