ニュース

Google鼻歌検索が高精度な理由。音源を逆に鼻歌化して抽出・照合

Google Hum to Search(Google鼻歌検索)

 グーグル合同会社は12日、10月に発表された楽曲を鼻歌で検索できる「Google Hum to Search(Google鼻歌検索)」の技術に関するオンライン説明会を実施した。

 Google鼻歌検索は、モバイルデバイス向けに提供されているGoogleアシスタントや検索ウィジェットから利用可能なクラウド機能で、「この曲は何?」などと話しかけた後に、曲のメロディーを鼻歌や口笛で検索できる。

Google シニア プロダクトマネージャーのクリシュナ・クマール(Krishna Kumar)氏

 説明会に登壇したGoogle シニア プロダクトマネージャーのクリシュナ・クマール(Krishna Kumar)氏によれば、音楽検索のうちの50%は、どこかで聞いたことがあるが思い出せない曲という研究結果が出ており、そこで鼻歌検索が開発されたと、その開発経緯を説明。

 Google鼻歌検索は、鼻歌検索のために一から開発された技術とのことで、たとえば既存のサウンド検索やNow Playing(この曲なに?)を使って鼻歌検索をやろうとしても、実際の人物の顔認証を絵に描かれた人物で行なうくらい困難であるという。

 それでは実際に鼻歌検索をかけた場合にどういった処理が行なわれているのか? 処理はすべてクラウド上で行なわれているが、まずマシンラーニングモデルが鼻歌のメロディーの周波数成分を数列に変換し、伴奏/音調/声質といったメロディーに関わらない部分を削ぎ落として、メロディーを抽出する。

鼻歌検索ではマシンラーニングを活用

 Googleはライセンスされた楽曲のデータベースを持っており、これの数列化されたものと照合を行なうことで合致すると思われる曲をユーザーに提示するという流れだ。アルゴリズム的には似ている数列を振るいにかけて検索を行なっている。

 クマール氏は現在では一定の成果が出ているが、それは相当な学習の上で確立したものであるという。これまで歌詞が含まれる歌声の認識はできていたものの、それがない鼻歌となると難易度が高いためだ。

鼻歌の周波数成分を視覚化したもの。一番左が鼻歌で、一番右が合致する曲。真ん中の曲は多少鼻歌に似ているが別の曲だ
鼻歌検索のマシンラーニングの手法

 クマール氏は、鼻歌のサンプル音源をドネーションサービスなどのさまざまなリソースから取得するとともに、楽曲もニューラルネットワークに何千何百万と学習をさせることで精度を上げていったと説明。楽曲のほうに関してはメロディーを抽出するという逆に鼻歌化するリバースエンジニアリングによって、サンプルデータを揃えていき、上述のとおりそのさいには楽器音などが取り除かれている。

楽曲から鼻歌の音源を生成することで鼻歌検索を可能にしている

 鼻歌検索はメロディーに注目して照合を行なうため、歌詞がない曲やちょっと早めて鼻歌を歌ったとしても高い精度で検索が可能。外での検索でノイズが乗ってしまうという場合でも、ノイズを消す処理によってある程度は許容可能とする。現状では10秒ほど歌わないと検索できないが、さらに短くする方法も模索中という。

 技術的にメロディーを抽出するため、言語依存はないのだが、鼻歌検索の楽曲のデータベースはそれぞれ各国に向けて用意する必要があり、現状では言語での縛りが出てしまっている状況だ。ただ、これについても順次拡張を行なう予定としている。