ニュース

NEC、なんでも5秒話せば声認証できる技術

宇都宮充

2019年2月19日 13:58

特徴抽出ロジックを組み込んだ声認証の概念図

　NECは、深層学習を使用して声認証の速度と精度を向上させ、5秒の発話で約95%の精度の認証が可能になったと発表した。

　東京工業大学情報理工学院篠田浩一教授と共同で研究開発が行なわれている技術で、特定のフレーズに依存せず自然会話によって認証する「テキスト独立方式」の声認証。深層学習と学習データの拡張により、認証に必要な発話時間が従来の半分となる5秒に短縮され、人でも聞き分けることが難しい環境下でも約95%の認識率を実現したという。

　今回開発された手法は、音声全体を検索し特徴量を抽出する「特徴抽出ネットワーク」と、話し方やイントネーションなどといった特有の音声パターンを抽出し重みづけする「注意ネットワーク」の2つから構成される「特徴抽出ロジック」を用いて認証を行なうもの。特徴抽出ロジックは、多重構造のニューラルネットワークに数千人規模の音声サンプルを与えて学習させることで形成され、情報量の少ない短時間の音声データからでも効率的な特徴抽出を可能にする。

　また、音声データにノイズや改変を加えることで別のデータを作り上げる独自の「データ拡張技術」を活用し、学習データを拡張。背景ノイズが目立つ音声や、複数の声が混じる音声、声を改変して別の人物をシミュレートした音声などを生成できるもので、より多くのサンプルデータを集めることが可能。話者数としては約5倍、学習データ量としては約20倍にまでデータを拡張し、学習の強化と誤認識率の低減を図っている。

　2020年の実用化を目指しており、コールセンターなどでの本人確認手続きの効率化や、ほかの生体認証との併用によるEコマースなどでの決済手続きの利便性向上、音声鑑定といった犯罪捜査支援などへの応用を見込んでいるという。