|
NEC、人間の“話し言葉”をテキスト変換する音声認識ソフト
|
VisualVoiceで音声を認識しているところ。左のウインドウは全文、右のウインドウはキーワードを自動的に抜き出したもの |
6月27日発表
NECは、人間の会話音声を認識してテキスト変換する企業向けソフトウェア「VisualVoice」を発表した。9月より発売され、価格は400万円~。コンタクトセンターのオペレーター業務などに導入し、業務の改善を狙うもの。
従来の単語や定型文を認識させる方式と異なり、人間の自然な会話をそのままテキスト化することが可能。エンロール(事前登録)なしでも認識率は70~80%とし、会話音声の認識率では業界最高レベルという。また、発音の特徴を学習していくことで、さらに5~10%の精度向上も期待できる。
ツリー構造音響モデルの概念図 |
認識技術には、「木構造音響モデル」を採用。「あ」という発音1つに対して、さまざまな発音の“あ”を認識可能にすることで、多様な音声の認識を高精度で実現するという。また、同じ文字の発音を、ツリー階層状にモデル構築しているため、CPUやメモリなどのリソースに余裕がある場合には、音響モデルの多い深い階層の発音を、リソースに余裕がない場合は音響モデルの少ない、浅い階層の発音を利用するなど、PC環境に合わせた柔軟性のある音響モデルを作成できる。
また、話者の発音サンプルが少ない場合には、大まかに、多い場合には詳細な解析を行ない適応させる、「自律型話者適応方式」も採用する。
【動画】オペレーターの話言葉をリアルタイムでテキスト化する様子 | 特定のキーワードをスーパーバイザーに通知する機能も搭載 | 録音されたものはデータベース化される |
音声がテキスト化されることで、従来オペレーターが手作業で行なっていたメモなどが自動化が可能になるほか、会話を記録しながら同時に特定のキーワードを抜き出し、リスト化する機能も搭載。キーワードからFAQを検索するようなケースにも柔軟に対応できる。
ただし、現時点では、オペレーターの音声のみの認識で、顧客側の音声は認識されない。オペレーター側では、マイクの利用や音声情報の蓄積など、いわば理想的な利用状況であるのに対して、顧客側からの音声はさまざまな状況が想定されるため、現状では対応が難しく、2006年頃をメドに実現させていくという。
また、オペレーターの統括業務を行なう、スーパーバイザー向けの機能も搭載。従来、複数のオペレーターの対応状況を確認するには、個々のオペレーターの状況をモニタする必要があったが、VisualVoiceでは、オペレーターが発声した特定のキーワードのみをリアルタイムに通知する機能を搭載。トラブルや、緊急対策が必要な案件でも、即座に対応ができ、オペレーターの育成業務にも有効とした。
なお、会場で行なわれたデモでは、CPUにPentium 4 3GHz、メモリ1GBを搭載したPCを使用していたが、実際の用途では、音響モデルなどのデータをサーバー側に蓄積させることで、クライアント側のスペックはさらに軽減が可能になるという。
NEC市場開発推進本部 本部長の塩川正二氏 |
VisualVoiceは、既に同社のコンタクトセンターである、NECフィールディングの東日本カスタマサポートセンターで実証試験を行なっており、キーボード入力に比べて1.8倍、手書きと比べて3倍の効果があったという。
発表会で説明にあたった、NEC市場開発推進本部 本部長の塩川正二氏は、「2000年前後にコールセンターブームがあり、大手企業を中心に強化された。現在、これらのシステムのIP化が急速に進み、効率化が求められているが、コールセンターの7割は人件費。ここにメスを入れ、人件費を抑えながらサービスを低下させずに効率化をはかるという、相反する条件を実現するもの」、「単に音声の記録だけではなく、業務に取り入れることが重要」などと語った。
□NECのホームページ
http://www.nec.co.jp/
□ニュースリリース
http://www.nec.co.jp/press/ja/0506/2701.html
(2005年6月27日)
[Reported by kiyomiya@impress.co.jp]