やじうまPC Watch

会話の抑揚と生体情報から感情を推定する技術をMITが開発

〜アスペルガー症候群患者のトレーニング向け

 マサチューセッツ工科大学のコンピュータサイエンス研究所CSAILは1日(米国時間)、ウェアラブル端末経由で得た脈拍などの生体情報と音声認識によって取得した抑揚などのデータを処理し、会話中の装着者の感情を推定する技術の開発を発表した。

 この技術は、アスペルガー症候群などで話者の感情を把握することが難しい患者に対するトレーニングデバイスとしての応用が考えられている。会話全体の雰囲気の判定は83%の正確さを誇っており、研究者らは今後のさらなる技術の発展を目指している。

 発表論文によれば、用いられるデバイスはスマートウォッチ「Samsung Simband」で、心電計、血流計、加速度計、インピーダンス計、体温計を始めとした生体情報を収集するための多数のセンサーを備え、合計91種類ものデータストリームを得られる。

 それらの情報に加え、音声認識技術で処理したデータと総合して会話中の話者の感情について、会話全体が幸せな内容か悲しい内容か、あるいは会話中に5秒間隔でポジティブかネガティブかニュートラルな感情を持っているかを推定できるとされている。

 この研究では、装着者の感情を推定するためにニューラルネットワークが用いられているが、その判断材料として音声と生体情報の大きく分けて2つのデータを用いている。そのため、音声認識技術を用い、頻出する語といったものから、語気の強さや抑揚を含めた言外の情報も収集する。

 そうして収集したデータは、センサーから収集された生体情報を加えた変数増加法による統計解析を受け、どの情報がその時の感情を表しているか判定する"ふるい"にかけられる。

 これらの選ばれたデータがニューラルネットワークによって用いられるが、このニューラルネットワークは研究の過程で、レイヤ数0と2の隠れマルコフモデルを用いることやネットワーク中のランダム項を挿入する位置などを調整することで最適化を受けている。このことにより、より感情に対し説明力のあるモデルの構築ができたとされている。

 現時点でバイタルの情報や音声の情報は5秒に1回計算される統計量であるため、研究者らはよりリアルタイム性の高い感情の認識技術の開発を目指すと共に、このアルゴリズムをより奥行きのあるものにし、退屈や緊張、興奮といった感情を検出することを次の目標としている。