ニュース

富士通、プレゼンの音声を資料にリアルタイムでハイライトする技術

（2015/4/1 00:00）

　富士通研究所は1日、プレゼンテーションや遠隔会議で使用する資料において、説明者の音声に該当する場所をリアルタイムにハイライトする技術を開発したと発表した。現時点では、PowerPointに対応しているが、今後、PDFやExcelなどにも対応していく予定で、2015年度後半の実用化を見込んでいる。

富士通研究所メディア処理研究所・村瀬健太郎主任研究員

　富士通研究所メディア処理研究所・村瀬健太郎主任研究員は、「会議の参加者に対して、説明内容に応じた適切な情報を提示することは大切であり、この技術を使うことで会議における理解の促進と、効率化を高めることができる」とする。

　プレゼンテーション資料で説明内容をハイライトする場合には、決められたストーリーに則って、表示方法に工夫を凝らすのが一般的だが、この技術を活用することで、音声を認識して、リアルタイムにハイライトする場所を変更。プレゼンテーターが話す順番を変えたら、ハイライトする順番も変わり、不要な部分を飛ばすと必要な部分だけがハイライトされるといった使い方が可能になる。

PowerPointにアドインソフトとして提供される。「発話強調」という項目が追加され、音声認識辞書が自動生成される

音声認識辞書では、資料からキーワードを抽出。3拍以上の単語から認識する

ハイライトの表示方法は選択できる。より強調したハイライトの仕方も可能

【動画】音声によって、プレゼンテーション資料をハイライトする様子

　これまでの手法では、説明する音声を認識しても、資料に出現する言葉の頻度を理解して、説明箇所を推定するのがせいぜいで、そのため、話し終わりの時点で情報を確定し、ハイライト表示する形になっていた。「話し終わりの時点でハイライト表示しても、プレゼンテーターは、次の話に入っており、話を聞いている人にとっては、かえって理解がしにくい状況が生まれていた。説明に同期したハイライト表示を行なうには、話し始めから2秒程度で行なうことが望ましいことが調査から分かった。そのため、話し始めの部分で得られる数単語から、説明内容を推定することが必要であり、そこに今回の技術の肝がある」(村瀬主任研究員)という。

　富士通研究所では、少ない言葉でも誤認識を抑制し、説明箇所を高精度で推定できるようにする音声認識辞書の自動生成技術を開発。認識単語の誤り率を約60%削減することに成功したという。

　ここでは、語調が3拍(3モーラ)以下の短い単語は誤認識が生じやすい点に着目。短い単語は、周囲の隣接する単語と結合させ、それを1つの単語として認識するようにした。例えば、「多彩な声やトーン」と話す場合、「声(こえ)」という2拍の単語は、「聞『こえ』にくい」という言葉にも反応して、誤認識する可能性が高い。そこで、「こえ」だけで音声認識辞書を自動生成するのではなく、「声やトーン」という長い拍数の言葉として認識して登録する形にした。

　「3拍の単語を周辺の隣接する単語と結合させれば、誤認識率はさらに減少するが、逆に認識できない言葉の数が増加する。プレゼンテーション資料のサンプル調査によると、2拍の言葉が全体の約20%を占め、3拍の言葉が約27%を占めた。3拍以下までの言葉を、隣接する単語と結合させる仕組みにすると、半分近くの単語がそのまま認識できない結果になる。そのため、3拍は1つの単語として認識できるようにした」(富士通研究所メディア処理研究所・田中正清氏)という。

富士通研究所メディア処理研究所・田中正清氏

　もう1つの技術は、説明箇所の範囲を絞り込むとともに、言葉の頻度を考慮し、説明箇所を高精度に推定するものだ。これは、音声による説明の順序と、資料のレイアウトの段落構造や、資料中の説明記載位置などの文章構成情報との関係を統計的に算出。資料内のレイアウトで、一定距離まで説明箇所が離れると、説明が遷移する頻度が急激に低下することに着目し、次の説明箇所を絞り込むという。同じ言葉が資料上にあっても、離れたところの言葉はハイライトしない。

　また、この仕組みを利用することで、説明している言葉から、次の言葉が資料上、離れた場所にあった場合には、すぐにハイライト表示することなく、その箇所に表示されている別の言葉が出てくるのを待って表示するという。これも精度を高めることに繋がっている。

　これらの技術を活用することにより、説明箇所を推定する精度は、従来方式では70%だったものが、97%にまで大幅な向上を実現したという。さらに、ハイライトの表示方法も、円形や四角、グラデーションや網かけ、色の変更などが自由に行なえ、プレゼンテーション内容に合わせた強調が可能になる。

　富士通研究所では、同技術を活用した自動強調表示によるプレゼンテーションと、レーザーポインターを活用した説明箇所の提示を比較。「レーザーポインターを使用した場合に比べて、説明箇所の分かりやすさが30%向上。表示のわずらわしさは50%削減。さらに、評価者全体の8割が、この技術を活用した説明表示が望ましいと回答した」(村瀬主任研究員)という。

　富士通研究所では、今後、精度向上などに取り組むほか、遠隔会議システムなどに同技術を盛り込むといった取り組みも開始するという。「将来的には、既に開発している視線抽出技術により、プレゼンテーターが見ている箇所をハイライトすることで、より分かりやすく表示したり、翻訳技術との併用で、ハイライトした説明箇所をリアルタイムに翻訳。遠隔コミュニケーション支援システムに活用するといったことも想定している。また、店舗窓口では、会話内容を捉えて、重要事項の説明を確実に行なえるように支援。プレゼンテーションの際に、説明に合わせて補足情報が表示される仕組みを用意するといった活用も可能になるだろう。異なる技術との連携によって、活用範囲が広がるものと予想している」(村瀬主任研究員)とした。

　また、コールセンターにおけるFAQ関連情報の提供によるオペレーターの作業支援、窓口業務支援、教育支援などへの応用により、業務効率化にも繋げる考えだ。「業務時間の中で高い比率を占める会議時間を効率化することは大きな課題であり、電子会議システムによる移動コストの削減、タブレットやプロジェクターを利用したペーパーレス化によるコスト削減、音声認識を活用した議事録の書き起こしシステムによる事後活用の効率化などへの取り組みがあるが、この技術を活用することで、会議そのものの効率化を図ることができる」(村瀬主任研究員)としている。

共有資料を用いたコミュニケーション支援システムの適用例

音声認識辞書の自動生成の事例。2拍のものは語長を長くして登録する

レイアウトをもとに、説明順序の特徴と言葉の頻度を用いた説明箇所の特定

遠隔会議における説明箇所の自動ポインティングの事例

（大河原克行）