森山和道の「ヒトと機械の境界面」

マルチモーダルの正解データと機械学習が機械との対話にイノベーションを起こす

～NICT杉浦孔明氏の講演レポートから

森山和道

2016年11月4日 06:00

　情報通信分野を専門とする公的研究機関である、国立研究開発法人情報通信研究機構(NICT)のオープンハウスが10月27日(木)〜28日(金)の日程で行なわれた。

　ここでは「言葉や能力の壁を越えるデータ指向知能〜音声対話・ロボット・環境データ予測のための基盤技術〜」と題された、NICT先進的音声翻訳研究開発推進センター先進的音声技術研究室の杉浦孔明主任研究員の講演をレポートする。杉浦氏の講演レポートを通じて、音声対話を用いたロボット・人工知能システムの現在の一端についてご紹介したい。

　杉浦氏は実世界で人と対話する自律ロボット研究の第一人者の1人である。特に音声対話と非言語コミュニケーションの両方を使って人をサポートするシステムとしてロボットを実現するために、クラウドコンピューティングの手法も使って、データ指向の知能システムを実現するために多様な研究を着実に進めている。

「ロボティクス、人工知能への投資が活発化

NICT先進的音声翻訳研究開発推進センター先進的音声技術研究室主任研究員杉浦孔明氏

　杉浦氏はまず最初に「ロボティクス、人工知能への投資が活発化している」と話を始めた。2012年にはAmazonがKiva systemsを買収した。その後、KivaはAmazon Roboticsとなっている。その後、Googleは推定1億ドルでロボットベンチャー各社を買収した。Boston Dynamicsの驚異的なヒューマノイドの発表は今でも多くの人の記憶に残っている。

　2014年には日本でもソフトバンクがPepperを発表。そして2005年のDARPAグランド・チャレンジ後に始まった各社での自動運転への取り組み、国内外でのAI研究センターの設立が今も続いている。

　なお、自動運転技術とロボティクスはほとんどイコールの技術である。2005年のDARPAグランドチャレンジで勝ったセバスチャン・スラン(Sebastian Burkhard Thrun)氏は、その後、Google Xの創設者となり、同社での自動運転車のリーダーとなったことで知られる。彼は人工知能研究者として紹介されることが多い。だが、もともとはロボティクスの研究者だ。彼らが共同執筆した「確率ロボティクス」(マイナビ)は必読の教科書の1つとされている。

　東京オリンピックが行なわれる2020年には、ロボットオリンピック改め、正式名称「World Robot Summit」が政府によって開催される予定だ。2018年にはこの予選も行なわれる。「World Robot Summit」では、サービスロボット、産業用ロボット、防災ロボットなどによるロボット競技が行なわれる予定だ。サービスロボット分野では杉浦氏らが関わってきた「ロボカップ@home」のような、日常空間でのロボットサービス競技の実施が予定されている(関連記事)。

ロボティクス、人工知能への投資は活発化

人を支援するシステムに関わる音声対話技術

日英中韓対応のクラウド型音声コミュニケーションツールキット「ROSPEEX」

ロボットの対話機能実装のハードルを下げる「ROSPEEX」

　現在、日本では少子高齢化により生産年齢人口は減少し続けている。このまま何もしないと現状レベルを維持することすら困難な時代に突入しようとしている。その中で人を支援する音声対話情報基盤を作るというのが杉浦氏らの取り組みである。例えば店舗などで、タブレットのボットや、実体を持ったロボットと、人とが対話する技術だ。あるいは空港などで多言語対応するといったケースも考えられる。あくまで人を代替するのではなく、サポートする技術だ。

　NICTでは、音声認識・合成・対話処理機能をロボットに組み込むためのクラウド音声対話基盤として「ROSPEEX」を開発、2013年9月から提供している。NICTの音声認識・合成エンジンを利用した、日・英・中・韓に対応したクラウド型音声コミュニケーションツールキットで、ロボットの世界でデファクトになりつつあるミドルウェア「ROS(Robot Operating System)」上で動作する。

　具体的には、例えばホテルなどで受付をするロボットを開発する上で、1つ1つをサービス提供業社がそのたびごとに対話システムを作るのではなく、ある程度モジュール化して、音声対話システムを簡単に作ることができる。これまでに公開から3年で、45,000を超えるユニークユーザーがいるという。

　このほか、9月には逐次音声認識を用いるアプリを開発するためのツールキット(逐次音声認識 SDK)を多言語字幕用システムとして公開している。杉浦氏はYouTubeのビデオをサーバー側に送って音声認識をして字幕を出すというデモを行なって見せた。

NICTにおける音声対話関連技術

逐次音声認識SDKを公開中

　クラウド側で音声認識させるこのような仕組みをロボットに応用すれば、音声認識と音声合成を使ったサービスロボットでのヒューマン・インタラクションシステムの構築がより容易になるのではないかというわけだ。杉浦氏は音声合成の質を上げるための取り組みの1つとして、声優っぽい喋りかたをして見せるという例を示した。

声優っぽい合成音声で喋るロボット

　このようなクラウド型APIは、グーグルその他が提供しているものなどROSPEEX以外にも存在する。だが品質や価格面の特徴のほか、ROSPEEXにはロボットでの利用を最初から想定しているため、ロボット特有のセンサーログが埋もれないとか、低スペックでも動くといったメリットがあるという。

　ROSPEEXは、マイクやスマートフォンから入ってきた音声データをローカルの「コア」で前処理して、クラウドに投げるといった手順を踏んでいる。音声合成の質は、声優による10時間分の掛け合い対話コーパスを使うことで、標準スコアであるMOS(Mean Opinion Score)で見ても非常に良い質となっている。

ほかのAPIとROSPEEXの比較

対話に適した音声合成精度を達成

学習モデルと正解データがイノベーションを起こす

データ指向知能ロボティクスの可能性

　このように音声言語処理においても、大規模な正解データと機械学習によってイノベーションが起こるのではないかと杉浦氏は述べた。画像や音声認識を使って検索するといった作業は、スマートフォンでは日常的に使われている。それにもう一度アノテーションを付けるとより良いサービスとすることができ、さらにスパイラル的改善を起こすことができるのではないかという。そのようなサイクルを回すためには「学習モデルと正解データ(正確な書き起こしなど)をどれだけ集められるかが重要」だと強調した。

　また、ロボティクスの特徴はロボットを動かすたびに膨大なセンサーデータが取れることだ。だが、そのデータを使って認識率を高めようといった試みはあまり行なわれていない。しかし、適切なデータを集めて研究を進めることで、ロボティクスの周辺問題もかなり解けるのではないかという。

介助犬レベルのロボットを目指す「ロボカップ@home」

介助犬レベルのロボットを目指す

　では、サービスロボットはどのようなレベルのものを目指しているのか。杉浦氏らが考えているのは「介助犬」だ。ちょっとしたものを取ってきてくれるようなロボットである。トヨタがパートナーロボット「HSR」の開発を通して目指しているような領域である。

　なおトヨタは2015年に「HSR開発コミュニティ」を発足させて、HSRを研究開発用のプラットフォームとして各大学に提供してアプリ開発を進めている。

　生活支援ロボットのロボコン「ロボカップ＠home」は、ロボットの言葉でいうと「移動マニピュレーション」と「ヒューマン・ロボット・インタラクション」を中心課題としたロボコンだ。技術的には、未知の環境で移動しなくてはいけないことや日用品の把持のほか、ノイズの多い環境下でも頑健に動く音声認識などが課題となる。

　ロボカップ@homeでも、来年(2017年)から新しい動きがある。トヨタHSRと、ソフトバンクのPepperが標準プラットフォームとして採択され、来年から標準機の大会が行なわれる。標準ハードウェアを使うことで、一気に開発を進めようという考えだ。

生活支援ロボコン「ロボカップ@home」の概要

標準機採用で開発速度を上げる

トヨタHSRが「ロボカップ@home」の標準機の1つになっている

対話言語理解の鍵はマルチモーダル

役に立つ対話ロボットに欠けているもの

　実際に役立つロボットの実現のためには何が欠けているのだろうか。スマートフォンでは音声認識機能は比較的普通に使われている。それは、質問応答・検索といったかたちで、用途・状況が限定されているためだ。それに対して、ロボットに対する呼びかけ・指令の場合は、状況の限定が難しい。

　「それ、取って」というやり取りは日常会話なら当たり前のやり取りだ。しかし、「それ」とか「これ」とか言われても限定が難しい。もちろん「それとは何ですか」とロボットが質問しかえすことはできる。だが、そんな面倒なやり取り自体が利便性を削いでいる。そもそも「取る」とは「片付けろ」という意味なのか、「こっちへ持ってこい」という意味なのか、文脈によって異なる。また、ロボット相手に「取れ」と命令した場合、具体的にはどんな腕の軌道を生成させればいいのかといった、さらに基本的な問題もある。

　そのための鍵が、音声だけではなく画像や動作情報などマルチモーダル(多感覚情報)な入力を使うことにある。国内外で研究が進められており、単に画像に写っているものを答えるだけでなく、画像表現から言語表現を生成したりすることができるようになっている。

　杉浦氏らはコミュニケーション学習基盤として「LCore」という仕組みを提案している。マルチモーダル入力に対して回帰手法の一種を用いることで、ユーザーからの質問にある曖昧さを学習する。例えば、「捨てる」といいながら空き缶をゴミ箱に捨てる動作をロボットに見せる。ロボットは空き缶とゴミ箱が「捨てる」という音声と関連することを自動で推定する。その結果、「ペットボトルを捨てろ」と言われても、ペットボトルをゴミ箱に投じることができるようになるといったものだ。

マルチモーダル言語理解における国内外の研究動向

マルチモーダルなコミュニケーション学習基盤「LCore」

ロボットに言葉を教える

　音声は時系列の信号である。その予測ができるということは、ほかの時系列信号を予測する技術としても使えるということだ。杉浦氏は機械学習技術の応用例として、ディープラーニングを使ったPM2.5による大気汚染の予測、太陽フレアの予測例を示した。いずれも既存の手法を超える予測精度が出たという。

PM2.5による大気汚染の予測例

太陽フレアの予測例