ニュース

AIが「真の意味理解」をして人と対話する日は来るか

~モビルスが対話をテーマにしたシンポジウムを開催

 コンタクトセンター向けチャットシステムを展開するモビルス株式会社と、ベンチャーの支援育成やコンサルティングを行なっているクオンタムリープ株式会社は「AIとの対話」をテーマとした「Communicative AI CONFERENCE 2018」を2018年10月26日に開催した。

 モビルス株式会社は2011年創業。「コミュニケーション領域に技術を入れる」ことを狙い「コミュニケーションテックカンパニー」をうたっている。いわゆるチャットボットを中心にAIによるコミュニケーション、IoTソリューションの開発を行なっている。アドバイザーにはクオンタムリープ株式会社 代表取締役ファウンダー&CEOの出井伸之氏が加わっている。

 本記事ではモビルス社の戦略発表会と東京大学の松尾豊氏による基調講演を中心にレポートする。

クオンタムリープ株式会社 代表取締役ファウンダー&CEO 出井伸之氏
パネルディスカッションの様子

自動応答チャットボットの活躍領域はテキストから音声へ

モビルス株式会社 代表取締役社長 石井智宏氏

 シンポジウムに先立って行なわれたメディア向けの戦略発表会では、モビルス代表取締役社長の石井智宏氏は通信技術の進歩の歴史から話をはじめた。電話は発明から150年、メールは50年、チャットにも45年の歴史がある。だが各々の通信手段はそれぞれの領域内で閉じている。また電話は安定性、即時性、携帯性、利便性が高いツールとして今も活用されているが「相手と話す」以上の大幅な進化をしていない。

メール、チャットが発明されてほぼ50年が経過

 電話には規制や寡占そのほかによって競争が起きにくい構造がある。とくに大規模コールセンターを抱えている企業ユーザーには不満が高まっているという。ちょっとしたシステム変更でもベンダーへの外注が必要で、AIなどの活用が進んでいない。マルチチャネルを統合するシステム連携もできていない。モビルスは「これはチャンスだ」と捉えて、電話やスマートスピーカー、メールやチャットなどさまざまなコミュニケーションチャネルを統合しようとしているという。なおGoogleやAmazon、クラウド通信企業のTwilioはすでにこの領域に進出している。

コミュニケーション市場のニーズ
コミュニケーションインフラのIT化が進む

 モビルスではコールセンター向けにチャットボットと人を組み合わせて効率的な顧客対応を行なえるようサポートするツール「mobiAgent(モビエージェント)」を提供している。自動応答やCRMなどと、外部システムによる自動処理との連携、セグメント配信対応、チャット上の決済システムなどを組み合わせて用いることができるという。

 また、チャットボットを利用している顧客にとって大きな課題はデータ管理だという。たとえば学習によって精度を上げるにしても、そのためのデータ管理が必要になる。そこで同社では「これまではコンサルの手が必要だった部分をユーザーの手に引き戻すことができるプラットフォームツール」として「mobi Console」を提供している。

モビルスの事業領域
モビルスのサービス

 モビルスのサービスの特徴は、SNSや電話、スマートスピーカー、ロボットやIoT機器など多様な入力チャネルから入ってきた情報を決済系、業務処理などのRPAと連携し、人の手を介することなく基幹システムに打ち込むことができるところであり、これまでに27社に販売されているという。

問い合わせだけでなく決済や業務処理などを連携して可能なかぎり自動化する
モビルスのサービス導入先

 今まではテキストメッセージが主体だったが、今は音声の領域に注力しはじめており、たとえば電話を使った音声による問い合わせに対し、音声でそのまま自動応答を返すような方向のサービスを検討している。「AIと話していても、人と話しているような印象を与えるようにインターフェイスを進化させる」ことを目指しているとモビルスの石井氏は語った。さらに活用領域もコールセンターだけではなく自治体官公庁や、中小企業への導入も狙う。

今後はテキストから音声対話も自動化へ

 石井氏はモビルスが2017年11月にリリースした「アイコ」と呼ばれる音声対話エージェントとのやりとりをデモした。IBM Watsonの自然言語処理、Google の音声認識、HOYA株式会社の音声合成ソフトウェア「VoiceText(ボイステキスト)」を組み合わせたシステムで、チャットボットの対話エンジンをそのまま使い、電話から入ってきた音声をテキスト変換して解答するというものだ。

 ただし、テキストチャットでは長めに解答するところを、音声対話に合わせて短く答えるといった変換はかけているという。今後同社では音声UIに力を入れていくことで、車や家電などとの対話にも参入することを視野に入れているという。

 モビルスでは音声認識APIなどについては既存技術を使い、AIの精度を上げるための教師データの質を判別する部分などに独自技術を用いるといった戦略を使って、ソリューション化を早めつつ、差異化を狙っているという。

 まずは、コンタクトセンターに電話をかけると延々またされるようなケースを回避するために、いったん用件を受電したあとに折り返したり、あるいはテキストチャットで返したり、飲食店の予約受付や宅配便の再配達指示を受けるといったサービスを来年(2019年)3月くらいに実装するとのこと。2028年にはコミュニケーションAI市場全体のシェア1割程度を狙う。

アイコの音声自動応答デモは実際に試すことが可能
2028年のコミュニケーションAI市場のシェア1割確保を狙う

知能は認知運動系と記号処理系の2階建て。2025年頃には真の意味理解が可能なAIが登場?

東京大学大学院 工学系研究科 特任准教授 松尾豊氏

 シンポジウムでは招待講演やパネルディスカッションが行なわれたが、こちらでは東京大学大学院 工学系研究科 特任准教授の松尾豊氏による基調講演「ディープラーニングと意味理解」をレポートする。

 ディープラーニング(深層学習)の産業活用を訴えている松尾豊氏は、今では棋譜を必要としなくなった「アルファ碁」の昨今の進化をイントロとして、今後、深層学習によって、認識、運動の習熟、言葉の意味理解の順番で技術が進むと紹介した。言葉の意味理解については、まず2016年にGoogle翻訳が深層学習方式に変わったことに触れた。以前は英語と中国語は精度が低かったが、2018年3月にはMicrosoftが精度を上げることに成功したと発表した。

 深層学習とは何かというと、一言でいうと「深い関数を使った最小二乗法」だと紹介した。最小二乗法は、測定で得られたデータの組みを特定の関数を用いて近似するときの残差の二乗和を最小にする方法だ。変数を大きくしたときも基本的には同じで、画像認識も変数が非常に大きいケースだと考えることができる。

 深層学習のもう1つの特徴は「深い」こと。入力される値と関数との対応を考えるときに、いったん「中間的な関数」を定義して、それを介して、最終的な関数を定義する。それを「深い」と言っているというわけだ。

 では「深い」と何が良いのか。松尾氏は料理を例にして直感的な解説を行なった。たとえば食材を調理するにあたり、1回手間をかけるだけだと、大した料理はできない。だが何回も手間をかけていいなら多様な料理が作れる。それと似たような話で、入力と出力とのあいだのさまざまな非線形な関係をうまくモデル化できるようになったのが深層学習の本質だという。

 そして深い関数をどのように作るのかには、さまざまなノウハウがあり、モデルが異なる。ビジネスではいずれにしても、あるxとyの写像関係をどう設定するかということになる。その設定次第で解ける問題が変わる。

深層学習とは「深い関数を使った最小二乗法」
中間的な関数を介して最終的な関数を定義する
料理における加工の階層構造。簡単な手順を組み合わせることで表現力が上がる
入力xと写像する出力yの例

 松尾氏は改めて「深層学習は原理が非常に単純で、かつ汎用性が高い技術だ。数十年に1度の大きな変革をもたらす技術であり、さまざまな技術変革がこれから起こっていく」と強調した。

 深い関数を効果的に使えるのが画像認識なので、いままず大成功しているのが認識技術だが、今後はさらに認識できるようになったことで農業や建設、食品加工、組み立て加工など多くの分野に革新が起こると考えているという。

 家事労働の多くも認識を必要としており、それらも深層学習によって新しい家電が登場する。また、医療機器、製造業などでの利用は、海外から進んでいる。深層学習の応用は従来のAIの活用領域とは毛色が異なる領域にも広がりつつあり、そこに大きなビジネスチャンスがあると述べた。

既存産業の発展
機械やロボットが大きく進化する可能性がある

 では本題の「対話AI」はできるのか。松尾氏は「そんなに単純な話ではない」と述べた。人間が頭が良い理由は、人間だけが言葉を使うからだ。では言葉や数字などシンボルを操作できることが知能の根源なのか。

 AI研究ではこれまでにもシンボルの操作を重視する人たちと、体と環境との相互作用である「身体性」やパターン認識を重視する人たちとのあいだで、長らく議論が行なわれてきた。松尾氏は「人間も言葉を除くと普通の動物と同じだ」と述べ、「知能は認知運動系と記号処理系の2階建てになっている」と述べた。いまは深層学習によって認知運動系の「1階部分」ができはじめたところで、そのうえに今後、「2階部分」である記号処理、シンボル処理が進むのではないかと考えているという。

シンボルとパターン
知能は認知運動系と記号処理系の二階建て構造

 では動物には「2階部分」はないのかというとそんなことはなく、動物にも原始的なシンボル処理はあると松尾氏は考えているという。人間だけが違うのは、「2階部分」のシンボル処理部分が、「一階部分」の認知運動系を駆動するようになった、つまり世界や物事を「想像」して、それに基づいて動くようになったこと。それがヒトの生存確率を上げたので、今の文明が結果的に生まれてきたのだと語った。

人だけが言葉から想像し、認知運動系を駆動する
記号処理のベースは認知運動系にある

 言葉の意味理解、記号処理については、今までは「1階部分」がないまま「2階部分」の処理をしていたが、今回の深層学習の発展によって「1階部分」である認知運動系ができはじめたことにより、今後は、本当の意味での言葉の意味処理ができるAIが登場する可能性があるし、これまでの延長では想像しづらい未来がやってくるのではないかと述べた。これからどのくらい伸びるかはわからないが、「もしかすると5年から10年、そこまで達する可能性があるので非常に楽しみだ」と語った。

 コンピュータにとっての意味処理についても、ソシュールのシニフィエとシニフィアンの概念、「チューリングテスト」や「中国語の部屋」など、さまざまな議論があった。松尾氏は改めて、現実世界に設地している「1階部分」を駆動しない「2階部分」だけでは意味を理解することはできないが、今後、身体性に基づいた意味理解を行なうAIが登場することで、逆に、我々の言語とはこういうものだったかとわかるようになるのではないかと述べた。

真の意味で言語を理解するAIが近い将来登場する可能性がある
記号処理系と認知運動処理系のリカレントニューラルネットワークの相互作用が意味理解の正体

 最後に松尾氏は、東大・松尾研発のベンチャー企業や、日本深層学習協会をアピールした。対話AIに関しては「現状技術でもできることは多い。さらに今後は本当の意味で意味理解ができるAIができるだろうし、その上で起こるイノベーションはすごいものがあると思う」と述べて講演を締めくくった。

早ければ2025年ごろにも新しいAIが登場する
松尾研発のスタートアップ各社