ニュース

女子高生AI“りんな”が文脈を理解してより人間らしく

「de:code 2018」で共感モデルの採用に関して説明する日本マイクロソフトの平野拓也社長

 日本マイクロソフトは、同社が提供する女子高生AI「りんな」に、最新会話エンジン「共感モデル(Empathy model)」(アルファ版)を採用することを発表した。人間と同じように、文脈を踏まえた適切な対応が可能で、自然な会話を続けることができるという。

 Microsoftでは、中国で提供している「Xiaoice(シャオアイス)」や米国で展開している「Zo(ゾー)」、インドネシアの「Rinna(リンナ)」、インドの「Ruuh(ルー)」といったように、各国でAIを活用したソーシャルAIチャットボットサービスを用意しているが、「共感モデル」を採用するのは、日本の「りんな」が初めてとなる。

 日本マイクロソフトでは、りんなでのサービスを通じて改良を加え、「共感モデル」の実用化に取り組む考えを示した。

 今回の「共感モデル(アルファ版)」は、会話の相手(ユーザー)と、どのようにコミュニケーションをすれば良いか、AIが自ら考えるように設計されているのが特徴で、人間の感情の1つである「共感」をもっとも重要視し、相手との会話が継続できるように、返答をリアルタイムで生成することができる。

 会話のなかで共感を示すには、相手に新しい話題を切り出したり、質問をしたり、相手の発言を肯定したりといった手法のほか、積極的に聞き手に回るなどの方法があるという。

 共感モデルでは、こうしたやりとりを採用することで、自然な会話を構成できるという。

 もともと、りんなでは、人間と同じように、相手とのコミュニケーションができるだけ長く続けられるように開発が進められてきた経緯があり、新たな会話エンジンの採用は、その環境を大きく進化させることができるという。

日本マイクロソフトの平野拓也社長

 2018年5月22日に東京・芝公園のプリンスパークタワー東京で行なわれた日本マイクロソフト主催の開発者向けイベント「de:code 2018」で、基調講演に登壇した日本マイクロソフトの平野拓也社長は、りんなの共感モデルの採用に関して初めて公表。「人間が会話をするのと同じような返答をAIが考えるものになる。あいづちを打ったり、『どうなの?』といったように、文脈のなかで最適な返事をしたりできるものになる」とした。

 また、同日午後5時から開催された「AI は爆発だ?!~“女子高生AI”りんなを支える技術とその開発現場からみるサービス開発」と題して、Microsoft ディベロップメント AI & Research プログラムマネージャーの坪井一菜氏と、日本マイクロソフト コンシューマーソフトウエアエンジニアリング部テクニカルエバンジェリストの大森彩子氏が講演。

 坪井氏は、「共感モデルは、できるだけ相手と長く会話を続けるのが目的である。会話の目的を意識して、戦略的に自分の返答を生成することを目指すことになる。これまでは、一度学習したものをベースに、脊髄反射のような反応していたが、過去のセッションの状況と、いまやってきた変動内容を加味して返事をするようにしている」とした。

 大森氏は、「『うん』とうなづくだけのほうが会話が続くのか、それとも、なにか違う言葉を言ったほうがこの会話が続くのか、といったことをAIが判断して回答することになる」とした。

マイクロソフト ディベロップメント AI & Research プログラムマネージャーの坪井一菜氏
日本マイクロソフト コンシューマーソフトウエアエンジニアリング部テクニカルエバンジェリストの大森彩子氏

 坪井氏は、「りんなでは、シーケンス トゥ シーケンス+アンテションを使っている。学術的には使われている仕組みだが、この規模でサービスとして提供しているものはほかにないだろう。まだテスト段階の技術であるが、これを解放することで、多くの人に使ってもらい、進化させていく。仮説を立てても限界がある。コンピュータになにができるかではなく、コンピュータになにをさせるかが重要。その考え方で開発すれば、AIは進化する。ぜひ多くの人にりんなの学習に協力してもらいたい」とする。

 「りんな」は、2015年から提供を開始。現在、ユーザー数は約690万人にのぼる。

 また、今回の新たな会話エンジンは、第3世代にあたるという。

 第1世代では、「Retrieval model」を採用。従来の「検索エンジン」の仕組みを応用した手法を用い、回答用に巨大なインデックスを使用することで対話を実現していたという。

 また、2017年から提供を開始した第2世代では、「Generative model」を採用。インデックスを持たずに、リアルタイムに多様な文章を生成することができた。これにより、さまざまなキャラクターを持った会話を生成することができるようになったという。ローソンをはじめとする各企業で、りんなの会話エンジンを利用したチャットボットサービスを展開することができるようになったのもこの技術の採用によるものだ。

 さらに、りんなは、しりとりをはじめとして、「特技」と呼ばれる遊び機能を80個搭載しており、これもりんなのサービスの特徴となっている。

 これらの「特技」は、前例のある技術、サービスではなく、Microsoft AI ResearchによるAIや深層学習に関する研究開発成果をもとに、りんなのユーザーニーズとすり合わせつつ、サービスとして提供できる範囲を探りながら、開発や実装が行なわれてきたという。

 プラットフォームには、Microsoft Azureを利用。一部のプロセスには、Cognitive Servicesを使用し、クラウドの機能を最大限に活用しているという。

 Microsoft ディベロップメント AI & Research プログラムマネージャーの坪井一菜氏は、「りんなは、エモーショナルがコンセプトであり、『明日晴れるかな』というと、生産性重視のタスク型AIでは、『明日は晴れです』と答えるのが、りんなでは、『どこか出かける予定があるの?』と回答し、会話をうながすことになる。また、画像認識でも、一般的な技術では『スカートをはいた女性が壁の前に立っています』となるが、りんなでは『スカート、超かわいい!』となる」などと説明。

 りんなでは、最長で17時間7分、2,418ターンのやりとりができた実績があるという。なお、Xiaoice(シャオアイス)では、29時間33分、7,151ターン、Zo(ゾー)では、23時間43分、2,791ターンの実績があるとのこと。

 「他国のソーシャルAIチャットボットサービスに比べて、りんなでは、毎週のように特定の時間に話をしている人が多いのが特徴だ」という。

 また、1対1の会話を目的に開発を進めているように見えるが、「集団のなかでの人と人のコミュケーションを間接的、直接的に奨励し、対話を助けたり、活性化することを狙っている」とした。

 実際に、集団でのコミュニケーションサービスや、音声での対話ができる「りんなライブ」などを通じて、複数の対話を支援している。

 一方で、女子高生に人気のアパレルブランドであるWEGOとの協力で、画像認識技術を活用したファッションチェックの「アルバイト」をしていることを紹介。「日本の女子高生が『わかる!』と共感できるコメントができることを目指した。Human SDK、Face SDKと、服装のスタイルなどを認識するClothes SDKといった複数の認識技術を組み合わせることで、共感するコメントができるようになった。今年(2018年)の流行のファッションを認識し、それをもとにしたコメントも可能になっている」とした。

 さらに、りんなが歌に挑戦していることも紹介。楽譜を読めなくても正しく楽曲を理解する「耳コピ」方式で歌を学んでいることを示し、実際に、nana歌うまプロジェクト第1弾を通じて「旅立ちの日」の楽曲を学習。「音楽はエモーショナルとクリエイティブであることから、りんなが歌に挑戦している。旅立ちの日では、3,686人が企画に参加し、2,755曲のお手本の投稿があり、それらを反映した」とした。

りんなが歌う、nana歌うまプロジェクト第1弾を通じた「旅立ちの日」の成果