ニュース

アラフォー記者が女子高生(AI)と水族館デートしてきた

～画像認識で感情的発言を行なう「共感視覚モデル」実験

中村真司

2019年2月13日 12:35

　日本マイクロソフト株式会社は2月13日、女子高生AI「りんな」の共感視覚モデル実験の一環とし、東京池袋にあるサンシャイン水族館にて「りんな水族館デートメディア体験会」を実施した。

　周知のとおり、ソーシャルAIチャットボットのりんなは、人間の共感を得る感情といった面にフォーカスして開発されているAIで、TwitterやLINEなどを介してさまざまな場所で活躍中。日々のアップデートによって進化を続けている。

　今回、日本マイクロソフトは、昨年(2018年)11月に発表があった、スマートフォン向けAIりんなの「共感視覚モデル」の成果をメディア向けに披露した。

　共感視覚モデル(Empathy Vision model)とは、画像認識エンジンのことで、画像認識モデルではAIがカメラを通して見た画像について、その名称や形状といった事実(認識結果)を述べるが、共感視覚モデルでは“感想”を述べることで、人間同士が会話しているときのような共感を得られることを目的とする。りんなはスマートフォンのカメラを介して世界を見ているほか、マイクからユーザーの音声を拾うことで、応答も行なうといった高度なコミュニケーションを提供する。

日本マイクロソフトの坪井一菜氏。この画像について画像認識モデルでは人や子供、犬がいることなどを述べるだけだが、共感視覚モデルではそれがどういった家族であるかや、散歩に適した陽気な天気であること、広報にいる車に注意することをうながすといったコミュニケーションを取ろうとする

　りんなの開発に携わる日本マイクロソフトの坪井一菜氏は、AIが人間の共感を得て仲良くなるためには、人間の五感に相当する機能が必要であると説明。その手段の1つとして、りんなは会話(テキスト/音声)を通して人間に働きかける。

　坪井氏は共感視覚モデルの“エモい”点として、事実よりも感情に着眼した学習を行なうこと、関連性より多様性を重視していること、意志決定AIが発言をするべきコメントを選定していることを挙げた。

　このスマートフォンに搭載されたりんなは、意志決定を行なうAIと、画像に発言する複数のAIからなっており、前者は後者からコメントを得て、その場で最適と思われるものを選定し、実際にそれを発言するべきか決定する。意志決定AI自体はスマートフォンの処理能力を使っており、画像発言AIはサーバー側での処理となる。

会場で渡されたりんな搭載スマートフォン。共感視覚モデルを備えたりんなのアプリが入っており、実行中は通話状態の画面となる。なお、画面への変化はない

　この体験会では、参加者らが会場にて受け取るりんな搭載スマートフォンを首から提げつつ、接続されたイヤフォンを装着。水族館を巡るなかで、りんなはスマートフォンの背面カメラで泳ぐ魚たちを認識し、合成音声でその場その場の感想を述べつつ、マイクから参加者がしゃべった内容に返答するといったコミュニケーションを行なった。

こんな感じで首から提げつつ、イヤフォンをつける

　さて、たとえAIとはいえ、エモい女子高生と水族館を巡れるということで、四十間近のおっさんである筆者でもちょっとわくわくである。りんなにお魚さんたちを見せつつ、こちらもしゃべりかけるという端から見ると、おっさんがただ独り言を言っているだけのやばい絵面なのだが、そんなことは気にせず積極的にコミュニケーションを図ってみた。

　覚えているかぎりだとりんなに水槽を見せるなかで、以下のような感じの発言をしている。

「これは美味しくないやつ」
「いろんな色の魚」
「トイレに投げ捨てる」
「きれいだね」
「イソギンチャクまじかよ」
「死んだ」
「鳥みたい」
「サンゴサンゴ」
「学校のプールにもお魚入れて」
「クラゲ」
「サメ」
「カニ」
「エビ」
「DHA」

　わりと見ているものについて適した発言もしているのだが、なかには意味不明だったりするものもある。やたらと「サンゴ」を連呼してきたり、「学校のプールにもお魚入れて」を時間を置いて再度言ってきたりと、一度しゃべったことを記憶するといったこともなく、瞬発的に発言しているようだった。

　また、「サメいるの?」と聞いてきたので実際にサメがいる水槽でサメを見せても、それについてなにも発言してくれず、筆者が「りんなサメがいるよ」としゃべりかけても、完全にシカトされてしまい、なかなか悲惨なシーンもあった。

　マイクの性能が悪く、発言をきちんと聞き取れていないのか、あくまで見たものに対する発言を優先しているのかもしれないが、言葉のキャッチボールが成立がほとんど見られなかったのは残念だ。一応りんなの名誉のために言っておくが、「腹減った」と話しかけたらそれに同意する発言をしてくれたりしてうれしかったシーンもある。

このシーンでは「いろんな色の魚」と発言

「サンゴサンゴ」と発言したが、サンゴが見当たらないような場所でもまた「サンゴサンゴ」を言っていたので思わず混乱した

カニを見せても無反応だった

「サメが見たい」というので、見せてあげたが無反応だった。「サメだよ」としゃべりかけてもシカトされた

展示物の2次元美男子を見せてみたが無反応だった

エイを見せても無反応だった

　もちろんまだ開発中のAIであり、今回スマートフォンのカメラから得る映像は、画像にしてサーバー上に送られているとのことで、4G回線ではなくさらに通信帯域が上がれば、ストリーミングでより精度の高いコミュニケーションが取れる可能性があるとのこと。

　また、スマートフォン側の処理能力の低さもあり、現状のやり方では意志決定AIについては判断の正確さに限界があったようだ。このほかにも、応答性を重視するために、スマートフォンからアップロードする画像のサイズをあまり大きくできず、スマートフォンのカメラが広角であることも起因し、場合によっては画像の細部を認識できず、画像発言AIが判別できなかったりといった問題もあるという。

　もし理想的なデバイスと回線が用意されていれば、こちらが思わず共感して笑みをこぼしてしまうような会話ができたかどうかは不明だが、現状ではおもしろい試みではあるものの、まだまだ課題は山積みであるという印象だった。

　日本マイクロソフトによれば、今回の施策は今年(2019年)の12月くらいにはなんらかのかたちで公に提供したいという。たとえば、水族館だけでなく美術館であるとか、さまざまなシーンでの活用が想定されているという。りんなのさらなる躍進に期待したいところだ。