森山和道の「ヒトと機械の境界面」

記号創発ロボティクスが目指す汎用人工知能

森山和道

2018年11月28日 06:00

WRS「FCSC」に出場した「NAIST-RITS-Panasonic」

　11月22日と23日の両日、慶應義塾大学・矢上キャンパスで「人工知能学会合同研究会2018」が行なわれた。

　全部で14の研究会が行なわれたが、本記事では、「第10回汎用人工知能研究会(SIG-AGI)」内で招待講演として行なわれた、立命館大学情報理工学部知能情報学科創発システム研究室教授で、パナソニック株式会社ビジネスイノベーション本部客員総括主幹技師でもある谷口忠大氏による「記号創発ロボティクスによる汎用人工知能への挑戦」を中心にレポートする。

　「記号創発ロボティクス」と「汎用人工知能」の考え方は近いという。

第3次AIブームの技術

立命館大学情報理工学部知能情報学科創発システム研究室教授、パナソニック株式会社ビジネスイノベーション本部客員総括主幹技師谷口忠大氏

　谷口氏は、もともと京都大学の機械系の出身。人工知能自体は門外漢だったが、ロボットはさまざまな技術をすべて使わなければならないことから、広い視点を持つようになったという。

　現在、「第3次AIブーム」が起きている。では「アルファ碁」や自動運転技術、自動翻訳技術などの延長で、人間のような知能を目指す「汎用人工知能」ができるのか。

　谷口氏は「AIは機能という視点から見られがちだ」と述べた。

　今のブームの文脈では、AIは「入力から出力への変換」だと言われることが多い。音声データからテキストへ、日本語から英語へ、画像からクラスタリングラベルを出すなど、基本的には何かしらの入力データを求められる出力へ変換する関数/写像として表現されることが多い。

　その関数をうまく作るために、ルールベースで知能をダイレクトに作っていこうというアプローチだ。

ディープラーニングの成功が第3次AIブームを生んだ

　だが「機能そのものをデザインするのは技術者にとっては酷だ」という。我々が猫を猫と判断するときに、猫のどこを見て判断しているのか、それをいちいち書き起こすのは難しい。

　そこで機械学習が注目されたわけだ。どこを見ているのかはともかく、猫を見て猫だという正解ラベルをつけることはできるし、そのような情報を抽出することはできる。

　だから「教師あり学習」によって、インプットとアウトプットの関係を最適化することはできる。さらに特徴抽出のところも自動で、エンド・トゥ・エンドで学習させてしまえばいいというのがディープラーニング(深層学習)が起こした革新だった。

機械学習によるインプットとアウトプットの最適化

　ディープラーニングが大きな進展を見せはじめて5年くらい経つ。エンド・トゥ・エンド学習から、さらにエンコーダ-デコーダー・アーキテクチャによって、内部の分散表現をうまくデコードする、そこにもニューラルネットワークが使えるというかたちで研究は進んだ。

　そして機械翻訳、すなわち英語入力から日本語出力を出すような、複雑なインプットとアウトプットの関係にも対応できるようになった。画像を入力してそれに対してキャプション文を出す、ビデオを入力して文を出すといったタスクでも成功を収めた。それがここ5年間の動きだ。

　谷口氏は、2018年の頭には「2018年はそろそろAIブームが落ち着きを迎える年になる」と考えていたという。

　だが、ブームはまだしばらく続いている。認識技術に加えて、生成系に用いられれる「GAN(Generative Adversarial Network、敵対的生成ネットワーク)」も無視できないものになっている。

　GANは画像生成だけではなく、ロボットの動作学習にも用いられている。画像は非常に高次元の状態空間があって、そのなかで質の良い分布推定をしないといけない。GANは高次元の確率分布推定を行なっている。

　今までは、分布間の距離の最適化をするときに、さまざまな手法で近似を置いたりしていたのに対し、GANを使うことで、より広いクラスの距離を利用できるようになった。つまり「確率分布の推論問題として進化を遂げたのがGANである」と谷口氏は述べた。それによって、実データの確率分布のモデリング及び、分散表現の学習ができるようになったというのが、深層学習のコアだと考えているという。

　ただしGANについても、「分散表現からデータを出す」という描像から描ける範囲のものにとどまっていると指摘した。

エンコーダー-デコーダー・アーキテクチャ

生成系で成果を挙げているGAN

環境に適応する知能をボトムアップで作る「記号創発ロボティクス」

　記号創発ロボティクスの文脈は、人間の認知発達をモデル化しようとする「発達ロボティクス」にある。さらに過去を振り返ると、それは「AI冬の時代」に産声を上げた。

　知能をソフトウェアとして書くのではなく、環境の適応や進化などの上で考えないといけないという考え方で、「身体性」や「アフォーダンス」というキーワードが出ていた時代があり、そこをベースにして出てきた発達ロボティクスから分派したのが、記号創発ロボティクスだという。だからミッションは近く、環境に適応できる知能を作りたいというのがその目標だ。

　谷口氏は、自身の長男と次男がインタラクションしながら柔軟物体把持を行ない、見事なプランニングを実行してプラレールを組み立てている様子を示した。

　人間は、こういう作業がルールベースを構築することも、教師データとして大量のラベルデータを与えることもなく、自分自身のセンサー・モーター情報だけから行なえる。つまり、人間は誰もがすごい能力を持っている。このプロセスを理解することが重要だ。

「発達ロボティクス」から分派した「記号創発ロボティクス」

　記号発達ロボティクスでは、作って理解する「構成論的アプローチ」を取っている。

　人間が簡単にこなす知的プロセスが、どういう表現であれば可能になるのか。これが実現できれば、ある種の設計図を得ることができる。それを手に入れられたら「理解」と言えるのではないか。なら、それを作ろうというのが記号創発ロボティクスの考え方だ。

　なぜ記号創発なのか。背景には、いわゆる記号接地問題などへの反省があるという。

　記号は言語の一般化だ。言語は進化の1つの行き着く先だ。人間は言語を通してさまざまな概念を統合している。

　たとえば、「キッチンからペットボトルをとってきて」という命令があったとして、この言葉を本当に理解するには、さまざまな概念の理解が必要だ。キッチンという場所、ペットボトルという物体、取ってくるという行動が学習できなければならない。これらを統合する必要がある。

マルチモーダル情報から、教師なし学習で概念を形成

　では、これまでに具体的にどんなことをやってきたのか。ロボットが物体を把持して、音を聞いたり、物体をさまざまな角度から見て、マルチモーダル情報から、教師ラベルなしで概念を形成することができる。

　また、場所の概念を形成することもできる。ビジョンとSLAMからの位置情報、音声による教示、これらをマルチモーダルに統合して概念を形成する。将来は、言語で命令したときの動きにも使えるようにしたいという。それを基本的にロボットのモーターとセンサー情報だけからやる。

記号創発ロボティクスの成果の一部

　要するに、エージェントのモーターからアクションして、環境からはセンサーを使ってインプットを得る。そうしてインタラクションする。環境とのインタラクションのなかから、はいはいやリーチングなど、さまざまなモータースキルを得るようになる。

　同時に、物体概念など知覚カテゴリや、プランニング能力が形成できる。こういうものは、他者がいなくてもできるようになる。物体カテゴリは、物体自身のセンサー情報の分布が偏っているので、そこからでもカテゴリは作れるという。だが、これらが知識のすべてではない。

　他者からの音声情報は、物理的な接触による音を鳴らしたりするのとは違って、構造化されており、ソーシャルインタラクションができる手がかりだ。また、物体を一緒に運ぼうとしたら他者の意図推定も必要だ。さらに言語獲得も必要になる。

　文法、語彙、セマンティクスや語用なども、インタラクションのなかで学習していく。それもボトムアップに捉えて実現したいというのが、記号創発ロボティクスの目標だという。

環境とインタラクションすることで得られる自分のセンサー-モーター情報を自己組織化してさまざまなスキルを獲得

モジュール群を統合したかたちでボトムアップで学習してくのが大事

　こういうと、いわゆるロボット屋は「物体カテゴライゼーションや動作生成、言語処理などの各種モジュールを作って、つなげれば良いんだな」と考えがちだ。

　しかし、「そうではない」と谷口氏は続けた。各々のモジュールを、別々にチューニングすれば良いわけではない。人間の学習発達プロセスでは、異なるモジュールが相互に依存しながら学習プロセスが進むからだ。

　たとえば、物体概念を形成するときには、物体のカテゴライズと、それに名前をつける語彙を一緒に学習する。だが最初に音を聞かされたときは、単語をどこで区切ればいいかもわからない。単語を発見するためのプロセスが必要だ。

　そのときに、たとえば「これが指し棒だ」という音声があったとして、「指し棒」というカテゴリを最初からわかっていたら、その情報を使って音声も区切りやすいが、音声認識も物体カテゴライズもどちらも両方が曖昧だと難しい。

　だが、両者をつなげて学習していくと、パフォーマンスが上がるのだという。よって、モジュール群を統合したかたちで、ボトムアップで学習していくのが大事なのだと述べた。

音声認識、場所概念の獲得、ARによる表現

　では、通常のラベルデータを準備して学習させるのと何が違うのか。一例として谷口氏は、音声認識・合成を示した。

　通常の音声認識アプローチでは、スピーチシグナルを用意して、それに対するラベリングデータ(書き起こしデータ)を用意する。そして、両者のマッピング関係を何かのアルゴリズムで準備する。

　音声合成の場合はこの逆だ。これでASR(Automatic Speech Recognition)やTTS(Text To Speech)を作ることができる。

一般的な音声認識と音声合成の仕組み

　ところが、人間の発達で考えると、これはおかしいという。人間は、書き文字は話し言葉のあとで学習する。また、喋るときに必ずしも頭のなかでクリアなテキスト文があるわけでもない。

　基本的には、スピーチシグナルが入ってきて、何かしらの脳内表象ができ、考えたことを音声合成して発話するという流れのはずだ。脳がこういう流れで情報を処理しているのであれば、書き起こし文データがない音声認識や合成もできるはずだ。

　谷口氏らは、教師なし学習で音素と単語を見つける機械学習モデルを作ることに成功している。やっていることはシンプルだという。

　ポイントは、最初の時点で音素がいくつあるか、単語がいくつあるかは与えられないので、そこを可変にするために、ノンパラメトリックベイズを用いて、無限の隠れ状態を推定できるフレームワークを構築した。どういう語彙や音素があるかは、隠れ変数としてモデリングして、その推論をマルコフ連鎖モンテカルロ法で行なう。そして音響モデルと言語モデルを同時学習させた。

　当時は計算量の問題があったのでデータセットサイズを下げるために、人間の母音だけで人工的な言葉をつくって実験を行なったところ、教師なし学習で高い単語分割性能を持つことができたという。

教師なし学習で音素と単語を見つける機械学習モデル

音響モデルと言語モデルの同時学習

　ここ5年くらいは、場所の概念を学習させようとしている。ホームロボットのデモでよくある「場所と物体を音声で指定して、物体をとってこさせる」というものだ。

　多くは物体概念を教えるものはあっても、場所を教える話はあまりない。自己位置推定とマッピングでよく使われるSLAMは、基本的にXY座標の世界で、「台所」とか「リビング」といった「意味的な世界」ではない。

　場所という概念は面白いという。たとえば「キッチンとは何か」と考えると、どこがキッチンなのかはSLAMの情報だけからは得ることができない。

　だが人間は、どこがキッチンなのかすぐにわかる。冷蔵庫やシンクの存在、あるいは部屋の構造、空間の位相情報など、さまざまなマルチモーダル情報から、キッチンをキッチンだと判断して概念を形成している。

場所の意味概念を獲得する「SpCoSLAM」

　具体的には、SLAMのモデルと混合ガウスモデルを組み合わせて空間をクラスタリングする。さらにCNNの出力を特徴量として入れる画像情報と、音声認識結果とをまとめあげて、場所の概念を作り上げていく。また、語彙ゼロから語彙の獲得も同時に行なう。

　このシステムを「SpCoSLAM」と呼んでいる。谷口氏は実際にロボットが動き回りながら、自分自身の獲得した特徴量とをつなぎ合わせて、場所概念を作っていく様子を動画で示した。

「SpCoSLAM」のグラフィカルモデル

実験デモ動画の様子

　また最近は、ロボットが何を認識しているかをARを使って人間に分かりやすく示す研究も行なっている。

　人間には、ロボットが何を分かっていて何を分かってないのか分かりにくい。だがロボットは我々と行動空間を共有しているので、その交換すべき情報を実空間に重畳するARを使って、ロボットがどんな物体概念・場所概念を持っているか、あるいはどのように移動しようとしているか経路生成の結果を示してやればいいという考え方だ。人間とロボットとのインタラクションの仕方にARが使えると考えているという。

ロボットの認識結果などをARで表示

AR用デバイスにはMicrosoft HoloLensを用いている(8月に開催された「イノベーション・ジャパン2018」での展示)

　音声認識や画像認識は、認識率100%を達成することは難しい。しかしながら、ロボットのアーキテクチャでは、音声認識の結果を受けて自然言語処理を走らせる、つまりシーケンシャルに処理が進むことが一般的だ。そうなると、エラーはどんどん重なっていくことになる。

　ところが自然言語処理では、認識誤りゼロを仮定していることが多く、誤りありの可能性が確率的に表現されている自然言語処理を研究している研究者は、あまりいないのだという。

　だが人間も言い間違いはするし、聞き間違えもする。現実的には、ロボットの認識間違いを見せることで、人間側が工夫して解決する問題もあるのではないかと谷口氏は指摘した。

本当のヒューマン・ロボット・インタラクションを目指す

言語理解できるロボットはできるか

　記号創発ロボティクスのグランドチャレンジは何か。人間は誕生後、6年くらいで言語理解してある程度のタスクがこなせるようになる。やりたいことも基本的にはこれで、ラベルデータなし、事前に音素情報、地図情報などなしで、疑問文だが実際には命令文であるという発話行為・意図なども理解できるロボットを作るのが、技術者の使命なのではないかと考えているという。

　実際に見せるデモとしては「ロボットがキッチンから牛乳を取る」くらいで何も変わらないかもしれないが、それをロボットのセンサー・モーター情報だけからやろうというわけだ。

記号創発ロボティクスのとりあえずの目標

　なお「記号創発ロボティクスの記号というのは、論理学的な意味での記号なんだろうと言われることが多いが、それは違う」という。

　記号論理学でいう記号と、日常で使っている記号の意味は異なる。ヒューマン・ロボット・インタラクションで必要になるのは後者だ。前者の記号は、AIはどういうツールで作るかという議論に近い。後者のほうはいかにロボットに理解させるかという意味だ。

　そういう側面での記号の意味は、高度に文化的だ。場所やコミュニティが違うと、同じ言葉が違う意味を持っていたりする。だが、使われ方を理解して適応しないとコミュニケーションできない。文化によって言葉は変化するし、文化自体もボトムアップに変化していく。

　谷口氏は「言語理解は認知の話で終わることが多いが、それでは足りない。認知的主体が結合したソーシャルなところで記号創発は起きていることを把握しなければならない」と強調し、「現段階では少しだけ言語獲得ができて内部でカテゴリが形成されているくらい。本当は、ソーシャルなダイナミクスとコグニティブのダイナミクスの両方がカップリングした表現を得ていかないと、本当のヒューマン・ロボット・コミュニケーションはできない」と前半の話を締めくくった。

記号創発ロボティクスの全体

知能はダイナミクスである

　谷口氏は、「知能を入出力関係で書くのは納得できない」と再度強調した。

　多入力・多出力であれば良いというわけでもない。知的な生命とは何かと考えると、環境とのインタラクションによって、脳のなかが自己組織化現象によって変わっていく。そのようなダイナミクスが重要なのだという。

　もちろん、その結果としてタスクができていくのだが、知能はタスク達成のものではなく、知能は創発的な現象だというわけだ。

知能はタスク達成のための関数ではなく情報の自己組織化現象、創発的実態であり、「ダイナミクス」だという

　いっぽう、教科書的に「機械学習とは」という話を書くと、入力と出力の関係で書くほうがわかりやすい。谷口氏は、自身が書いた教科書に収録した図などを示しながら「学部向け教科書ならこれでいい。だが、実際には葛藤がある」と語った。

　脳全体の知能アーキテクチャを作っていく上で、何を軸にしていくかということを考えると、たとえば、Alphabet傘下でデミス・ハサビス氏が率いるDeepMindグループは、深層強化学習に注力しているように見えるが、「強化学習は何か違う」というのが谷口氏の感覚なのだという。

機械学習の教科書的な分類

　谷口氏は、近年、強化学習は確率的生成モデルの推論とほぼ等価だという研究が行なわれていると紹介した。

　強化学習は将来にわたる報酬の最大化として捉えることが多い。だが、そのかわりに「最適性」という変数を用意して、たとえば、ここからずっと最適な状態(タスクが達成できる状態)が続くと仮定したときに、自分が未来に出すアクション系列、ステート列はどういうふうになりそうかというベイズ推定問題として捉え直す。

　すると、ほとんどQ学習や強化学習と同じ式が出てくるのだという。なので、確率的な問題に強化学習は含まれるというわけだ。

強化学習と確率的生成モデルの推論とほぼ等価であることが示されている

　谷口氏は「統一的な視点としてのマルチモーダル教師なし学習」という観点で話を続けた。教師あり学習でやっていたことは、教師なし学習の一部として捉えることができ、基本的には教師なし学習とベイズ推論で良いのだという。

　また、確率的モデリングとディープラーニングは共存できると語った。認知発達ロボティクスの研究者でも、早稲田大学の尾形哲也氏や沖縄科学技術大学院大学の谷淳氏らはRNNを使っている。谷口氏や電通大から大阪大学へ異動した長井隆行氏らは、確率的生成モデルを使っている。ニューラルネットワークと確率生成モデルは、いま1つに集まろうとしているという。

　確率的生成モデルをニューラルネットワークで推論したり、GANのように生成モデルをニューラルネットワークをどのように使って作るかという話もある。両者の流れは重なってきている。両者を統合することで、より柔軟なクラスタリングができるようになったり、さまざまな面倒なことがなくなるのだという。

マルチモーダル教師なし学習

ニューラルネットワークと確率的生成モデルはコンバージしつつある

　また、場所概念や語彙獲得などのモデルを作っていくと、認知モジュールがどんどん増えてきて、どんどんモデルが複雑化する。異なる生成モデルをいくつも持っておいて、それを信念伝搬でコミュニケーションすることで、異なる認知モジュールが同時に最適化できる。

　ソフトウェアエンジニアリング的には、場所概念、音声認識など各種のモジュールを作る人がそれぞれ別途作って、あとで繋げる必要がある。だが、ポイントは、動かすときに一緒に動かすだけではなく、学習時から相互にコミュニケーションしながら動かさなければならない。そのために谷口氏らは「SERKET」という考え方、フレームワークを提唱している。

学習システム統合アーキテクチャ「SERKET」を提唱

　なお実ロボットを動かすことにもチャレンジしており、10月に行なわれた「World Robot Summit
(WRS)」では、「フューチャーコンビニエンスストアチャレンジ(FCSC)」に奈良先端科学技術大学院大学、パナソニックとの合同チーム「NAIST-RITS-Panasonic」としてエントリー。接客部門では優勝した。

　また「パートナーロボット」にもリアル、バーチャルで出場し、それぞれ準優勝、総合3位の成績を獲得している。

WRS「FCSC」に出場した「NAIST-RITS-Panasonic」のロボット

　谷口氏は最後に、記号創発ロボティクスは、汎用AI研究そのもの、確率的生成モデルでマルチモーダル情報を統合、教師あり学習や強化学習も包摂し、ニューラルネットワークと確率的生成モデルを融合してモデリングしていくと締めくくった。