ニュース
脳に学ぶ「汎用人工知能」の可能性
~第2回 全脳アーキテクチャシンポジウム開催
2017年9月4日 06:00
NPO法人 全脳アーキテクチャ・イニシアティブ(WBAI)は「脳全体のアーキテクチャに学び、人間のような汎用人工知能(Artificial General Intelligence、AGIと略する)を創る」ことを標榜して人工知能の研究開発を促進している。
2017年8月29日、WBAIによる「第2回 全脳アーキテクチャシンポジウム」が、ラゾーナ川崎東芝ビルで開催された。
テーマは「Beneficial AGIへ」で、WBAIの活動状況や脳に学ぶ意義が語られた。WBAIにおける功労賞表彰式やパネルディスカッションなども行なわれたが、ここでは講演部分だけをレポートする。
脳に学ぶ意味
まず、株式会社ドワンゴ 人工知能研究所所長で、WBAI代表の山川宏氏から、汎用人工知能を実現するために脳から学ぶべきこととして、現在のおおまかな方向性が語られた。
神経科学の世界ではfMRI(機能的磁気共鳴映像装置)による脳活動の計測や、2光子イメージング、コネクトーム(神経細胞同士の繋がり、神経回路の地図)の進展などによって、高次レベルの働きが理解されつつある。
一方、情報処理技術の世界でもニューラルネットワークで従来より大きな単位のものが学べるようになってきた。そして情報処理技術でAIのアーキテクチャを考える上で、どのような制約が必要かという観点で、脳に学ぶことが必要になり始めているという。
「汎用性」というのは広い意味がある言葉だ。山川氏は、WBAIでは人のような汎用性をいきなり目指すのではなく、特化型AIよりも広い用途を持つといったものを、まずは現実的なターゲットとして考えていると述べた。未知な状況にも対応できるように、獲得した知識を再利用し、柔軟に組み合わせられる知能を想定しているという。
これは自律性にも関係がある。機械学習は近年、十分なデータセットが得られる状況では大幅に機能が向上したが、知能の適用範囲を広げようとすると、データが少ない状況への対応が必要となる。その場合は、自ら仮説を生成して、既存の知識を組み合わせ、有望な解を探索する必要がある。
山川氏は、脳での知識の組み合わせも、モジュールの動的組み合わせとして考えられるとし、これは意識や注意、バインディング問題(脳内で情報を統合する方法に関する問題)といったものとも関わってくるのではないかと述べた。
そもそも脳における知識は、組み合わせられるような情報構造を持つ可能性があるということだ。そのような情報表現を実現している、大脳新皮質のマスターアルゴリズムを学べないかと考えているという。
WBAIでは、究極的には脳全体のアーキテクチャに学んで、人間のような汎用人工知能を作ることを目的としている。
だが、まずは細かいモデルからではなく、できる限り粗いモデルから必要に応じて詳細化していこうと考えているという。このような目標に個別の研究者がバラバラに取り組むのは難しいので、WBAIではオープンプラットフォームの開発を進めている。
WBAIでは、ハッカソンも行なって研究を進めている。これまでに触覚だけに注目したハッカソンを行ない、動きと触覚の関係などの研究を行なっていたが、次はマウスの海馬モデルを作り、それを精緻化していく予定だという。
このほか、山川宏氏は「AGIを人類と調和させるためにWBAIができること」という演題でも後ほど再び登壇。人類と調和したビジョンをオープンな開発を促進していきたいと語った。
世界各国で行なわれている汎用人工知能研究を概観し、NPOとしてのあり方としては、継続的に成り立っている環境保護団体がある種のモデルになるのではないかと考えているとした。
WBAIでは、「AGIは特定組織の所有物ではなく、人類全体の共有物であるべきだ」と考えており、AGI完成直後において、技術的詳細が広く共有されているような世界を実現することを目指していると語った。
記号創発ロボティクスとAGI
続けて、立命館大学情報理工学部 教授の谷口忠大氏が、「記号創発ロボティクスが目指すAGI ~表現学習を超えて~」と題して講演した。
谷口氏は、まず現在の深層学習を中心とした人工知能の成功について、たとえば画像処理についてはCNN(畳み込みネットワーク)が、データセットから何かしらの状態空間、高次ベクトルによる情報表現を作り、それをQ学習(強化学習の一種)させる仕組みになっているものが多いと概括。「良いRepresentation learningが大事」だと述べた。
脳内のシンボル(表象)という言葉は、神経科学の領域でもよく議論される。
人間は、ラベルデータなどなくても自然に学習することができる。この仕組みが理解できないと、人間の表象学習はわからない。とりあえず、さまざまな感覚/運動情報が統合されたものから、表象が獲得されていることはわかっている。
谷口氏は、共同研究者である電通大の長井研究室における、ロボットを使った実験の様子を示した。ロボットがさまざまな物体とインタラクションすることで、自分でマルチモーダル情報を統合しながらクラスタリングして概念を獲得していくというものだ。
たとえば、一見同じように見えるぬいぐるみを、表面の素材の違いで区別したりすることができる。現状のロボットであっても、十分なセンサーやアクチュエータを持っていれば、それで得られる状態空間があり、ボトムアップである種の内部表現を作っていくことはできるのだ(長井研の研究については本誌過去記事も参照されたい)。
現在は、ロボットに場所の概念を与えようとしているという。座標ではなく、おおまかに「キッチン」や「リビング」といった自然言葉を言われるだけで、それを理解できるようなロボットだ。
そのために、SLAM(ロボットが自己位置推定と環境地図作成を同時に行なう技術)ベースの場所概念獲得モデルを作っていると紹介した。人とのインタラクションのデータだけから、音声から適切なチャンクを発見し、位置情報と紐づけて、場所情報を獲得していくことができる。
「記号創発システム」を提唱する谷口氏だが、「内部表象イコール記号ではない」と強調した。
記号とは、たとえば「りんご」というサインが特定のオブジェクトを指し示しているという関係だが、この2つを繋げるには解釈アクティビティが必要で、この3つが揃ったときに、これをシンボルという。
また、それを「どう呼ぶか」と「脳内表現」とはまた別で、社会のなかで記号系として保持され、認められないと言語にはならない。
社会のなかで、どのようにシンボルができあがるかも重要だ。社会的・認知的なインタラクションの制約のなかで、我々は記号系を作っている。
谷口氏は、人工知能の世界でしばしば課題とされる、いわゆる「記号接地」問題は、問題の立て方自体が間違っていると続けた。
我々の記号体系はカチッと決まっているわけではなく、常にダイナミックに変化していくものであり、それが脳内表現を経て、社会のなかでどのように変化していくかを議論していかないと、議論が閉じないと指摘。
一個一個の記号を獲得してコミュニケーションするようなシステムを作ることで、リアルワールドのAGIができるという。基本的に、知能は環境適応であり、だから身体性に基づく実世界のマルチモーダル情報が重要だと述べた。
今後については、階層的ベイズのようなアプローチとディープラーニングが、モデル的に統合されていく段階に入っているとし、SLAMや音声認識など、さまざまなモジュールを統合して確率モデルですべて描き切るのは、1人でやり切るのは厳しいので、やはりフレームワークが重要だと指摘した。
人工知能の「人工意識」
もともとは脳、実験心理学の研究者で、現在は株式会社アラヤの代表取締役兼CEOである金井良太氏は、「意識、意図(自律性)、意味の3つが、今のAIには根本的に欠けている」と話を始めた。
記号にある「意味」をどう表現するのか、共通理解はできていない。なお金井氏のアラヤのミッションは、「意識を人工的に創り出すことで、意識を理解する」ことだ。
人間の脳がものを見ているときには、眼球の網膜から視覚野、側頭葉まで情報が運ばれるなか、主観的世界が生まれる。だが、物理的な過程だけを見ていると、主観的世界が入り込むことはない。
しかし、限られたリソースのなかで汎用性の高い人工知能を作ったら、それはほぼ必然的に意識を持ってしまうのではないか、と金井氏は語った。
神経科学の世界で意識の研究が始まったのは、ここ25年間くらいのことで、それまではタブーだったという。いまは、人工知能の研究者にとって意識の話をするのは、タブーなところがあるのではないかと冗談交じりに指摘した。
では意識の機能とはなんなのだろうか。
金井氏は、「1次視覚野のニューロンが発火したら、意識にのぼるのか、のぼらないのか」という問題を例に挙げ、意識の機能とは、未来の動作計画に情報を使うためなのではないかと語った。単に反射的に返すのではなく、いったん情報を蓄積して、行動の計画に使うためには、意識が必要なのではないかという。
そして意識の機能は、いまセンサーから入力されている情報を直接表現するのではなく、蓄積された情報を使って、未来あるいは過去の状況を生成することなのではないかと語った。
さらに、「目の前にあるものと直接インタラクションするだけではなく、内的モデルを使ってメンタルシミュレーションができると、意識を持つのではないか」と続けた。人工知能にもその能力があれば、より有用なものになり得る。これを金井氏は「反実仮想的情報生成」と呼んだ。
金井氏らは、「意識的経験とは、構造を持った情報だ」と仮定して意識の量を推定できる「統合情報理論」を用いて、研究を進めている。入出力の機能は同じだが、内部構造が全く異なるネットワークを例として示し、資源的な制約があること(=ニューロン数の制限)が、情報の統合を必要とし、それが意識的経験を生むのではないかと述べた。
ディープラーニングの今とこれから
NPO法人WBAI副代表で、東京大学大学院准教授の松尾豊氏は、「深層学習の以前・今・これから」として、深層学習の昨今の流れと、これからのトレンドを紹介した。ディープラーニングは、深層強化学習を経て、プランニングへというのが妥当な流れだと考えているという。
畳み込みニューラルネットワーク(CNN)を使った画像認識精度が上がっている。最近は「スキップコネクション」といわれるショートカットをネットワークに入れることで、勾配をうまく伝えられるようになるなど、CNNについては研究され尽くされつつあるという。
いっぽう、リカレントニューラルネットワーク(RNN)はどうか。
たとえば、Google翻訳がニューラルネットワーク方式になって大幅に性能が向上したことは、少なからぬ人たちに衝撃を与えた。松尾氏もこれには驚いたという。
やはり「RNNがすごいのではないか」と述べて、「RNNはチューリング完全で、モデル化能力が非常に高い。CNNにRNNを加えるのは最強のコンビ。CNNで高次特徴量を取り出して、RNNで動的モデルを作る」というかたちで、さまざまなものの処理が可能だとして、いくつかの例を示した。
たとえば、物理モデルなしでビリヤードの玉のような動きを予測できたり、ロボットが自分が何をしたらどうなるかといった、データセットからの未来予測が可能になると述べた。
RNNはLSTM(Long short-term memory)というかたちで拡張されているが、これは「汚い」ため、もう少しエレガントにしていきたいと多くの研究者が考えているという。
ポイントは、時系列の情報をどううまく溜め込んでいくかだ。
時間遅れで情報を蓄積すれば、モデルのキャパシティが非常に大きくなるため、いまはまだ発展途上のRNNが、CNNで行なわれているような最適化や、勾配の伝え方のような工夫が行なわれるようになれば、CNNとRNNの連携がさらに進み、もっと複雑なモデルを学習させられるはずと述べ、それを「進化型RNN (RNN+)」と呼んでいると紹介した。
たとえばロボットへの応用においては、ロボットが何かを操作したとき、何が動いて何が動かないのか、本来のゴールに関係ないサブゴールを設けたほうが、うまく学習するといったことがわかっているという。
また、シミュレータではうまくいっても、ロボット実機で動かすとうまくいかないことが少なくない。その解決法として、環境とエージェントが戦うようなことをさせるというアプローチが検討されているという。
たとえば、ロボットが歩行しようとしているときに、環境側は転ばせたり、横から押したりといった外乱を与えて、そうさせまいとする。その過程を通して進化させる。このほか、単眼カメラから深度を推定する技術の1つ、「CNN-SLAM」などを紹介した。
また深層強化学習の全体像についても、今はまだ非常に原始的だとし、これからは単なるセンサー情報だけではなく、アクチュエータを使った自分の行動と、それにともなう環境情報の変化を入れることで、シンボル学習が可能になるのではないかと述べた。
進化したRNNを使えば、時間方向のモデル化がより精緻になり、さらに深層強化学習を組み合わせることで、ロボットはちゃんと使えるものになると考えているという。
AGI とマーケティング
合同会社ハイロード・コンサルティング代表の坂井尚行氏は、AGIとビジネスについて、マーケティングへの適応を例として解説した。
いま、一般からのディープラーニングへの期待は過熱のピークにあるが、汎用AIは黎明期にある。汎用性を持った人工知能があれば、さまざまなことができそうだと誰もが思う。しかし現実感が持てない。
そこで坂井氏は、「マーケティングを例として考えるとどうなるか」と続けた。
マーケティングにおけるキーは、仮説生成と検証にある。AGIは、知識を組み合わせて仮説を生成できるものと想定されている。そこで、潜在的なニーズから製品企画を生成したりできるのではないかというわけだ。
坂井氏は、AGIのタスクはニーズの発見と実現性の評価、処理は知識の組み合わせによる仮説生成、そしてスジの良し悪しの判断はAGI、目的と評価は人間という役割分担になるのではないかとまとめた。