森山和道の「ヒトと機械の境界面」

ロボットがより器用で、存在感を持つ他者となり、役に立つために必要な技術とは

～ロボット学会セミナーより

森山和道

2017年8月11日 06:00

　社団法人日本ロボット学会による第107回ロボット工学セミナー「インタラクションにより人や環境に適応するロボット・AIの行動戦略」が東京大学にて開催された。

　人工知能・ロボットのブームにともなって、事前の作り込みやプログラミングでは対応不可能な不確かで変化する状況下で人や外界とインタラクションする技術が、さらに求められるようになっている。今回のセミナーでは全部で5つの講演が行なわれたが、こちらでは後半の3つのお話についてレポートしたい。

店舗で接客サービスするロボットの行動戦略

ATR知能ロボティクス研究所室長宮下敬宏氏

　株式会社国際電気通信基礎技術研究所(ATR)知能ロボティクス研究所室長で、社会実装プロジェクトのプロジェクトリーダーである宮下敬宏氏は「実世界の店舗で接客サービスするロボットの行動戦略」と題して講演を行ない、主に2012年から行なっていた「ユビキタスマーケット」というプロジェクトと、その発展について語った。センサーネットワークと連携する小型ロボットなどを使った顧客誘導、リコメンデーションプラットフォームである。

　宮下氏は「ロボットってなんでしょう。みなさんがイメージするロボットは?」という話から始めた。ロボットという言葉でイメージするものは人によって多種多様で、そのイメージをすりあわせてからでないと議論が噛み合わないことが少なくない。

　もちろんロボットの定義はある。一般的には、センサー、コントローラ、アクチュエータの3要素が入った知能化した機械システムのことである。家電の一部もロボットだ。だが一般的にはロボットというと、人型に近い形の何かをイメージする人が多い。宮下氏は「ロボットの形に意味があり、ロボットという言葉には不思議な力があると感じている」という。

　たとえばカメラで顔を認識したら、そちらを追跡するという、ただそれだけの機能のロボットであっても、人型に似せていると、何かを見ている感じを受ける。触りたくなる人も多い。ロボットから何かを言われると、嬉しくなって人のほうが動いてしまうこともある。宮下氏は、デイケアセンターでの受付ロボット実験の様子などを示した。

　人とロボットの関係は、単なる人と置物との関係ではなく、もう一歩進んだ存在であり、宮下氏らはロボットを「存在感メディア」と呼んでいる。ロボットは、「人を元気にしてくれるデバイス」であり、「人の気持ちに影響を与えやすいデバイス」だという。その上では形状は重要であり、積極的に利用すべきものとなる。

ロボットが人を見ているように感じる

ロボットは「存在感メディア」

　実環境、とくに子供たちに囲まれるような環境では音声認識はほとんど無理だ。無理な状況をどうやって解決するのか。たとえば名札のなかに無線タグを入れれば、誰がどちらにいるかはわかる。そうすれば名前を呼びかけることができる。名前を呼びかけられると子供にも、話をするためにはちょっと静かにしないといけないといったこともわかるようになり、コミュニケーションの事前準備ができるようになり、そこからようやく対話ができるようになる。音声認識技術を使えるようにするためにもステップが必要なのだ。

　環境側にセンサーをつけて人の動きを見ることもできる。ATRでは大阪にあるATC(アジア太平洋トレードセンター)で、センサーを使って人の動きを見て、さらに2分くらい先の動きまで予測するという実験を行なっている。モデル化することで、人がどういう行動をするのかがわかるようになる。お店に入る前から、顧客の候補になりそうな人がわかる。場所に埋め込まれた情報を活用できるようになれば、ロボットはさらに賢く振る舞うことができるようになる。

実環境では音声認識は難しい

無線タグと組み合わせるとインタラクションできるように

ショッピングモール(ATC)での実験

センサーデータを使えば人の行動予測もできるように

　スマートフォンのなかでバーチャルなキャラクターを使えば、より安価にジェスチャーコミュニケーションを活用できる。ロボット単体だけで頑張るのではなく、ネットワークを使うロボット技術を「ネットワークロボット技術」という。2004年から総務省の委託研究として開発が行なわれた。2009年からは「ユビキタスネットワークロボット技術」という名前になった。

　ロボットは「知能化された機械システム」だ。そのシステムの枠組みは、ネットワーク上で広がることができる。サービスアプリケーションと組み合わさることで、「ロボットは多くの元気を人々に与えていけるようになる」と宮下氏は語った。

3種類の「ロボット」の連携

ロボット単体の制約を超えて広がるネットワークロボット

　実際にはどんなことに使われているのか。宮下氏は小売業・サービス業の動向について触れた。ロボットの活用例はフロントヤード、バックヤードともに増えている。だが目新しさだけでは、だんだんウケなくなっていく。単にロボットを動かすだけではなく、どう使うか。とくにフロントヤードでは飽きさせない仕組みや現場での使いやすさが重要だ。

　たとえば特売のセールをやらせるのであれば、そのためのデータ更新や動きをどう使いやすくさせるかが重要になる。バックヤードではもともと業者ごとにカスタマイズされている業務を、どの程度自動化できるかがポイントとなる。

　ソフトバンクの「Pepper」は1万台以上が市場に出ているとされている。ヴイストンの「Sota」も、ユニファの園児見守りロボット「Meebo」、居酒屋くろきん神田店での飲みニケーションサービス、鶏ポタラーメンTHANKでの顔パスサービスなどで活用されている。最初の引き込みサービスとしてはロボットはいい。そこからどう活用するかがこれからの課題だ。

【動画】ユニファの園児見守りロボット「Meebo」。撮影した写真を販売するビジネスモデル

　小売業では2016年12月にシアトルでオープンしたAmazon Goが注目されている。最初にAmazonで登録しておけば、ゲートでログインするだけで、あとはレジで決済することなく、そのまま自動精算できてしまうという小売店サービスだ。現在は実験段階だ。

【動画】Amazon Go

　では存在感を持ったロボットはどのように接客で使われるのか。コンビニをネットワーク化しようとしたのが2009年度から2010年度まで行なった「ユビキタスマーケット」だ。

　いまの店舗にはPOSが入っている。顧客の購買行動を蓄積して活用することができる。実店舗でのサービスとWeb上のECサービスを融合させようというのが「ユビキタスマーケット」の考え方である。Web上で購買すると、リコメンドが行なわれる。それを実店舗で行なおうというものだ。

　プライバシーの問題があるのでカメラはできるだけ使わない。ある商品を買った顧客が店舗内のどういうところに興味を持って立ち止まったかといったデータをとって、それに基づいてほかの顧客にリコメンドを行なう。店舗内のコンサルティングができるし、店舗内外の顧客リコメンドができるという。

ユビキタスマーケット

実験概要

ECサイトが行なっていることを実店舗でも

　実験は、ダミー商品を置く仮想店舗を作って行なった。棚にはUHF帯タグリーダーをつけ、人の位置計測用にLRFなどをつけた。ロボットは「Robovie-mR2」を用いた。被験者数は120人。ロボットによるおすすめで、その商品の売り上げは倍になったという。

【動画】コミュニケーションロボット Robovie-mR2

　店舗のなかのサービスは売り上げ向上や陳列合理化ができる。店舗外でのサービスは、たとえば顧客が急いでいるかどうかといったことから顧客の誘導方針を変えるといったことが考えられる。店舗外のロボットが、急いでいる人が行くといったことを店舗内ロボットにネットワーク経由で伝えるわけだ。こちらの実験参加者は50名。店舗内では、先の実験の120人の購買データから400のルールを抽出し、実際にリコメンドした。一度ロボットと対話していると慣れもあるのか、親しみが沸いたりロボットとの会話を聞き取りやすくなるといった効果があったという。

　ほかにも滞在人数の推移や立ち止まった場所の相関などもセンサーネットワークからはわかる。いわゆる連携消費傾向、「これを買った人はこれも買っている」といったことが簡単にわかる。

仮想店舗を作って実験を実施

顧客行動のセンシング

計測機器の印象結果

ロボットによるリコメンドの結果

商品推薦の効果

ユーザー受容性調査の結果

　ATRでは、店舗での接客やデジタルサイネージとしてのロボット活用の研究も、総務省の「戦略的情報通信研究開発推進事業(SCOPE)」の枠組みで行なっていた。ロボット活用においては、人間ならば誰でもわかる社会常識の欠如と、ロボットの専門家しか扱えないといった問題がある。そこでその2つを「社会常識クラウド」、「見よう見まね技術」として作ることを狙った。ロボットに言わせたいことを、人間がしゃべるだけで言わせられるようになる。

　接客ロボットに期待されていることを現場でヒアリングすると、1)音声アナウンス、2)呼びかけ、3)チラシ・サンプルの配布の3つだという。そのために現場が困っているのは、現場ごとの調整なのだ。そこで技術的には、パラメータの一部を簡単に調整できるようにすることで現場の使い勝手をあげた。

　発話については、発話内容、身体の向き、立ち位置、繰り返し発話の感覚、発話タイミング、移動開始タイミングを学んで、そのとおりに実行することができる。入力にはスマートフォンを使う。

　人の位置計測は環境センサーに加えて、ロボット単体でも行なう。この仕組みによって、修正回数、教示時間ともに少なくなった。事業化は株式会社Mビジュアルがロボットサイネージとして検討中とのことだ。この技術はATCの「ロボットストリート」というイベントでも実装して集客・送り出しの効果を確認した。2017年5月当時のリリースはこちら。

デジタルサイネージにおけるロボットの課題

見よう見まねでロボットに動作を教えるシステムの構成

ロボットは単なる機械ではない「他者」になれるか

電気通信大学大学院情報理工学研究科長井隆行教授

　電気通信大学大学院情報理工学研究科の長井隆行教授は「他者であるという認識を生むロボットの行動戦略」と題して講演した。人がロボットを単なる機械ではなく、自分と同じような主体を持った他者と見なせるようにならないと、日常生活にロボットが入り込んで役に立つようにはならない。そのためにどのような技術が適用可能かという論点だ。

　長井氏はまず、AIとインタラクションの話から始めた。いま話題のディープラーニング(深層学習)は基本的には画像認識など識別に使われていることが多い。AIとロボットの活用を考えると、ロボットは物理的な世界で何かをしないといけない。とくに人の間で働くためには社会性も重要になる。「ロボットが他者として共存する世界を築いていきたい」と考えているという。

　社会のなかでの知能という文脈で話をするときには、まず知能とは何かという定義がいる。知能とは「よりよく生きるための仕組み」であり、いかに未来を予測するか、あるいは空間的にいま見えてない部分を予測するといった能力ではないかと長井氏は述べた。

　たとえば赤ちゃんが学習していく過程では母子のあいだに適応しあうようなインタラクションがあると考えられる。認知発達ロボティクスの枠組みで捉えると学習能力には、いわゆる教師なし学習と、教師あり学習の2種類があると考えられる。教師ありといっても実際には正解ラベルがないことも多いわけで、赤ちゃんは自分で受け取ったマルチモーダル情報を構造化する必要がある。

　知能や予測の文脈では「他者」はどう捉えられるのだろうか。対象が、単なる物理要素のみによって動かされている単なる環境なのか、自分と同じ様に内部から何かしらにドライブされているのかを識別すると、予測においては有利になる。だから生物は予測性を上げるために、環境を予測するためのものと、他者を予測するものにわけて捉えている可能性がある。

　目の前の対象が物理的な単なる環境なのか、他者なのかを自動的に、自然に分けてしまうようなモデルはどう考えればいいのか。たとえば、自分を動かしているようなモデルが内在しているものが他者なのだと仮定すれば、予測性があがるため、それを自然と他者と認識できるようなモデルがあれば、そういうことができるかもしれない。対象が他者であるならば、自分と同じように予測性を持ってふるまってくるだろうという予測が立ち、そこからインタラクションが始まる。

知能とは時空間的な予測を行なって生き残る能力

他者と単なる外的環境は自然に分かれるものだという

　1944年にHeiderらは単純な幾何学図形でも適切なシナリオを持って動かして示すと、まるで意図を持っているように人間は感じてしまうことを示した。動くものに対して人は、アニマシー(生物ではない対象に感じる生物らしさ)、エージェンシー(行為主体性)を自動的に感じてしまう。

【動画】丸、三角、四角の図形にも人は意図を感じる

　他者か環境かを識別するには、それがいかに早く反応するかが重要であることがわかっている。これを反応の時間的随伴性という。ロボットであれば高速応答することが重要だということだ。

　下位層の反射的な動きと、それを包摂する上位構造の組み合わせからなるサブサンプション・アーキテクチャのような枠組みで動くものが生き物っぽく見えるのは反応性の良さがあるからだ。ほかにも随伴性を実現するためにはいくつかのモデルが提案されているし、振る舞い自体をデザインしてしまうアプローチもある。

　ロボットと対面したときに、ロボットが単なるものなのか、他者なのか、それは空間的・時間的随伴性、つまり反応の速さで判断される。「他者なんだな」と認識されると、上位の「心の読み合い」のような意図推定が始まる。そうならないとコミュニケーションが始まらない。

随伴性を実現するためのアーキテクチャ

意図を読み合う関係からインタラクションが始まる

　子供とロボットのインタラクションにおける新奇性と親近性に関する研究の例がある。ロボットに対して飽きることは仕方ない。だが親近性を上げることができれば、ロボットと繰り返し遊んでもらったり、より深い関係を構築することができる。ロボットはどういう要件を満たせば、親近性を構築できるだろうか。随伴性、応答性だけでは不十分だ。

子供とロボットの関係

子供が飽きたあともインタラクションを続けるためには親近性が重要

　人の場合は子供の反応を見ながら、褒めたり、会話や遊びの内容を切り替えたりしながら子供の面倒を見る。長井教授らは、人間の保育士がどういう戦略で子供と遊んでいるかを調べて状態遷移図を描いた。それをロボットに実装できるような形にシンプルにして、カードゲームを行なうロボットとして実装した。行動もわざと間違えたり、速さやテンポを切り替えるといった形にしたという。

　人間の観測にはKinectを用いて、内部状態推定を行なった。そうしてなるべく子供の興味が高い状態を維持するように行動を切り替えていった。対照群は、ゲームの規則のみから行動を選択するようにした。なおシステムによる子供の内部状態推定の評価は保育士にやってもらった結果、ほぼ85%だったという。

「おもちゃ」ではなく「遊び相手」としてのロボットの可能性

保育士の行動の状態遷移図

ロボットに実装可能な形に単純化

子供の内部状態を笑顔や視線の動きから推定してステイトをコントロール

　結果はどうだったかというと、ロボットが子供の内部状態を推定して行動を切り替えるシステムのほうが好印象だったという。また今回の調査でロボットへの興味も増したという答えが増えた。

　子供が対象をどう見ているのかについての指標としては視線を用いた。ロボットを見ているのか、ゲームの盤面のみを見ているのかに着目することで、ロボットをインタラクション可能な「相手」として見ているのか、「ただのモノ」として判断しているのか推定することができるとした。

実験の様子

実験結果

　また、なかにはロボットが怖くて、動き出したら泣き出してしまい、そのまま帰ってしまう子供もいたという。インタラクションするには相手の性格も重要だ。保育士と遠隔操作ロボット(LiPRo)を使って実験すると、保育士は相手の子供の性格を見極めながら遊びを選択していることがわかった。

　保育士が操作するロボットであっても人見知りの子供の相手はなかなか難しかったという。ただし人見知りの性格の子供であっても、その3分の１くらいはうまく遊ぶことができた。それは保育士がうまく操作したことによる。では何が違ったのか。人見知りの子供相手にはマルバツゲームやかくれんぼのうような、ロボット側がリードできるような遊びをさせていた。そういう遊びを選択することで、まずは慣れさせることが重要だというわけだ。

【動画】実験に用いられた電通大・長井研究室の「LiPRo」

　限られた外部情報から子供の内部状態を推定することは可能だろうか。距離とアイコンタクトを使うことで、外向性は71%、協調性は60%程度で推定できる。また、物理的な接触、すなわち手をつなぐとロボットに対する恐怖心がやわらぎ、近づきやすくなる。チャイルド・ロボット・インタラクションでは基本的に反応の速さと、内部推定、物理的な接触などが重要なのだ。

遠隔操作ロボットで子供と遊ぶ実験

実験の様子。当時はハードウェアの制約なども多かった

ロボットにおいても物理的接触の効果は大きい

　では、それらは我々のなかのどのような内部モデルから出てきているのか。長井氏らは、ロボットが概念を獲得するための研究を行なっている。ロボットに名前を教えながらものを見せて、それを強化学習で行為と言葉を接地させる。

　そこに他者はどのように織り交ぜられて行くのか。実環境でのインタラクションを調べた研究は実はMITのデブ・ロイ(Deb Roy)らの研究を除けばあまりない。彼らは母子相互の行動を観察し、子供の言葉の獲得過程を調べた。子供に言葉を教えるときには、複雑な言葉からだんだん単純な言葉になり、一度相手が獲得したら、またもう一度複雑な言葉になるということが明らかになっている。

　ではロボットと人間の場合はどうか。長井氏らの研究では同じような結果が出たという。ロボットがどの程度わかってるかを人間側も考えながら教えることになるので、そのような形になるらしい。

【動画】デブ・ロイによるTEDでの講演

　そもそも理解とは何か。理解とは予測することであり、概念とは日々の活動のなかで得たマルチモーダル情報をカテゴライズしたものだ。そして過去の経験から得られた概念を通して我々は世界を見る。教師信号にラベルはないので、共起性から自分で学習する必要がある。

　長井教授らは確率モデルを用いて回想的な概念の形成や概念間の関係を構築させる仕組みについて研究を行なっている。ロボットは自分で作り出した概念空間で強化学習を繰り返すことで環境を理解(構造化)していく。センシングしている情報には自分自身のモーターやセンサーのような体性感覚的な情報などのほか、他者の情報も含まれている。それらを構造化する過程で、自然と自他が分離してくるのだという。

　また言語操作のような時系列情報を扱う仕組みは自分自身の行動計画にも関わっているのではないかという。どういう情報をモデルに入れて、如何に構造化するかがキーポイントだ。やがては人間の大脳新皮質や基底核などが実現しているだろうモデルを再現したいという。そして自他分類、さらには集団の一員としての「我々感」みたいなものがどうやって生まれてくるかをモデルで説明したい、と語った。

　プランニングして何かを実行してそれが失敗した場合、そのモデルを捨てて、新たなモデルを構築しなおして再トライするようなロボットも将来は実現できるのではないかという。

階層的な学習モデル

モデル全体の統合と実装から「我々感」のメカニズム解明へ

試行錯誤で手探りしながらモノを認識するロボット

奈良先端科学技術大学院大学情報科学研究科知能システム制御研究室准教授松原崇充氏

　奈良先端科学技術大学院大学情報科学研究科准教授の松原崇充氏は「試行錯誤により物体認識・操作・人の動作支援を獲得するロボットの行動戦略」と題して、ロボットが試行錯誤や探索しながら認識や行動戦略を作り出す仕組みの研究について紹介した。

　松原氏の研究室では人の衣服の着脱を手伝う着衣支援、オーストラリアのシドニー工科大との共同研究である移動支援のほか、移乗支援、触覚物体認識、柔軟物操作、外骨格支援などの研究を行なっている。ロボット単体ではなく、周囲の環境などとの相互作用を含む複雑なロボット制御課題の解決に取り組んでいる。

　不確実性に対処する鍵は「積極的なインタラクション」だという。たとえば金槌で釘を打つとき、頭で考えただけではタスクを達成できない。うまく釘を打つための方法は2つ。金槌を積極的に詳細に調べてモデルをきっちり作って不確実性を解消する。こちらは「能動探索」と呼ばれる。もう1つは、試行錯誤しながら経験データからスキルをブラッシュアップして獲得していく方法だ。こちらは「強化学習」の枠組みで捉えることができる。

　松原氏らの研究室では、能動探索は物体認識、物体形状推定に応用している、強化学習では柔軟物操作、外骨格運動支援などに応用している。これまでに得た情報を使って次にとるべき行動を計画・実行するのが能動探索だ。

不確実性に対処する「能動探索」と「強化学習」

能動探索による行動

　松原氏は触覚データから物体認識する研究を紹介した。要するに手探りで物体を認識するという方法だ。触覚は触り方によって得られるデータが変化する。押すと硬さが得られるし、表面を撫でると形状や質感を把握できる。目の前のものが何かであることを触覚から触るには、適切な触り方をする必要がある。

　具体的には、まず最初に物体の触覚特性に応じて作られた地図のようなもの(物体パラメーター空間)を事前に与えておく。そこに、事前知識を「初期信念の確率分布」として与える。その信念を絞り込むために有益であろうと思われる動作計画を立てて実行し、絞り込んでいく。

手触りから物体を認識する方法

触覚情報をもとに信念を更新することで触った物体を絞り込む

　最初に物体と行動の2つを入力、触覚センサーデータが出力となるような関数を考える。具体的には「ガウス過程回帰」という確率モデルを用いる。データがあるところとないところを予測分散という形で捉えることができ、どの辺の情報量が必要なのかという情報量にもとづく能動探索に使える点が利点で、たとえば、湯呑みの表面を1度触るだけでツルツルかザラザラかの区別が7割くらいの精度でできるロボットハンドができる。だいたい人間と同じくらいだという。なお触り方自体もシステム自体が決める。

物体・行動の2因子を入力とする触覚モデルを解く

実験システム。回転するテーブルとエアアクチュエータで動くロボットハンドからなる

　物体の形状を探るためにも能動探索アプローチは使える。表面を触ることで形状を推定する。できるだけ少ない回数で形状を推定するために能動探索アプローチを用いる。タッチしたことで形の不確実性を見積もる。そこから次のタッチへの最小経路を見積もる。つまり、情報量的に有益で、短い時間でタッチできるようなタッチ候補点を見積もって、そのための経路を算出する。物体の形状は、CGで用いられる陰関数曲面で表現する。形状の不確実性の表現にはガウス過程の性質を利用する。この手法で日用品の形状推定も可能だという。

ツルツル・ざらざらを区別できる

形状推定にも用いることができる

形状推定の手法

全体をさわりまくるのではなく最短タッチ経路を導出可能

　一方強化学習では、試行錯誤を投じて運動スキルを学習させることを目指している。なお、強化学習とは、制御したい環境を観測して方策を選んで実行し、その結果を再び観測して評価して、将来得られる報酬が最大になるような方策・行動を試行錯誤で学習していくというものだ。

　膨大なサンプルが得られるときには深層学習と強化学習を組み合わせることで、おもしろい成果が得られているのは多くの報道があるとおりだ。一方、少数サンプルからの強化学習というのもあって、こちらも発展してきていると松原氏は強調した。問題設定に制限を加えることで、汎用性は低いが少ないサンプル数で学習ができる。たとえば対象のダイナミクスをある程度教えておくことでサンプル数が少なくてすむという。

　少ないサンプル数での強化学習が難しい理由は、報酬を最大化するための期待値をサンプル値を使って近似するような手法は低次元のときにしか有効ではなく、次元が増加すると推定が困難になるからだ。ではどうすればこの困難を回避できるか。1つ目は探索範囲を絞ること。もう1つは積分の解析解を利用すること。

　探索範囲を絞るためには現在の方策との「近さ」を使って探索することが有用だと言われている。DPP(Dynamic Policy Programming)と呼ばれるアルゴリズムをうまく使うと少ないサンプル数でロボットがスキルを学習できるようになる。松原氏らはペットボトルのキャップを開けさせるというスキルをロボットハンドに学習させた。

ロボットハンドを使ってペットボトルのキャップを開けさせる

約100回の試行でキャップを開けられるようになったという

　松原氏らは、さらにこのアルゴリズムをベースに柔軟物操作にも挑んだ。ハンカチをひっくり返すというタスクだ。ハンカチの状態変数は無限次元になり計測も難しい。そこで生画像から適切にハンカチをひっくり返す作業を深層強化学習で行なわせる。新しい深層強化学習の方法として「Deep DPP」というDPPとCNNを組み合わせた手法を提案してやらせた。かぎられた行動の中から探索領域を絞り込むことでロボットをうまく行動学習させることができた。

布を操作するロボット

Deep DPP

「PILCO(Probabilistic Inference for Learning Control)」というガウス過程を使ったモデルベース強化学習も利用している。データ効率の良いことが利点で、近似的だが解析的に方策を評価する関数を得られることができる。この手法を使って、やわらかいひもを操作するタスクをロボットにやらせた。150回程度の試行を行なわせたロボットは身体上の制限から難しいような動きも学習できたという。

柔軟物操作の強化学習

1度腕を引いて操作するといった複雑な動きを学習した

　松原氏はATRの客員研究員として空気圧人工筋肉を用いた外骨格ロボットのアシスト戦略の学習の研究も行なっている。肘関節を支援するロボットだ。着用者がしたい運動をうまく支援するようなルールを強化学習エージェントに見つけさせるというもので、筋電位センサーの値を見て、人があまり自分の筋肉を使わずに動いている状態を報酬として動作する。人が着用するロボットなので膨大なサンプルを集めるのは難しい。そこで1分間のインタラクションデータだけからうまいアシスト値を見つけることができる。

　松原氏は「まだまだ課題は多いが従来よりも強化学習は進歩していて、工学的なツールとして使えるようになっている」と再度強調した。

空気圧人工筋を使った外骨格ロボット

学習結果