【森山和道の「ヒトと機械の境界面」】YouTubeのアクセス解析からヒューマノイド・ロボット・コンテンツの可能性を探る

■森山和道の「ヒトと機械の境界面」■

YouTubeのアクセス解析からヒューマノイド・ロボット・コンテンツの可能性を探る

　産総研が開発している「サイバネティック・ヒューマンHRP-4C」。「未夢(ミーム)」という愛称も付けられている女性型のヒューマノイド・ロボットである。最近は「CEATEC JAPAN 2010」で歌を歌い、「デジタルコンテンツEXPO2010」では人間のダンサーと一緒にダンスを踊った。

　「HRP-4C」は人間とインタラクションする研究を用途としたヒューマノイドだ。筆者はインターフェイス技術やロボット制御技術などを、これまで別個のものとして取材してきたが、それらが年々、徐々にロボットのボディをプラットフォームとして1つに集まってきていることを実感している。今年(2010年)10月に一般公開された2つのイベントでのデモは、その流れがますます加速していると感じた。いわゆる次世代ロボット、サービスロボットの現状もっとも成功しているアプリケーションは「客寄せ」なので、ロボット側がインタラクション技術を引き寄せるのは当然なのだが、インタラクション技術側でもロボットに寄っていく流れが感じられる。

　今回の「HRP-4C」による歌とダンスの2つのデモについては、既に各媒体でも報道されているとおりである。今回筆者が「HRP-4C」が踊る動画をYouTubeのチャンネルにアップロードしてみたところ、のべ再生回数が10日足らずで100万回を超えた。そのアクセス解析結果も踏まえて、この新しいコンテンツの可能性について思いをめぐらせてみたい。

●VocaListenerで歌真似、そして顔真似もしたHRP-4C。歌声認知に与える影響は未知数

HRP-4C。胸と肩に新たに「VocaListener」のロゴが入っている

　「HRP-4C」は、まずCEATECでは歌を歌った。昨年のCEATECでの歌うデモとは違うところは、ヤマハとの共同デモではなく、産総研単独のデモとして行なわれたこと、そして以前から歌声の合成の研究を行なっている産総研の情報技術研究部門メディアインタラクション研究グループの研究員の中野倫靖氏らによる「VocaListener」を使用したところである。VocaListenerは歌詞と歌唱音声を与えると、そこから歌声の高さと大きさを真似た歌声を、VOCALOIDなど市販の歌声合成ソフトを使って合成することのできるソフトウェアである。歌声パラメータを自動推定してくれるので職人芸と根気なしで歌真似させることができる点を売りとしており、「ぼかりす」という愛称で呼ばれている。

　表情の動作パターンは顔画像から表情を取り込んでロボットに与える制御コマンドを推定できる新規技術「VocaWatcher」を使った。これによって表情と歌唱が正確にシンクロするようになった。さらにブレスを検出して、ロボットには必要ない「息継ぎ音」を合成するシステムも開発して、歌う演技を行なわせた。取材に対して産総研メディアインタラクション研究グループの研究グループ長の後藤真孝氏は、「首から上は人間に見えることがある」と胸を張った。その様子は、筆者が撮影した動画をYouTube上にアップロードしているのでご覧頂きたい。できればデモ動画後に中野氏による解説動画も見て頂ければさらに幸いである。

【動画】CEATEC 歌う産総研「HRP-4C」

【動画】CEATEC 歌う産総研「HRP-4C」デモ内容の解説

　研究の今後については、後藤氏は「まだロボットの完成度について要望がいろいろある」と語る。例えば今は眼球の輻輳の制御ができない。唇を横に動かすことができないため、口をすぼめる動きもできない。期待することがまだできていないという。ロボットも数学の世界を制御技術を通して力学の働く現実世界に落としているわけだが、パラメータをさまざまな手法で自由自在にいじることができる歌声合成の世界に比べると、実物であるロボットの世界はまだこんなことができてないのかと不満を感じることがあるそうだ。それにどこまで応えることができるかはロボット技術者のこれからの課題である。ちなみに実際の顔の動作制御を担当した産総研知能システム研究部門ヒューマノイド研究グループの梶田秀司氏は後藤氏の要望に苦笑いしていた。

CEATEC産総研ブースでのHRP-4Cのステージ

　今回の「HRP-4C」のデモは、昨年のCEATECのデモよりもレベルは上がっていた。ネットで動画を見るだけでは違いはあまり分からない。だが、歌っているロボットの顔をできるだけ近くで、ほぼロボットと同じ目線の高さで見ていると両者の違いは確かに感じられた。

　ただ、人間により近い動きをするようになったために、逆に細かいことがさらに気になるようになってきた。例えばデモを見ているお客さんとの間の取り方である。人間であれば、お客さんが近ければそれなりに視線を合わせて、音量もある程度おさえて喋る。いっぽう、大人数を前にしたときは視線どころか口調まで変わるものだ。人間は対人距離によって目線の向きや音量を自然に調節するのである。ロボットのデモはまだその辺にほとんど配慮がなされていない。

　特に今回の「HRP-4C」のデモのようなケースの場合は、なまじっかエンターテイメントのステージに近くなってきたために、単なる「歌声合成とロボットのデモ」ではなく「ステージ」としての完成度が欲しいと思えるようになってくる。仮に、まったく同じ事をやるにしても見せ方次第でもっと魅力的に見せることができるのにもったいないなとじれったさを感じるようになった。

　一番気になったのは照明である。照明が綺麗にあたっていないために、肉眼では、せっかくの売りである目線がきちんと見えない。TV等では女性出演者には下からライトをあてて肌を白く飛ばし、より綺麗に見せる演出を行なう。いわゆる「女優ライト」である。そういうものが必要なのだろう。ただし「HRP-4C」の肌はシリコンであり、人間の肌とは透明度や質感が異なる。よってそのまま同じ事をしても綺麗には見えないだろう。だから「HRP-4C」のステージの完成度を上げようとした場合、ロボット専用のライティングを新たに編み出す必要があるのかもしれない。

　もう1つは音響だ。今回のCEATECのブースという条件では望むほうが無理なのだが、せめてもう少し良い条件で歌わせることが、よりリアルを求めるのであれば必要ではないだろうか。今回のCEATECでのデモでは「ぼかうお」によってより完璧にリップシンクしているはずなのだが、近距離で見ているにも関わらず、スピーカーの音量が大きすぎたのか(そうでないと隣のブースの音楽に負けてしまうので仕方なのだが)、いわゆる「腹話術効果」のような、つまり音が口から出ているような錯覚は起きなかった。

　そう、つまるところは錯覚なのだ。人間の知覚は、もともと錯覚の集合体のようなものだ。ロボットに歌を歌わせるというタスクの完成度は、つまるところ見ている人間側にいかにそれをリアルだと錯覚させるかに尽きる。実体を持ったロボットは、その錯覚を起こさせるための触媒のようなものだ。

　例えばスピーカーのみから音声出力しているときと、ロボットを使って顔の動きと同時に出力しているときとの間で、受け手である人間の感じ方がどのように異なるのか、あるいは同じなのか。これは大変気になるポイントだ。もし実物での頭部・表情の動きつきのほうがよりリアルだと主観的に感じられる、あるいは客観的指標でも示すことができるのであれば、それは大変面白いと思うし、人型ロボットを使う意味も出てくるだろう。逆に単にスピーカーから再生しているときと、人型ロボットを使ったときとの間に、別に差がないのであれば、ロボットを使う意味はない。あるいはロボットの動きに対して何をどのようなタイミングで足し引きすれば、よりリアルに感じられるのかが分かれば、人間の歌声認知の仕組みにも、より深いレベルで踏み込めるかもしれない。

　いや、今はまだ、「よりリアルに」、「人間に近く」という視点が主流だと思うが、そろそろ、異なる評価軸も必要なのかもしれない。ロボットなりの歌唱であっても、感動が呼べるのであれば、それは十分エンターテイメント足り得る。歌声合成そのものに関しても、そもそも現状の歌声合成では人間の声に遠く及ばないとか、せっかく人間の肉体の持つ制約がないのだからもっと自由に合成すればいいじゃないかとか、思うところは色々ある。それはまた別の機会にとっておきたい。


「VocaWatcher」の仕組み。	なお髪型も今回のためにちょっと変えたとのこと	次はもう少し良い条件で聞いてみたい

●人はロボット・ダンスの振り付けのどこに惹き付けられたのか? 再生回数100万回から見た結果

「HRP-4C」とダンサー、振り付けのSAM氏

　その「HRP-4C」だが、さらに続けて「デジタルコンテンツEXPO2010」のなかで、人間のダンサーたちと一緒にダンスを踊った。ダンサーのSAM氏が振り付けとステージのプロデュースを行ない、エイベックスの協力を得て「Every Little Thing」の「出会った頃のように」を歌った。歌はヤマハによる歌声合成ソフトウェア「Vocaloid」と歌声自動推定技術「Netぼかりす」を用いEvery Little Thingのボーカル・持田香織さんの声真似を行ない、ロボットに対する振り付けは今回新規に産総研が開発した統合ソフトウェア「Choreonoid(コレオノイド)」を用いて行なった。なおこちらにはCEATECで用いられた「VocaWatcher」は使われていない。間に合わなかったとのことだ。

　こちらも日本科学未来館での無料一般公開されたイベント中でのお披露目だったので、実際に見た方もいらっしゃるかと思う。「HRP-4C」は軽量化のためモーター出力が低く抑えられており、関節の速度が足らない。また、鎖骨にあたる関節がないため肩が前後に動かない。そのため十分に腕が伸ばしきれていなかったり、きびきびした動きはなかなか難しい。だが全体の動きはスムーズだった。

　筆者も実際に見に行き、ダンスの様子を動画で撮影して、動画共有サイトのYouTubeにアップロードした。その動画は世界中で閲覧して頂き、アップロード後10日足らずで、延べ再生回数が100万回を突破した。現状では、これはあくまで等身大のロボットのデモであるということを考慮しなければ、それほどでもない動きのロボットと一緒に人間のダンサーが踊ってあげているといった感じはあるものの、少なくとも、ある程度見てもらえる程度の魅力はあったということだろう。

【動画】HRP-4Cの踊りのデモ

　このデモを行なうこと、動作生成ソフトウェアの開発は、昨年の「DC EXPO」の中で既に告知されていた。また、研究の方向性についても「Robot Watch」内で座談会形式にて伺っていたため、かなり期待していた(座談会記事前編、後編を参照されたい)。率直に言って、初見のときは期待しすぎていたためかそれほどの驚きは受けなかった。特に足運びがソニーがかつて(いまや5年以上前だ)開発していたロボット「QRIO」がパラパラを踊っていた頃とあまり変わらなかったことにもがっかりした。まさに人間のダンサーのような、積極的に身体各部の慣性や不安定さを利用したような動きが見られるのではないかと期待しすぎていたのである。それは期待しすぎだったのだが、自分で撮った動画を何度も繰り返し見ているうちに、これはやっぱりすごいなと思うようになった。

　さて、ではみんなはこの振り付けのどこに注目したのだろうか。YouTubeに自分で動画をアップロードしている人ならば御存知だろうが、YouTubeには「インサイト」という簡易解析機能がある。動画に対するアクセス数、世界各国のどこからアクセスが多いのか、動画視聴者の男女比などが分かる。そのなかに「ホットスポット」という機能がある。これはYouTubeでの説明によれば、

　同程度の長さの動画と比較した、あなたの動画のシーンごとの視聴者数の傾向。グラフの値が高い場合、動画への注目度が高いことを示しています。途中で再生を止める視聴者が少なく、多くの人がこの動画を繰り返し見ています。視聴者の注目度は、動画が視聴者の注目をどの程度維持できたかを示しています。

　というものだ。具体的には、ビデオと並べて、横軸に時間、縦軸に注目度をとったグラフの形で、視聴者による関心の度合いが示される。YouTubeの公式ブログの解説によれば、自分がアップした動画と、同じくらいの長さの他の動画とを比較して、視聴中断による動画からの離脱率、巻き戻しや早送りなどのデータを見ることで、アップロードした動画のどこに注目が集まっているのか、どこが繰り返し視聴されているのかが分かるという。具体的にどのような解析手法を用いているのかは分からないのだが、とりあえずこの解析結果を信頼して話を進めよう。

　今回の「HRP-4C」によるステージは、人間のダンサーと等身大のロボットが一緒に踊って1つのステージとしたもので、動画全体の長さは3分24秒である。絵かぶせなどの動画編集はしていない。ズームやパンもあまりしておらず、主にロングショットでロボットの全身を撮影している。よって、この動画のホットスポットを見れば、ロボットのダンスそのもののどこに注目が集まったのか、ある程度は分かるのではないか。そう考えた。

　まず、これが「HRP-4C」がダンスしている動画の「ホットスポット」グラフである。

前半と後半にそれぞれ注目度の山がある

　3分半とネット動画にしてはやや長いせいか途中で視聴をやめている人が残念ながら半分近くいること、そして前半と後半に2つの山があることが分かる。前半の山以降、一様に下がって上がっているわけではなく、真ん中あたりでも少し盛り上がっている部分があるように見える。つまり最初、「おおっ」と盛り上がったものの、その注目度は急激に下がり、その後、歌に合わせて後半徐々に盛り上がり、再びピークに達したあと、徐々に低下している、というわけだ。先にも述べたようにYouTubeがどういう解析手法を用いているのか、どういう形式でグラフの線を描いているのか知らないので何とも言えないのだが、いかなる手法を使っているにせよ、なにせ再生回数100万回のデータを元にしているのであれば、それなりに有意な結果だと思っていいのではなかろうか。

　さて問題は、それぞれどこで注目され、飽きられたかである。まず、2つの山の振り付けがなんなのかが気になる。前半の山、後半の山それぞれを見てみた。すると大変興味深いことに、どちらも同じ振り付け部分であることが分かった。

2つの盛り上がりはどちらも同じ振り付け部分だった

　具体的には腕を伸ばして右側を見るという振り付けで、人間とロボットが同じ振り付けでシンクロしている部分である。決して激しい動きではない。だが、「HRP-4C」が人型の頭部と表情を持っていることもあり、伸ばしていく手先に自然に目線が誘導されてしまうような動きである。なぜこれが盛り上がりのピークなのか。取りあえず切れる部分であることも確かだが、それだけが理由なのかどうかは分からない。ともかく、YouTubeの解析を信頼するのであれば、前半、後半それぞれ同じ振り付けの部分で盛り上がっていることになる。これは面白い。

　では逆に、一番盛り下がっている部分はどこか、そしてそれが盛り返している部分はどこか。それも見てみた。

ホットスポットによれば一番注目度が低い部分

上体と腰を大きく動かした上体での見事な片足バランス部分。ここでやや盛り返している

ダンサー4人がHRP-4Cの後ろに回って全体でシンクロする振り付け部分

続けてダンサーとHRP-4Cが順番に顔を左から右へ向けるアクション

後半の盛り上がりも同じく片足バランスの振り付けから始まっている

　こうして見ると、この手の盛り上がりのピークは歌のサビの盛り上がりとある程度シンクロしていることはもちろんだが、ロボット制御側や振り付け側が苦労したと思われる部分が意外と視聴者にはスルーされてしまっていることが良く分かる。ネットでビデオを見るのと実物を見るのとはまた違うが、デモの構成をどうするべきかはなかなか難しい問題である。

　なお、筆者はもう1つ別角度からの動画もアップロードしている。こちらの再生回数は数万回程度だが、これのインサイト、そしてホットスポットを見ると、こうなっている。

もう1つの角度からのカメラのホットスポット

　おそらくズームの仕方などが違うためだろう、カーブの描き方は違う。だが、前半と後半にそれぞれ山があること、前半の山のあと急激に下がってあとは上がっていっているところは同じだ。しかも山のピーク部分の振り付けは、やはり同じなのである。こうなるとやはり何か意味があると考えたほうが良いように思う。人型ロボットならではの特徴があるのかもしれない。

　筆者はダンスの専門家ではないため、この1つの動画の視聴傾向だけから何か述べることはできない。だがこれから知見が集められていくと何か面白いことが見えてくるのではないだろうか。人間だけのダンスと何が違うのか、あるいは同じ点はどこか。違う人型ロボットでデモを行なったらどうなるか。たとえば人間のような頭部を持たない「HRP-4」を使った場合は違いがあるのかないのか。あるいは振り付けの専門家ならば語れる情報が既に潜んでいるのかもしれない。どうだろうか。ヒューマノイドによるダンス、あるいはエンターテイメント・デモそのものの可能性をより引き出せるようになればいいのだが。

こちらでは茶色のウィッグで登場。印象がだいぶ変わる

　一方、ロボットに関して言えることは明らかだ。人間並みに踊るためには、もっと関節速度が必要だし、自由度ももっともっと必要だ。せめて拍手くらいできるようにロボットの身体同士、あるいは他のダンサーなどとの接触を扱えるようにならないといけないし、最初に言ったように、自らの慣性を積極的に利用して足を滑らせるような動きも必要だ。ちょっとしたジャンプやスキップもできて欲しい。エンターテイメント1つとっても満足にこなすためには、あれやこれやと実際に必要な、要求仕様が続々と上がって来たのではないだろうか。

　振り付けをした統合ソフトウェア「Choreonoid」は、予定では今年度中に一般公開されることが決まっている。このソフトウェアが本当に一般の人でも使えるかどうかは分からない。たとえばキーポーズを人間が指定しなくてはならないので、ある程度の馴れは絶対に必要だろう。その点についてはSAM氏は2009年のトークショーでも懸念を示していた。

　それでも他にも多くのデモが作成されるようになればヒューマノイドを使ったコンテンツクリエイターも生まれるかもしれない。それも、日本限定ではないかもしれない。世界中で、クリエイターが生まれるかもしれないのだ。その時に「Choreonoid」や「HRP-4C」は、日本発のソフトウェア、ハードウェアであるという存在感をどれだけ出せるだろうか。そんな不安もちらりと脳裏をかすめる。

　今回、「HRP-4C」のデモを見て、原稿を書いていて、改めて、自分がなぜロボット、特にヒューマノイドに惹かれるのかが分かった気がする。ヒューマノイドを使ったデモは、実際に目の当たりにすると、話を聞いて想像していた以上のイマジネーションをかきたてられる。創造と想像、この2つの人間独自の能力の交差するところにヒューマノイドロボットは位置している。改めてそう感じた。