【後藤弘茂のWeekly海外ニュース】PLAYSTATIONもまた3DカメラのナチュラルUIへ向かう?

■後藤弘茂のWeekly海外ニュース■

PLAYSTATIONもまた3DカメラのナチュラルUIへ向かう?

●ナチュラルユーザーインターフェイスを9年前から謳うSCE

　PLAYSTATIONのゴールも、コントローラを使わないナチュラルなインターフェイスにある。Microsoftの「Project Natal(プロジェクトナタル)」に先を越された感があるが、ソニー・コンピュータエンタテインメント(SCE)は、以前からそうしたインターフェイスの研究を発表して来た。具体的には、PLAYSTATION 2(PS2)を世に送り出した直後の2000年頃から、ナチュラルユーザーインターフェイスの必要性と研究を強く語り始めている。

　例えば、下は2001年のゲーム開発者向けカンファレンス「GDC(Game Developers Conference) 2001」での、SCEA(Sony Computer Entertainment America)のR&D部門のプレゼンテーションだ。この時期に、すでにSCEは、明瞭にビデオプロセッシングを、コントローラに代わるコンピュータの入力にするとしている。また、ライブビデオと3Dグラフィックスを組み合わせることで、拡張現実的な使い方も示している。技術的なバックグラウンドとして3Dオブジェクトトラッキングを挙げている(ただし、この時点では3Dカメラではない)。

2001年のGDCでのプレゼンテーション

　また、同じセッションでSCEはより広い層に(ゲーム機を)届けるには、よりシンプルなインターフェイスが必要だと説明している。ゲーム機の一層の浸透には、ユーザーインターフェイスの改革が必要で、その究極の解はモーションキャプチャにあるというビューを、SCEAのR&D部門がこの時点から持っていたことがわかる。ただし、任天堂がそこに注力したのに対して、SCEはその部分に注力しなかった。

2001年のGDCでのプレゼンテーション

　もう少し大きなビューでは下のスライドのようになる。これは、PS2を出した時点で、次の世代に向けて何を研究しているかを示したスライドだ。

　このスライドで気がつくのは、ここに挙げた要素のうち、HD出力や高度なグラフィックス、物理シミュレーションといった要素は実現したのに、最後の新ユーザーインターフェイスパラダイムだけがいっこうに実現されていないことだ。EyeToy/PLAYSTATION Eyeはあるものの、PLAYSTATIONのデフォルトのインターフェイスではない。つまり、SCEのR&Dディビジョンは、PS3世代でマシンスペックを上げるだけでなく、ユーザーインターフェイスも改革するつもりがあったのに果たせなかったと考えられる。手が回らなかったのかもしれないが、SCEが注力したポイントとしなかったポイントが、このリストから明瞭になる。

次世代ゲーム機への研究

●2004年にPLAYSTATION 2を使った3Dセンサーのデモを公開

　では、SCEのR&D部門が描いている、ユーザーインターフェイスの改革はどのようなものだろう。これについては、過去9年間に渡って、SCEのR&Dが説明を続けている。明瞭に示した説明の1つが、2004年のゲーム開発者カンファレンス「GDC 2004」での「PS9」と題したセッションだ。このセッションに登場したRichard Marks氏(Director of R&D, SCEA)はEyeToyの産みの親として知られている。

　Marks氏は、じつはこのGDCの直前の、2004年1月にスタンフォード大学の公開講義EE380で「EyeToy: A New Interface for Interactive Entertainment」と題した講演を行なっている。この講演の前半はEyeToyに関するものだが、講演の最後の15分が、3Dセンサー技術のデモと説明になっている。内容はPS9セッションでのものと重なるが、より詳しい。講演のビデオはWebで公開されている。

　SCEのビジョンは、この2つのセッションや、GDCやSIGGRAPHで行なってきたプレゼンテーションを見るとよくわかる。それは、MicrosoftのProject Natalに非常によく似ている。Microsoftがマネをしたのかと勘ぐりたくなるくらい、そっくりだ。しかし、それは同じ技術を使い、同じ方向性でビジョンを描いた結果の収斂進化であると考えられる。

●今年のE3でのモーションコントローラは2001年頃からの積み重ね

　SCEのビジョンは下の2004年のスライドに集約される。

　これまで、ゲーム機の入力はコントローラだけだった。ゲーム機の側から見れば、コンピュータは暗闇無音の世界にいて、時折入って来るコントローラからの単純な入力だけに応えていたことになる。しかし、将来は、カメラやマイクなどさまざまなセンサーからの入力を得ることができるようになり、その結果、全てに対する答え(42)を出力することが可能になる。

＊注『銀河ヒッチハイクガイド』での究極の答えが42

SCEのビジョン

　SCEのこうしたビジョンの中でEyeToyは最初のステップだ。SCEのMarks氏は、EyeToyの時に、カメラがゲーム機の基本的な入力の1つになるだろうと説明していた。興味深いのは、SCEのユーザーインターフェイスの拡張が、Marks氏が属するSCEAのR&D部門の研究の歴史に沿って実現して行くことだ。

　SCEは1カ月前のE3で、Marks氏によるPS3のモーションコントローラ「PLAYSTATION Motion Controller」の発表とデモを行なった。このプロジェクトには、SCEが2000～2004年頃まで盛んに学会等で発表していたユーザーインターフェイス技術(カメラによるトラッキングなど)が一部反映されている(ただし、当時はコントローラ側にセンサーを入れるアプローチには触れていない)。当時SCEのCTOだった岡本伸一氏が2002年のGDCでキーノートスピーチを行なった時も、ユーザーインターフェイスの改革のデモを行なっている。


岡本氏のスピーチ

　こうして見ると、SCEではカンファレンスなどで発表していた研究が、何年かすると実際の製品に反映されることがわかる。R&D部門が注力していた技術が、改良を加えられて、やがて開花する。今回の場合は、当初は2Dカメラによるトラッキング技術だけで、コントローラの改革を実現しようとしようとしていたのが、2Dカメラ(PLAYSTATION Eye)と、モーションセンサー内蔵のコントローラの組み合わせに変わっている。2Dカメラだけでは、精度などに限界があったためだろう。

　こうした流れがあるため、SCEのユーザーインターフェイス改革の次のフェイズも予測することができる。2004年以降にSCEの研究部門が注力していた方向が、次にPLAYSTATIONにやって来ることになる。

　SCEAのR&Dは、2003年の後半から2004年前半にかけて、コントローラを使わないモーションキャプチャ技術に注力し始めた。当時の講演では、Marks氏は次のように語っている。

　「我々はリアルタイムのモーションキャプチャにフォーカスしつつある。これは、我々にとって次の大きな研究分野となる」

　つまり、MicrosoftのProject Natalと似たような、ユーザーのモーションのキャプチャが、SCEの2004年頃からの研究ターゲットになっていた。しかし、2Dカメラでのリアルタイムのモーションキャプチャには壁がある。SCEが下のスライドに示した通りで、そのために3Dセンサー技術が重要になりつつあった。

2Dカメラでのモーションキャプチャの壁

●3Dセンサーを使ったモーションキャプチャに注目

　SCEは、早い段階から3Dセンサーを使った3Dモーションキャプチャに注目してきた。そして、技術的な説明も、2004年当時から行なっている。

　下は、GDC 2004でのPS9講演で見せたデモの映像の写真だ。画面の左がRGBカメラで捕らえた通常のカラー映像、右が深度センサーで捕らえた3D映像だ。白い服を着た白人が白い壁の前に立っていると、RGBの映像ではわかりにくい。しかし、深度センサーでは人間がくっきりと白く浮かび上がっている。深度を測るZカメラに近づくにつれて、右の白い影が明るくなって来る。


GDC 2004でのデモ映像

　「このカメラではRGBに加えて、3Dデータをピクセル単位で捕らえることができる。ちょうど、3DグラフィックスのZバッファのようなものだ。ビデオのZバッファと考えてもいい。Zバッファと同じように(映像を)マスクすることもできる」(Marks氏)

　このデモでSCEが使っていたのは、MicrosoftのNatalセンサーと同じ、深度(Depth)センサーを組み合わせたカメラだった。「Time of Flight(TOF:飛行時間)」という手法を使った赤外線光の3Dセンサーだと説明された。センサーデバイスから光のパルスを投射し、その反射光を測定することで、物体までの距離を測る。センサーに近い物体が明るく、遠い物体が暗く映るため、カメラに近づくと浮かび上がる。

　次の写真は、両手を突き出した映像だ。深度センサーのダイナミックレンジを絞ることで、手の位置にフォーカスすることができる。この場合もRGBでは手がややわかりにくいが、深度センサーでは前に差しだした手がくっきりと浮かび上がる。これを見ると、3Dカメラによって、手を使ったジェスチャでのコマンド入力が容易になることがよくわかる。

両手を深度センサーによって検出する

光を使ったTOF方式の深度センサー

　「このように、3Dカメラのビデオでは、リアルタイムのモーションキャプチャを容易に行なうことができる」とSCEは説明する。

　下は、3Dセンサー技術を使った簡単なゲームデモだ。コンピュータがユーザーの手や身体の位置を認識することで、コントローラを使わないインタラクティブなインターフェイスが可能となる。デモはPS2ベースだが、PS2がユーザーのモーションを捕らえて、ゲーム内のキャラクタを動かしていることがわかる。奥にある3Dブロックをボールで崩す、サンドバックを叩く、飛んでくるボールを避けるといったデモだ。


3Dセンサーを使ったゲームデモ

　MicrosoftのProject Natalのデモを見た人は、ここで苦笑するかもしれない。というのは、Project Natalでも、飛んでくる3Dのボールを跳ね返して奥のブロックを崩すデモが行なわれたからだ。Project Natalのブロック崩しのデモは、5年前にSCEが見せたデモの見栄えをよくしたバージョンに近い。

Project Natalのデモ

●現実世界と仮想世界を融合させる拡張現実の試み

　SCEの次のデモは、3Dカメラで取り込んだユーザーの映像に、コンピュータで生成した3Dグラフィックスを組み合わせて、インタラクティブに“触れる”ことができるようにした例だ。ユーザーの回りを囲むように蝶が飛んでいる。取り込んだ映像には、深度(Z)情報があるため、3DグラフィックスでのZバッファと組み合わせて、容易に2つのデータを統合できる。デモでは、ちゃんとユーザーの画像の向こうにも蝶が回り込んでいた。この後には、蝶を手や頭にとまらせるデモも行なった。正確な深度データがないと難しい。

3Dグラフィックスとの融合デモ

　「3Dカメラでもう1つ面白いことは、物理世界つまり現実世界と仮想世界を直接的な方法で交わらせることができることだ」とSCEは説明していた。

　また、SCEはユーザーを含んだ現実世界の映像に、仮想現実を融合させた「拡張現実(Enhanced Reality)」の研究も、いくつか披露していた。今の用語では「AR(Augmented Reality)」となる。下のスライドがそれだ。

　ARでインタラクトする「Misho(ミショウ)」という仮想キャラクタや仮想ペットが紹介されている。Microsoftも、Project Natalでの仮想キャラクタ「Milo(マイロ)」(こちらはAR的ではない)を発表している。仮想キャラクタの名前がみな「M」で始まるのはなぜかはわからない。バーチャルペットは先月のE3でもデモが行なわれ、SCEはAR的なアプローチをゲーム機に積極的に取り込んで行く方向を明らかにしている。ここでも、研究から製品への継承性が確認できる。

SCEの拡張現実の研究

●3Dカメラは全てを変えると見ているSCEAのR&D部門

　こうして流れを見ると、SCEが当時からかなり真剣に3Dカメラ技術を含む、映像による入力に取り組んでいたことがわかる。そして、その方向性は、Project Natalと非常に似通っている。例えば、Marks氏は、映画「マイノリティ・リポート」のようなことができると語っている。MicrosoftもProject Natalのデモで、マイノリティリポートばりにジェスチャでメニューを扱うデモを見せた。

　実際には方向性だけではなく、背景の技術も似通っている。Marks氏は3Dカメラのデモの際に、3Dカメラがイスラエルの企業の作ったもので、Time of Flight技術を使っていると説明していた。該当するのは、Microsoftが手に入れた3DV Systemsの技術だ。つまり、この時のSCEのデモと、MicrosoftのProject Natalは、類似の技術をベースにしている。

　Microsoftに技術を抑えられてしまったら、どうなるのか?　今のところ、低コスト化が可能な3Dセンサーを提供している企業はほかにもある。CanestaやPrime Senseなどだ。そのため、SCEがこうした企業と組むことは可能だ。

　SCEは、GDC 2004でのデモの最後を「3Dカメラは全てを変えるだろう」と締めくくった。SCEの研究部隊も、3Dセンサー技術に多大な期待を寄せていたことがよくわかる。ではなぜ、SCEはMicrosoftにアナウンスで先を越されたのだろう。

　まず、明瞭なポイントとなるのは、3Dカメラのコストだ。3Dカメラを数十ドルで提供できるメドが立たないと、SCEとしては踏み切れないと推測される。「PLAYSTATIONの設計フィロソフィは、常に、多くの(コンピューティング)パワーを中央のプロセッサに詰め込んで、周辺は安価にすることにある」とMarks氏は当時語っていた。Microsoftはコストダウンのメドがついたと見られる。その差は何だったのかが、気になるところだ。

　また、精度も問題だ。ユーザーがストレスなく操作できるだけのレベルに到達したと見極めがつかないと導入は難しい。使いにくければ、新インターフェイスが浸透せずに終わってしまう可能性もある。その点では、Microsoftの判断も、正しかったかどうかは、まだわからない。

　Microsoftが一足飛びに3Dセンサーベースのモーションキャプチャ型インターフェイスに飛びつく一方、SCEは堅実にモーションセンサ内蔵のコントローラと2Dカメラの組み合わせに止めた。この判断がどう影響するのかは、まだ見えない。しかし、Microsoftがナチュラルユーザーインターフェイスに向けて走り始めたことを、SCEも無視はできないだろう。