ニュース

日本マイクロソフト、Kinectなどを使ったナチュラルUIの研究事例を紹介

～手振りでポケットの中のスマホを操作

（2013/1/28 18:04）

Kinect

1月28日開催

　日本マイクロソフト株式会社は28日、「進化するマイクロソフトのUI」と題した記者説明会を開催し、ナチュラルユーザーインターフェイスに関する製品や研究事例を紹介した。

加治佐俊一氏

　説明に当たった同社業務執行役員最高技術責任者でマイクロソフトディベロップメント株式会社の代表取締役社長でもある加治佐俊一氏は、文字ベースのCUI(キャラクタユーザーインターフェイス)に始まったPCのユーザーインターフェイスは、Windowsの登場あたりを境に、画像ベースのGUI(グラフィカルクユーザーインターフェイス)へと進化し、現在ではNUI(ナチュラルユーザーインターフェイス)を取り入れた製品も登場し始めていると説明。

　その実例として同氏は、医師が手術中に機器に手を触れず、ジェスチャーだけでスキャン画像を操作可能なシステムや、障碍者の顔の一部の動きを検出して本のページをめくるソフト、商業施設などで人を検出し、その出入りを自動計測するシステムなどにおいて、「Kinect」を利用した製品が実用化されていることを紹介した。また、東京大学や早稲田大学など一部の大学や高校においては、Kinectに関する講義も行なわれているという。

　現在のUIは、Windows登場当時よりは遙かに進化し、人の言葉(音声)や、手書き文字を認識し、操作出来るものもある。しかし、加治佐氏は、同社の考える真のNUIとは、ユーザーの環境を認識し、それに対するインタラクションを返すものだと説明する。例えばNUIは、ただ音声を認識するだけではなく、それに対してコンピュータが会話を返すといった、よりリッチな表現が可能なものを目指しているという。

株式会社ニチイ学館の非接触型画像操作システム「Opect」。東京女子医科大学先端生命医科研究所が開発。脳外科手術や歯科口腔外科で、執刀医が無菌状態と集中力を保ったまま患者情報を必要な時に表示させ、手術時間の短縮につなげる

東京大学先端科学技術研究センターと日本マイクロソフトによる障碍者活動支援ソリューション「OAK」。脳性麻痺や脊髄性筋萎縮症などにより、重度の障碍がある人の口の開閉や、手の動きなどをKinectで検出し、意思表示や活動を支援するソリューション

株式会社メディカ出版と九州大学大学院芸術工学研究院、長尾病院が開発した介護施設向けTVゲーム「リハビリウム起立くん」。リハビリ用に椅子への着席と起立を繰り返すといったリハビリを、ゲーム感覚で行なうことが出来る

株式会社リゾームによる、Kinectを応用した人流計測システム「Hello Counter」。商業施設などの入退店や、通路左右の通過人数などを計測出来る。

　Microsoftの研究機関であるMicrosoft Researchでは、そういったNUIの研究開発にも取り組んでいるが、加治佐氏は、そのいくつかの研究事例を紹介した。

Digits

　1つは「Digits」と呼ばれる、手首に装着するセンサーを利用した、ジェスチャー認識デバイス。この腕時計大の装置には、赤外線センサーが内蔵されており、これで指の動きを認識し、無線でデータ送信することで、ジェスチャーによる操作を行なうことが出来る。

　ジェスチャーの認識は、カメラを搭載したPCやスマートフォンでも可能だが、Digitsはセンサー部が端末本体から切り離されているところにポイントがある。応用例は広いが、おもしろいアイディアとしては、ポケットや鞄にしまったスマートフォンからヘッドセット経由でラジオを聴いてる時に、スマートフォンに一切触れることなく、ジェスチャーでチャンネルを切り替えたり、ボリュームを変更したり出来るほか、視聴中に電話の着信があった際に、親指を立てる仕草をすると、通話モードに切り替えるといったことも想定されていた。音楽を聴く際にも便利な機能だろう。

【動画】Digitsによる画面操作のデモ

【動画】Digitsでポケットの中のスマートフォンを操作するデモ。手の映像は、Digitsによる認識に基づいたCG

【動画】公式動画フル版

米Microsoft本社で運用しているシャトルバス手配システム

　また、Microsoft米国本社では、その広大な敷地内を移動するためのシャトルを手配する専用の人工知能システムが実験的に利用されている。このシステムは、カメラと、マイク、タッチスクリーン、スピーカー、そして一般的なPCだけで構成されている。シャトルを利用したい人は、音声で行き先を告げるだけで、自動的にシャトルが手配される。

　このシステムが高度なのは、「ええと、行き先はどこだっけ?」、「第9ビルだと思うよ」という2人のユーザーの会話の脈絡から、その行き先が第9ビルであることを認識している点。そしてもう1つは、複数の人間を認識し、それに対応している点。デモの動画では、人間が3人写っており、システムはそれを認識。さらに、そのうち2人の場所や、行動から、その2人がペアであることを認識しており、「そこへは2人一緒に行くのですか?」と問いかけている。今回のデモ動画では紹介されていないが、このシステムは、ユーザーの感情や、服装(フォーマルかそうでないか)なども読み取り、それに応じた行動を返すようになっているという。

【動画】シャトルバス手配システムのシステムの挙動を示した動画

　この2つのシステムに共通しているのは、ハードウェア自体は既存の市販品を利用している点で、その要となるのはソフトウェア技術である。最近は、ビッグデータが脚光を浴びているが、加治佐氏によれば、高度なNUIを実現にも、センサー経由でなるべく多くの情報を収集し、それによって機械学習を行なうことが必要であり、これにより、コンピュータが経験を利用した適切な処理を実行出来るようになるという。

　これらとはやや毛色が異なるが、1月のCESのタイミングで初めて情報が公開された「IllumiRoom」も紹介された。これは、Kinectを使って、ユーザーの部屋のTVの周りにある家具などの位置、奥行きを計算し、それに基づいて、角度を調整した映像をプロジェクターから壁一面に投影するもの。これによって、画面には入りきらない、周辺のグラフィックまでが表示出来るようになり、ゲームなどの没入感がさらに高まる。

【動画】IllumiRoomの紹介動画

Kinect Fusionの概要

　そして加治佐氏は、正式な日程はまだ言えないと前置きしながらも、Kinect for Windows SDKの新バージョンが近日公開であることを明らかにした。

　Kinect for Windows SDKは、登場から約1年が経過し、バージョン1.5では顔の認識、1.6では拡張深度、カメラの詳細設定、赤外線制御、加速度情報の取得などの機能が追加された。

　そして新バージョンでは、「Kinect Fusion」という機能が追加される。これは、Kinectでハンディカメラのように撮影することで、リアルタイムに3Dオブジェクトのスキャニングを行なうというもの。手持ちでラフに撮影するだけで、3Dモデリングとテクスチャの貼り付けまでがいとも簡単に出来、それを利用した拡張現実(AR)にも応用出来る。

【動画】Kinect Fusionのデモ

（若杉紀彦）