ニュース

MSRAで目撃した未来のあれこれ

Light。自然言語で質問すると、自然言語で回答する

 中国・北京のMicrosoft Research Asiaが開催した「Microsoft Asia Innovation Tour Beijing」では、研究活動の成果をブースで披露するDemo Fairも披露された。まさにMSRAの文化祭的な雰囲気だ。2年前、3年前にプレゼンテーションされたり、見せてもらったデモなどが、さらに具体的な領域に進化していることを実感できた。

インターネットから知識をかき集めるLight

Light。対話形式でインターネット上の情報を統合して回答

 人間と文字によるチャット形式で対話し、人間の自然言語による質問内容を理解、インターネット上で稼働している検索エンジンや知識データベース、ソーシャル知恵袋的な内容を分析、それらから得られた結果を統合して、質問に答える。

 素っ気のないWeb画面にチャット風のGUIのみが表示されるシンプルなデモだった。ポイントは質問者の自然語による質問内容を理解し、その回答となる事実をあらゆるところからかき集め、それをアンサンブルして自然語で答えるという点だ。

 最初は「you can ask me anything」とだけプロンプトされ、「who is bill gates」と尋ねると、そのプロフィールなどを答える。「who is his wife」と聞けば「Melinda Gates」と答え、「When is bill gates first become the richest man」と聞けば1995年に39歳で個人資産129億ドルとなって世界一の金持ちになったことを教えてくれる様子がデモされていた。

 疑り深いユーザーのために、その回答のソースとなる参考ページのURLなどを教えてくれるような仕組みも欲しかったところだ。

IoT時代に向けてAPIをオープン化するOpen IoT

 全てをオープンにしていくMicrosoftの姿勢を示す試みだ。今後、IoT機器はものすごい勢いで増えていく。それらはクラウドと結びつき、さまざまな便利を人間社会にもたらすことになるはずだ。だが、それぞれの機器がまちまちな手順でクラウドとデータをやりとりしているだけでは、せっかく収集したデータを最大限に活かせない。

 そこで、IoT機器からのデータを受け取ったサービスが、データを投げることができる別のサービスの仕組みをオープンなAPIとして用意し、デバイス間の接続性や管理性を高めようというのがOpen IoTだ。

 これによって、プロプライエタリなIoT機器が相互にデータをやりとりすることができるようになり可用性も高まる。全ての処理はクラウド側で行なわれるため、新たにIoTデバイスに機能を追加する必要がなく、そこから得られる膨大なデータを利用するアプリケーションでの応用が可能になる。

Open IoT IoT機器からのデータを統合するクラウドAPIサービス
既存機器には一切機能付加をする必要がない

進化したビデオ手ブレ補正

 ビデオ認識はMSRAが積極的に取り組む重要なテーマだ。2年前のデモンストレーションではソフトウェア的に手ブレを補正するデモを見たが、今年はそれらがさらに進化していた。

 昨今は、スマートフォンでビデオを撮影する機会も増えつつあるが、撮影者が動きながら撮った映像は手ブレがひどく見るに堪えないことが少なくない。この技術を使えばとにかくピタリと止まる。2年前に比べてノイズリダクション機能が追加され、画質も大幅に向上していた。

 さらにビデオ画像を解析し、そこに映っているオブジェクトが何なのかをビジュアル表示することもできるようになっていた。約300のカテゴリが用意され、動画の中に登場するオブジェクトを分類することができる。現時点ではリアルタイムではなく、30fps程度、つまり実時間のほぼ30倍の時間をかけて解析するようだ。ちなみに犬とネコは異なるオブジェクトとしてとらえられるようだが、人は単に人にすぎずPersonと認識される、その性別や年齢などは現時点では判別できない。方法として、そのビデオ映像が何を撮ったものかを教えることで、さらに正確なオブジェクト認識ができるそうだが、将来的にリアルタイムでの解析を目指すために、その機能はあえてもたせていないようだ。

ビデオ映像中のテキストをリアルタイムで認識するTexTouch

 こちらは単にビデオプレーヤーアプリのGUIで、一般的な動画ファイルを再生することができる点では何の変哲もないものに見える。このプレーヤーで再生中の動画の中にテキストがある場合、それを指でなぞるだけで、その翻訳結果、検索結果などがポップアップする。既に日本語にも対応していてBing Translaterによる翻訳結果として日本語での解決が可能だ。

 もちろん、ポップアップした検索結果をタップすれば、Windows 8.1のウィンドウが2分割され、右側のペインでブラウザが開き、そのURLを参照することができる。

 デモでは静止したプレゼンテーションデータを表示して、枠内にプレゼンターの喋る様子が動画で表示されるオンラインプレゼンテーションでよくあるパターンにおける使い方が紹介されていたが、フルスクリーン動画で街中の看板などにある文字列を認識させることもできる。ただし、動画ということで静止させればいいのだが、再生しっぱなしでは画面上からすぐに消え去ってしまうため、表示された瞬間になぞるのには結構テクニックが要りそうだ。将来的には手書き文字にも対応していくとのこと。

ビデオ認識もパワーアップ
手ブレを画期的に補正
ビデオ画像中にあるオブジェクトを認識
TechTouch。ビデオ画像中にあるテキストを認識
日本語にも対応している
認識したキーワードでWeb検索も

ピエゾが震えるフィードバック Haptic Feedback at the Fingertips

 2年前のデモではスマートフォンスクリーンに電極を接続したピエゾレイヤーを持たせ、そこに加える電圧の大小でバイブフィードバックの効果を生ませていた。ピエゾは圧電素子として電圧を力に変換することができる受動素子だ。お馴染みの例ではエプソンのインクジェットプリンタへの応用が有名だ。2年前の時点では、一般的なバイブとは異なり指に感じる摩擦係数を可変させるため、タッチするオブジェクトによってツルツルやザラザラといった触感を表現できていて、単なるバイブレーションとは異なる方向を目指しているように見えた。

 今回のデモでは、Surfaceのタッチキーボードにこの技術を応用したものが紹介された。タッチキーボードはキーを打鍵した反応がないためミスタイプが多くなりがちだが、鍵盤上の全てのキートップにピエゾを配置し、キーを押すことでフィードバックが得られるようになっていた。

 この技術を使うことで、従来のバイブ効果では得るのが難しかった表面をこすることでの連続したフィードバックが得られるのが特徴だ。例えば、指によるドラッグ操作中にも、なんらかのフィードバックがあれば誤操作はさらに少なくなるだろう。

Haptic Feedback。ピエゾを使ったフィードバックシステム
各キーにピエゾを実装して打鍵時に振動させる
スクリーンをなぞった時にもフィードバックが

 今回のMSRA訪問では、多くの取り組みが紹介されたが、先端技術かどうかという点では、極めて具体的で分かりやすいものが多かったように思う。実際には、目に見えないところで5年後、10年後に向けた研究が行なわれているのは自明で、その様子を垣間見ることができなかったのはちょっと残念だ。産学連携やスターター支援などへの取り組みにも熱心なのだから、オープンを前提に未完成をもっと積極的に見せることを試みてもよかったのではないだろうか。

 いずれにしても、こうした訪問の機会は、技術の進化をこの目で確かめるためにも、できるだけ継続的に定期的に提供していただきたいものだ。「できました」を見せてもらえるのも嬉しいが、「今、こんなことを考えている」という具体的な活動を知ることは、そのまま明日のコンピューティングを知ることに繋がるからだ。

(山田 祥平)