大河原克行の「パソコン業界、東奔西走」

撮影写真に洒落たコメントを自動的に生成

~米Microsoft Researchで最新研究成果を見る

シアトル近郊のレドモンドにあるMicrosoft本社

 米シアトル近郊のレドモンドにある米Microsoft本社キャンパス内には、Microsoft Researchがある。Microsoft Researchは、コンピュータサイエンスおよびソフトウェア工学の基礎研究、応用研究を行なう研究機関であり、現在、ここを含めて全世界11カ所に展開。1,000人以上の研究者が所属している。

 その中で、1991年に、初のMicrosoft Researchとして設置されたのが、このレドモンドの拠点であり、現在でもMicrosoft Researchの中核的役割を担っている。このほど、米本社を訪れ、その最新研究成果を取材する機会を得た。その様子を紹介しよう。

25年目を迎えるMicrosoft Research

 Microsoft Researchは、1991年に、米本社内に設立された研究開発拠点だ。今年(2016年)でちょうど25年目を迎える。1990年に、当時のCTOであったNathan Myhrvold氏が、Bill Gates氏に宛てたメモの中で、基礎研究の重要性を訴え、設立に至った経緯がある。

 研究者が選択した領域において高度な研究開発を行なう一方、それをMicrosoft製品に導入すること、そして、Microsoftが目指す将来のコンピューティング領域に向けた研究開発を行なうことを目的に設立された研究機関だ。当時は、まだ売上高が10億ドル程度の規模であり、その時点から将来に向けた研究開発投資を行なってきたというわけだ。

 現在では、年間110億ドルの研究開発予算を投下。コンピュータサイエンスやソフトウェア工学の分野から、基礎研究および応用研究を行なう一方、大学の研究室などとの結び付きも強く、共同研究を行なうケースも増えている。

Microsoft ResearchのチーフサイエンティストであるRico Malvar氏

 Microsoft ResearchのチーフサイエンティストであるRico Malvar氏は、「Microsoft Researchには、Microsoftの全社員のうち、わずか1%の社員しか在籍していないが、Microsoftが取得するパテントの15%がここから出ている。中には、コンピュータウイルス対策の技術を活用しながら、エイズワクチンの開発に応用する技術研究も行なっている」としながら、「Microsoft Researchでは、研究プロジェクトの成功率は追求していない。また、ROIも追求していない。むしろプロジェクトのほとんどは失敗する。大切なのは早く失敗して、次の研究開発に活かすことである」と、基本姿勢を示す。

Microsoft Researchのミッション

 そうした姿勢から生まれてきた技術成果は、Microsoft製品のほぼ全てに搭載されていると言っていい。最近の事例では、パーソナルアシスタント「Cortana」の音声認識技術が挙げられる。

 「私の知人の1人に、何か嫌なことがあると、コンピュータに向かってブツブツ言う癖を持つ人がいるが、将来は、コンピュータがその言葉を理解して、話し相手になってくれる。コンピュータが見て、聞いて、理解することができるようになる」。これもMicrosoft Researchが長年に渡って取り組んできた成果の1つだ。

 Microsoft Researchの研究内容は、縦軸にテーマを絞り込んだものと、まったく絞り込まないものを置き、横軸には期限を設定したものと、期限を設定しないものとを置き、その中を4つの領域に分類。それぞれの象限を「ミッションフォーカス」、「進化」、「破壊的」、そして何も制限がない「ブルースカイ(青空)」に分類する。

 「この4つの象限における研究開発テーマの構成比は、時期によっても大きく異なる。だが、短期と言っても3年、5年はかかるものが多い。長期では10年以上になる。Kinectによる画像認識技術では、15年の歳月を費やしてきた。また、機械学習のアルゴリズムの研究にも長い歳月をかけている。Kinectは指の動きまで認識できるようになり、機械学習は脳の研究を行なうことで大幅な進化を遂げた。今では、音声で7言語、テキストでは50言語を認識できるようなり、翻訳を行なうことができる。

 そして、量子コンピュータの研究開発にも取り組んでおり、これも将来に向けた重要な研究テーマの1つとなっている。10年、15年という長い歳月をかけて、研究に取り組むことで、以前はできなかったものができるようになっている。Microsoft Researchは、いつも進化を遂げている。それは、サティア・ナデラにCEOが代わっても、変化がないことである」と語る。

Microsoft Researchの研究投資対象領域

 では、今回公開された具体的な研究成果を見てみよう。

IMAGE CAPTIONING

 撮影した写真に対して、自動的にコメントを付けてくれるのが「IMAGE CAPTIONING」だ。ただ、その写真の内容を理解して、単に内容を示すだけでなく、より深い部分まで踏み込んだコメント内容となっていることが特徴だ。

Microsoft ResearchのXiaodong Heシニアリサーチャー

 Microsoft ResearchのXiaodong Heシニアリサーチャーは、「以前は、写真を見て、そこに写っているものを単語でしか表現できなかった。ノートPCのキーボードの上に猫が乗っていれば、猫あるいはキーボードという単語を並べるだけ。まるで3歳児のようだった」としながら、「今では、『猫がノートPCのキーボードの上に座っている』と表現できるようになった。しかも、豊かな表現ができるようなところにまで進化している。ようやく5歳児のところまできた」と比喩する。

 多くの写真とテキストを関連させ、それを何度も学習させることで、写真の意味を理解し、判断。最適なコメントを導き出すという。だが、IMAGE CAPTIONINGで目指しているのは、さらに先のレベルだ。

 より豊かな表現を追求するのはもちろん、その一方でさまざまな情報を組み合わせて、「5回目の撮影でようやく撮ることができた、私のノートPCのキーボードに座るタマ」というように、映像そのものから得られる情報だけでなく、どんなシーンで撮影されたのか、また写っているノートPCが自分のものであり、猫はタマという名前であることも認識して、自動的にコメントを付けてくれる世界を目指している。

 Microsoftが打ち出した「インテリジェントクラウド」を実現する技術の1つだと言っていっていいだろう。「手軽に撮影した写真に、最適なコメントを付けてくれれば、そのまますぐにSNSにアップできる」といった使い方を想定しているという。

猫がラップトップPCのキーボードに座っているシーンを判断して、自動的にコメントを付ける
実際にスマートフォンで撮影すると、すぐにこんなコメントを付けてくれた

Skype Translator

Microsoftのプロダクトマーケティング担当ディレクターのOlivier Fontana氏

 言語の壁を超えて、スムーズな会話を実現する翻訳機能を提供する「Microsoft Translator」。社内では、これを「moonshotプロジェクト」と呼び、今後数年をかけてさらに進化していくことになる。そして、Microsoft Translatorの機能の1つとして提供される、Skypeによるリアルタイム翻訳機能が「Skype Translator」だ。Skypeで対話する際に、自分の国の言葉で、他国の人に話しかけると、相手の国の言語に変換し、しかも発声してくれる。スムーズな会話を阻害しない速度での翻訳が可能であり、まさに言語の壁を超えた対話が可能だ。

 Microsoftのプロダクトマーケティング担当ディレクターのOlivier Fontana氏は、「ニューラルネットワークの仕組みを利用することで、飛躍的に精度を高めることができた。数多くのソースから情報を得て、翻訳精度を高めている。また、日常の会話から正しい内容を理解することは難しい。日本語の会話では、『えーと』という言葉が、何度も入るように不要な言葉も多く、さらに前に喋ったことを否定した場合に、どの部分まで否定しているのかといったことを理解することも難しい。何度も繰り返し、学習させることが、精度を高めることに繋がる」という。

 現在、英語、フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、中国語(マンダリン)の7カ国語に対応。残念ながら日本語には対応していない。だが、テキスト翻訳では、日本語を含む50カ国語に対応。インスタントメッセージでの利用を可能としている。

Skypeを利用して英語とスペイン語で対話を行なっている様子
テキストの翻訳であれば日本語も対応している
こんな風に日本語に翻訳してくれた

Project Oxford

 「Project Oxford」は、言語APIを提供し、さまざまなデバイスで音声を活用したサービスを実現するものだ。Microsoft Researchが取り組んでいる機械学習の成果を、クラウドを通じて利用できるようになる。

Microsoft ResearchのプログラムマネージャーであるAllison Light氏

 Microsoft ResearchのプログラムマネージャーであるAllison Light氏は、「人工知能の大衆化を実現するものになる」と自信を見せる。現在、映像を理解する「Computer Vision API」、笑顔や怒っている様子などを認識する「Emotion API」、音声認識を行なう「Speaker Recognition API」、周りの騒音の中から目的とする音声だけを抽出することができる「Custom Recognition Intelligence Service(CRIS)」、固有名詞などを正しく表記する「Spell Check API」、自然言語を理解してアプリが動作する「Language Understanding Intelligent Service(LUIS)」など、10種類のAPIを用意している。

 具体的な応用例として説明してくれたのが、「Mimicker Alarm」だ。Mimicker Alarmは、Androidに対応したアプリで、起床時間にアラームが鳴った際に、スマートフォンが3種類のゲームを出す。

 1つは、示された色や形などカメラで撮影するというもの。2つ目は、悲しい顔やうれしい顔、びっくりした顔など8種類の示された表情をし、それが認識されるとアプリが終了する。指示された表情ができないと、朝から何度も指示された顔をしなくてはならない。そして、3つ目が音声を認識してアラームを消すというもの。指示された言葉を発することで終了する。

 「インテリジェントクラウドの1つとして提案する具体的な技術が、Project Oxford。あらゆるデベロッパがこれを活用することができる」とした。

Project Oxfordを活用したMimicker Alarm
Mimicker Alarmで驚いた顔を撮影してみる
Project Oxfordでは会話や言語など10のAPIを提供している

NUIGraph

Microsoft ResearchのDave Brownシニアリサーチャー

 「NUIGraph」は、Excelのcsvファイルから取り込んだデータをさまざまな観点から視覚的に分析することができるWindows 10に対応したアプリだ。タッチやマウス操作により、分析したい内容を表示。これを自由に角度を変えることで、2次元表示では不可能だった分析が可能になる。

 今回のデモストレーションでは、1973年1月~2011年12月までの約40年間に、米国内で発生した竜巻の被害状況データを使用。4万件の竜巻による被害状況を5段階に分類し、地域ごとや月ごと、年ごとに視覚的に表示した。タッチ操作で、グラフを上下左右に展開。さらには表示を拡大したり、3次元表示、カラー表示することで、さまざまな分析が可能になる。竜巻の発生が5月に集中していることや、西海岸地域ではほとんど竜巻が発生していないことなどが視覚的に確認できた。

 今回のデモストレーションでは、84型の4KディスプレイであるSurface Hubを使用したが、Windows 10を搭載したPCやスマートフォンでも利用することができる。

 Microsoft ResearchのDave Brownシニアリサーチャーは、「この技術は、販売データや金融データの分析などにも活用できる。どんな形で実用化するかは決まっていないが、Excelとの親和性が高いものであることから、Excelの1つの機能として提供されたり、あるいはExcelやPowerPoint向けの独立した製品として提供するといったことも考えられるだろう」などと述べた。

デモストレーションは、84型のSurface Hubを用いて行なわれた
Surfaceを始めとするWindows 10搭載PCでも利用可能だ
全米の竜巻情報を地図上にプロット
それを横方向回転させると、地域ごとの発生件数を視覚的に理解できる
さまざまな方向から見ることができる
さらに、竜巻が発生した時期を地域ごとに表示
分析するためには通常の棒グラフなどの表示も可能

HEPERLAPSE

Microsoft Research コンピューテショナルフォトグラフィーグループのJosh Weisbergプロジェクトマネージャー(右)

 「HEPERLAPSE」はMicrosoft Researchの20年以上の写真に関する研究成果を元に開発されたアプリ。スマートフォンなどで撮影した映像を、通常の速度での再生に加えて、32倍速までの異なる速度レートで映像を保存。撮影時に手ぶれした映像も、HEPERLAPSEで編集する際に自動的に手ぶれ補正が行なわれ、安定した映像として見ることができる。また、編集した映像は、手軽にソーシャルネットワークや電子メールを通じて、共有することができる。

 Microsoft Research コンピューテショナルフォトグラフィーグループのJosh Weisbergプロジェクトマネージャーは、「一般の人が撮影した映像もプロフォトグラファーが撮影した映像へと高めることができる。高速表示と画像の安定化を図ることができるため、例えば、ジャイロを飛ばしてそこで撮影した画像も安定化させることができる」という。15分程度撮影した映像でも、約10秒程度で編集保存が可能だ。

 2015年5月にWindows Phone向けを無償提供開始したのに続き、7月にAndroid向けに無償で提供。既に100万本以上がダウンロードされている。11月には、Mac向けに有償版として、HEPERLAPSE Proの提供が開始されている。だが、iOS版は開発されていない。

 また、現時点では英語版だけが提供されており、「日本語化については、検討リストには入っているが、提供時期などについては未定」とした。

HEPERLAPSEの操作画面
HEPERLAPSEにより、高速動画を安定再生させる様子

Project Natick

 「Project Natick」は、海底データセンターの実現を目指すものだ。

Project Natickのメンバー。右から2人目がMicrosoft Research 特別プロジェクトのテクニカルスタッフメンバーであるBen Cutler氏

 Microsoft Researchの特別プロジェクトのテクニカルスタッフメンバーであるBen Cutler氏は、「Microsoftでは、わずか数年前に所有していたデータセンターの総サーバー台数と同じ台数を、毎月増やしている状況にある。だが、その一方で、増え続けるサーバーをより効率的に稼働させる環境を実現することも求められている。そこで目を付けたのが海底データセンターである。水はサーバーの冷却には適しており、さらに潮の満ち引きや波、あるいは風や太陽光から発電できる環境も整っている。さらに、世界人口の約半分が、沿岸200km以内の場所に住んでおり、海底を利用すれば、データセンターからの距離が短くて住む。Project Natickは次世代のデータセンターの姿になる可能性がある」とする。

 2015年8月~11月の105日間、1ラック分のサーバーを搭載した海底サーバーを、米カリフォルニア州サンルイスオビスポの沿岸1kmの位置で、10mの水深に海底データセンターを沈め、実験を行なった。

 「冷却効果や発電力のほか、リモート操作がどこまでできるのか、データセンターを設置した際に海底に及ぼす影響などを調査した。まずまずの成果が上がったと考えている。次回は、20ラック程度に大型化し、水深100m程度の海底に沈めた実験を行ないたい」と言う。

 海底データセンターは、完全防水とした大型の箱が必要となるため、コストがかかりそうな印象があるが、「冷却システム、電源確保、さらには人件費において多くの費用がかかっていることを考えれば、自然の力を利用した冷却コストや電源コストが可能であり、さらに、無人運用も実現できるメリットがある。また、将来に向けて海底データセンターそのもののコストも下がっていくことになるだろう」とした。

2015年8月から約3か月に渡り沈めた海底データセンター
沿岸1kmの位置で、10mの水深に沈めて実験を行なった

(大河原 克行)