レビュー

夢の「音声自動書き起こし」はもうすぐ実現!? Microsoftの「Video Indexer」を試す

～動画・録音の音声を自動でテキスト化し翻訳も

西田宗千佳

2017年12月13日 12:00

Microsoftがプレビュー版を公開している「Video Indexer」。Microsoft Azureの中のサービスメニューの1つに位置づけられている

　Microsoftは、同社のクラウドサービス「Microsoft Azure」において、機械学習を中心としたいわゆるAIをサービスとして提供する「Cognitive Services」を展開している。そのなかに「Video Indexer」というサービスがある。

　その名のとおり、動画を認識し、インデックス化するためのものである。今年(2017年)5月に公開され、現在も「プレビュー版」としてある程度無償で試すことができる。

　AzureによるCognitive Servicesは、ソフトウエア開発者やサービスを使う企業のためのものであり、コンシューマには直接関わりはない。だが、ぜひみなさんにも状況を知っていただきたいと思う。Video Indexerは、現在「AI」として開発されている技術の先端であり、技術者であれば誰もが使えるものだ。「現在どこまで来たか」を知ることで、近い将来の姿を予見することができるはずだ。

現在は「プレビュー中」、OSに依存しないWebサービス

　すでに述べたように、Video Indexerは、「動画の中身を認識し、インデックス化するサービス」である。動画に含まれる画像と音声をそれぞれ認識し、音声はテキストへと変換した上で、画像については人物の識別を行なう。テキストは話したときの時間情報と紐付いており、映像の「インデックス」として機能する。

　要は、Microsoftの深層学習(ディープラーニング)技術を使い、音声認識と映像からの人物認識を同時に行なって、その情報を映像に付加してクラウド上に記録するサービス……と思えばいいだろう。

　現在のVideo Indexerは「プレビュー中」という扱いであり、アカウントさえ登録すれば誰でも無料で使うことができる。本来Video IndexerはAPIとして提供され、それをさまざまなアプリケーションのなかから呼び出して使うものである。だが、それでは機能がわかりづらいため、MicrosoftはサンプルとしてWebアプリを作り、そこでVideo Indexerを体験してもらうかたちを採っている。プレビュー中であるのでこのかたちだが、最終的な提供形態は異なる点にご注意いただきたい。

　現状のプレビューページは独立したWebアプリとして動作しており、OSに依存せず、一般的なWebブラウザから透過的に利用できる。PCはもちろんだが、iOSやアンドロイドを使ったスマートフォンやタブレットからでも利用できる。処理も基本的にはサーバー側で行なうので、クライアント側には依存しない。

　利用にはアカウントの登録が必要だが、こちらにも特別な条件はない。

Video Indexerへの入り口。アドレスは「https://vi.microsoft.com」。右端の「Sign In」から入る

各種IDを登録してログインすることになるが、プレビュー版では料金は発生しないので、適宜好きなもので登録してかまわない。

　ただし、この登録が必要なのは「データを自分でインデックス化して、道具として使う」場合のみである。インデックス化して「Public」設定で公開した映像については、登録不要で視聴できる。本記事内で紹介するサンプルとして、登録不要で実際にインデックス化されたデータを「Public」設定で公開した。のちほど紹介するリンクについても、サービスへの登録は不要だ。

顔からキーワードまで、ビデオの内容を自動で「インデックス化」

　どんな風に分析されるのか、まず、Microsoftが公開しているサンプルをご覧いただきたい。

　こちらのリンクは、Microsoftが提供している、5月にシアトルで開催された「BUILD 2017」の2日目の基調講演をインデックス化したものだ。

Microsoftが公開している「BUILD 2017」2日目の基調講演のビデオインデックス

　どんな風に使うか、簡単に解説しよう。ページを開くと、左には動画が、右にはさまざまな情報が表示されたWebが現れる。左側がインデックス化に使われたビデオで、右がそのインデックス結果である。

　インデックスは、「顔」、「キーワード」、「ブランド名」などで自動的に行なわれる。たとえば顔認識の場合、特定の人がそのビデオのなかでどこに何分出ていたのかがきちんとわかるし、その部分へとジャンプして視聴することもできる。

顔で登場人物を識別し、インデックス化。基調講演に登場したテリー・マイヤーソン氏と、ジョー・ベルフィオーレ氏では、こんな風に登場時間が違う

基調講演のなかに登場した人物の顔だけを認識するとこんなに。登壇した人々だけでなく、画面などに映り込んでいた人々のものも含むので、こんなに多くなる。

基調講演内で言及された「ブランド」をインデックス化した例。「Microsoft Windows」と「iOS」がそれぞれインデックスとしてピックアップされており、言及箇所が違うこともわかる

　キーワードやブランド名でインデックスができるということは、ビデオ内の音声をきちんと認識し、書き起こしをしているということでもある。というわけで、右側の枠の一番上にある「Transcript(書き起こし)」をクリックしてみよう。すると、ビデオ全体のテキストが現れる。これは「顔認証」と連携しており、誰が話したものなのか、顔写真付きでわかるようになっている。

音声もデータ化されている。英語での基調講演なので、基本的には英語で記述されている

　英語での書き起こしになっているが、ここでちょっと画面右端を見てほしい。地球儀のマークがあり、ここをクリックすると、「言語リスト」が現れる。なんと言葉を選ぶと、書き起こされた文章から「自動翻訳」が行なわれるようになっている。

言語設定の部分をクリックすると、日本語を含む複数の言葉が。ここで日本語を選ぶと……

書き起こしの内容がそのまま日本語に自動翻訳される。自動翻訳なので精度はそこそこだが、講演内容を日本語で不自由なく確認できる

　自動翻訳ができているのは、もちろん、Microsoftが持っている自動翻訳技術と連携しているからだ。

　こういうことができるのは、まさに声の情報がきちんとテキストデータ化され、ほかのサービスへと受け渡し可能になっているからであり、ある意味で、Video Indexerの本質の1つといえる。

日本語でインデックス化にチャレンジ、作業は「アップして待つだけ」

　英語だとうまくいくのもわかる。

　では、日本語だとどうだろう? 筆者は5月にこのサービスがプレビューを開始して以来、折にふれてテストしてきた。

　本当はここで、筆者が集めた実例で……といいたいところだが、仕事上集めた録音がほとんどで、公開に関する許諾がないため、「Public」設定でみなさんに公開するわけにはいかない。

　そこで今回は、日本マイクロソフトより、同社の平野拓也社長が登壇したカンファレンスのビデオをご提供いただいたので、それをインデックス化し、さきほどの英語での基調講演の例と同じく、「Public」設定で一般公開した。

日本マイクロソフトに協力をお願いし、平野拓也社長が登壇した講演のビデオをインデックス化した。こちらはもちろん日本語で話している

内容を見る前に、ついでに、実際にどうやってインデックス化するかについてもふれておこう。

　冒頭で述べたように、Video Indexerを使うには、アカウントを登録する必要がある。登録すると、インデックス化するビデオなどを保存する領域がMicrosoftのサーバー内に作られ、そこにアップロードされたファイルがインデックス化されることになる。

　現在は無料かつプレビュー版であるために、「インデックス化可能な総時間」と「1日にアップロード可能な時間」が設定されている。総時間は40時間分、1日にアップロード可能な時間は10時間分と設定されており、これを増やすことはできない。

アップロード可能な容量は、インデックス化するデータの「総時間」で規定されている。現在はこの量を増やすことはできない

　データ容量でなく「時間」で規定されている点に注目していただきたい。おそらく、これが正式サービスになるときには、「インデックス化するデータの時間」で課金額が決まることになるのではないだろうか。

　「Video Indexer」と名づけられているが、インデックス化できるデータは、なにもビデオにかぎらない。MP3やAAC形式の音声データもそのまま読み込み、インデックス化された。動画も、MP4形式など主要なものはそのまま読み込むようだ。

　ファイルを読み込み、データがどの言語のものなのかを設定し、さらにインデックス化後に「Private」設定にするのか、「Public」設定にするのかを決めれば、あとはアップロードとインデックス化を待つだけである。Private設定では、自分のアカウントからしか動画を見ることができないが、Public設定にした場合は、さきほどの例のように、誰もが自由に視聴可能になる。

　ちなみに、今回提供を受けた44分のビデオのインデックス化には、だいたい23分の時間が必要だった。

アップロード画面。データ形式などは指定する必要がない。アップロードする言語の種類と「Private」か「Public」かを決める

アップロード後には、インデックス化が終わるのを待つ。インデックス化にはそれなりの時間がかかり、44分のビデオで23分が必要だった

「講演」なら意外なほど高精度、精度は録音品質にも左右される

　では、日本語でのインデックス化・書き起こし精度はどのくらいなのだろう?

　サンプルとして提示した平野社長の基調講演のビデオは、こちらで一切の編集をしていない。なのでご自身でチェックしてみていただきたいのだが、「なにもしていない状態の書き起こし」としては、かなり満足すべき精度のものになっている、と感じる。

　間違っている部分は、言いよどんだ部分や「Mixed Reality」のような固有名詞の部分で、間違い方もかなり特徴的だ。講演のように「音質が安定している」、「話し方がはっきりしている」音声であれば、全体の数％程度の間違いにとどまり、「インデックス」としては十分に役に立つことがわかる。これだけの書き起こしが、「データを流しただけ」で、今でもできる、と思うとなかなかに衝撃的である。

インデックス化した結果。講演ならば、日本語でもかなりの精度ですでに書き起こしとインデックス化が行なえていることに驚く

　以下、若干であるが、冒頭の書き起こしを引用しておく。括弧内は筆者が聞き取った「正しい言葉」である。

―――書き起こしを引用―――
日本Microsoft平野ございます

本日はですねあの皆さんこのように大勢の方にこのイベントに参加いただきまして誠にありがとうございますそして平素は弊社の製品そしてサービスをご使用頂き誠にありがとうございます

このセッションは日本語でまいりたいと思いますのでぜひおつきあいください

私これまではですねえっまあデジタルトランスフォーメーションですとかそれからまあソリューションシナリオと言う話で基調講演を持ってきたわけですけれども

これからはですねえこれを加速するための最新のテクノロジーそれ日本でどこに展開しようかと言うことについてお話をしたいとおもいます

え重いですね(ええ、主にですね)この三つの分野の最新テクノロジーの話をしたいとおもいます一つは三つとリアリティ(Mixed Reality)二つ目は今よくきますが人工知能そして三つ目は

かなり先のテクノロジーの監視ますけれども(の話になりますけれど)まあ量子コンピューティングこれについて話をします

まずはですねえみ癖リアリティ(Mixed Reality)における日本の最新の状況について少しお話ししたいとおもいます

ちょうどですねまさに一年前この場におきましてほろレンズ(HoloLens)の日本での提供ということを発表させていただきました

その後ですねプレオーダーから非常に多くの関心とそしてまあ発注ですねいただきまして我々も大変驚きましたまた

嬉しかったです世界と比べてもですね日本におけるこの反応と感心の高さと言うのは強く感じました

―――書き起こしここまで―――

　ただ、すべての録音でこの精度が維持できているか、というと、もちろん違う。録音品質や話し方などさまざまな要因があり、単純に「何％失敗」といえない、ということもわかってきた。

　筆者の経験でいえば、録音状態の悪い「囲み取材」のデータでは精度は上がらず、単独インタビューでも、おたがい論理的に話しているときはきれいにテキストになるが、ラフな話し方になると崩れる。まだ同音異義語にも弱いところがある。ノイズの少なさが重要であり、話者は見えている(＝ビデオ)のほうが精度は上がりやすいように思えた。

　インデックス化されているため、キーワードでの検索もきちんと行なえる。全体から特定のキーワードを含むセンテンスを呼び出したり、複数のインデックス化したビデオから同じキーワードが含まれるものを抽出したりできた。これが本当に仕事に使えるようになれば、非常に有用だろう。

「富士通」をキーワードに検索。きちんと内容がひっかかってきた

自分でインデックス化したビデオ(音声)を複数選び、同じ「AI」という言葉が含まれているものを抽出した。ほかのビデオはノイズのせいか不正確な部分が多いのだが、それでもきちんとピックアップされている

　このインデックス化したビデオは、文言や登場人物の名前などを修正した上で、必要な部分だけをピックアップし、ダイジェストの「プレイリスト」として保存できる。それをWebやSNSなどにシェアすることも可能だ。

インデックス化内容の修正も可能。社内などで共有するには、こうしてデータをまとめることになる。手作業で全部書き起こすことに比べれば、はるかに手間は小さい

　なお、こうしたインデックスの「テキスト」は、現状、単なるテキストファイルとしては吐き出せない。だが、インデックス位置の情報も含め、JSONのデータとしては吐き出せる。だから自信があれば、ここからきちんとデータを再構成し、自分で使うことも可能なはずだ。

AmazonもMicrosoftを追いかける。数年以内に当然のものに

　MicrosoftのVideo Indexerは、完璧ではないが、現時点のサービスとして見ると、なかなかに驚くべき内容だ。

　深層学習の進歩に伴い、この種のサービスは、各クラウドサービスの事業者が、先を争って開発している段階である。11月27日から12月1日まで、米ラスベガスで開催された、AWSの開発者会議「re:Invent 2017」では、AWSも、ビデオのリアルタイムインデックス化サービス「Amazon Rekognition」と、書き起こしに特化した「Amazon Transcribe」を発表した。

　現状はどちらも英語を中心とした対応で、「日本語対応」という意味ではMicrosoftが先を走っているが、どちらにしろ、数年以内に「書き起こしとインデックス化が、日本語でも自動化される」のは間違いない。

AWSの開発者会議「re:Invent 2017」にて、Amazonもビデオのインデックス化サービスを発表。こちらは「他社と違ってリアルタイム」であることを強調する

音声書き起こしの専用サービス「Amazon Transcribe」も発表に。現状では英語だが、「会議やインタビューの書き起こし」を正面から意識したサービスになっている

　深層学習の技術は急速に進化している。今はまだミスが目立っても、この先、精度は確実に上がる。われわれの周囲にある「音声情報」がテキスト化・インデックス化され、ビジネス活用されていく時代は遠くない。いまは、こうしたサービスが「実用になる」境目にやってきているのだ。

　問題は、そのときの「秘匿性」だ。

　現状のサービスは、MicrosoftにしてもAmazonにしても「完全な秘匿」を条件としていない。内容に聞き耳を立てているわけではないが、「サービス向上のためにデータを見ることがある」と利用条件に記載されている。それによって、現在の不完全さを改善しようとしているわけだ。

　AWS関係者の話では、「サービス契約の種類によっては、秘匿性を確保することはできる」という。その辺も、今のクラウドサービスと同じく、結局は「いくら払うか」に依存してくる。

　今はテストであるがゆえにいろいろと不明確な部分が多いが、実サービスになり、広く使われるようになっていくと、そうした部分も明確にしつつ展開されることになるだろう。

　そして、MicrosoftやAmazonのAPIを使い、自社で「使い勝手にこだわった書き起こしサービスやアプリ」を作る事業者も出てくるのは間違いない。