ニュース
終始「ピカ」と「チュウ」しか言わないGoogleアシスタントの新機能
2017年11月9日 17:34
日本にとって2017年は音声アシスタントの年だったと言ってもいい。数年先を行ったのがAppleの「Siri」で、Windows 10の「Cortana」がそれに追従したが、「Googleアシスタント」が5月よりAndroid 6.0以降の端末で順次有効にされたのに続き、雨後の筍のように各社から音声アシスタント機能を搭載する、AIスピーカーやスマートスピーカーと呼ばれる新製品発表のラッシュが続いた。昨日(8日)にも、アマゾンが「Echo」の投入を発表した。
そのGoogleアシスタントだが、じつはサービス導入当初から日本語の発声が改善されているのにお気づきだろうか。今のGoogleアシスタントの音声は、声優を使って数百時間にもおよぶ録音をつなげて使う技術でもなければ、声をパラメータ化して表現する技術でもない。深層学習を駆使して、文脈からリアルタイムに文字が文のなかで自然な発声となるよう、純粋に波形を“合成”する「WaveNet」技術だ。
波形の合成というとコンピュータが得意そうなものだと思われるかもしれないが、文脈から1文字の発声を自然な結果に導き出すための深層学習は複雑な処理であるし、CD品質に相当する44kHz/16bitのPCMを合成するためには、数万回の処理を行なう必要がある。これは2016年の時点では数文字の発声に1分近く時間を要していて、音声アシスタントでの利用に適していなかったのだが、Google子会社のDeepMindが最適化をしていった結果、0.05秒程度で処理が終わるようになって実用化に至ったのだという。なお、現時点でWaveNetが使われているのは英語と日本語の2種類だけだ。
こうした発声の改善とともに、サービスの充実も目指しているという。グーグル合同会社 製品開発本部長の徳生裕人氏は「ユーザーが問題解決のためにGoogleの検索を利用するが、検索した結果を提示するのは、ユーザーが結果を得るための手段を手助けしただけであって、ユーザーが求めたい結果そのものではない。Googleは今後、手段の先にあるものを考えていかなくてはならない」とする。
そのために10月24日より提供されたのが、「Actions on Google」の仕組みだ。Actions on GoogleはGoogleアシスタントを通して、Google以外が提供するアプリやサービスをつなぐもので、ユーザーはGoogleアシスタントに対して「ねえGoogle、○○と話す」と話しかけることで、目的のサービスを呼び出せる。
現時点で利用できるアプリの一例として、Ameba、一分カウントダウン、おうむ返しくん、じゃんけんゲーム、外為どっとコム、SUUMO、食べログ、ホットペッパーグルメ、Yahoo! MAP、楽天レシピなどがある。Actions on Googleは誰でも開発でき、簡単な審査を通すだけでGoogleアシスタントから利用できる見込みだ。
11月9日に都内で開かれた記者説明会では、「日本史語呂合わせ」と「ピカチュウトーク」の2つのデモを行なった。
前者は簡単な日本史問題で、仮想のキャラクター「語呂丸」からの質問に答えればよい。たとえば「いい国作ろう」と聞こえたら「鎌倉幕府」と答えれば正解といった具合だ。問題は全部で5問あり、途中で「終わり」としゃべれば質問を終了させることもできる。聴いた聞いた印象では、質問文は音声合成によるものだった。
一方で「ピカチュウトーク」はこれらの最先端技術とは対極的にあるもの。サービス名から想像が付くとおり、純粋にポケモンのピカチュウと会話を楽しむものだ。ピカチュウは当然「ピカ」と「チュウ」しか発声できないが、株式会社ポケモンは、面白法人カヤックと、「ポケモン言えるかな」の作詞家で知られるプランナー・ライターの戸田昭吾氏の協力を得て、ユーザーの問いかけに対して、豊かな感情とバラエティに富んだ反応を示すものとなっている。
音声は吹き込みで、「数百種類の反応を用意している」という。「“間口は広く、奥行きは深く”という株式会社ポケモンの開発方針にもとづき、Googleアシスタントでピカチュウとの会話を楽しんでもらい、11月17日に発売される『ポケットモンスター ウルトラサン・ウルトラムーン』の購入につなげていただければ」(株式会社ポケモン 進藤貴行氏)とした。