大河原克行の「パソコン業界、東奔西走」
Azureの音声機能活用で富士通の「ふくまろ」が進化。苦手だった女性の声も克服
~Microsoftとの協業で発展する日本語音声の認識技術
2020年8月19日 09:50
富士通クライアントコンピューティング(FCCL)は、同社のパソコン「FMVシリーズ」に搭載しているAIアシスタント「いつもアシスト ふくまろ」の機能を強化。バージョン3.0として提供を開始した。
Microsoft Azureを採用し、音声認識機能を大幅に強化したのが特徴だ。FCCLでは、「Microsoft Azureの音声サービスの採用と、マルチプルボイスアシスタント(MVA)への対応により、ふくまろとの会話が、より自然になり、快適に利用できる」としている。
「ふくまろ」は、FCCL独自のAIアシスタントで、同社のコンシューマ向けパソコンにバンドルされている。AI技術を活用して、音声によって、音楽や写真などのコンテンツをパソコンで再生できるほか、内蔵カメラを活用した外出時の「お留守番機能」、音声での検索、IRコマンダーを通じた家電や照明の操作などの利用ができる。また、ゲーム感覚で英単語が学べる「ふくまろレッスン」なども用意している。
同社では、「ふくまろは、『暮らしと笑顔をアシストする新しい家族』をコンセプトに開発したものであり、パソコンの利用や日々の生活を手伝うことができるアシスタント」と位置づけている。
丸みを帯びたフォルムの癒し系キャラクターとして設定されており、語尾に「~まろぉ」とつけるのが特徴だ。
FMVシリーズを利用しているユーザーは、Microsoftストアを通じて、内蔵しているアプリをアップデートすることで最新版を利用できる。
ふくまろがMicrosoft Azureの「Speech to Text」を採用
今回の「バージョン3.0」へのメジャーバージョンアップの最大の特徴は、Microsoft Azureの音声機能を採用したことだ。
1つは、Azure Cognitive Servicesの音声サービスの採用である。これは、日本のパソコンメーカーとしてははじめてのことになる。
Microsoftでは、Azure Cognitive Servicesとして、視覚、音声、言語、知識、検索という5つの領域から、AI機能をWeb API経由で利用できるサービスを提供している。
ふくまろでは、これまでにも、WindowsのSpeech APIを活用していたり、AzureのLanguage Understanding(LUIS)によるチャットボットサービスを活用していたりといった経緯があったが、今回は、クラウドで提供されるAzure Cognitive ServicesのSpeech to Textの機能を採用。日々の学習によって、認識率などが進化することから、ふくまろの進化にもそのまま反映できるというメリットがある。
日本マイクロソフト グローバルパートナーソリューションズ事業本部デバイスパートナーセールス統括本部アカウントテクノロジーストラジストの髙頭大昌氏は、Speech to Textについて次のように述べる。
「Azure Cognitive Servicesのなかでも、Speech to Textは、全世界でさまざまな企業において活用されているが、日本では、今回のFCCLの事例が最先端の取り組みになる。
グローバルで見ると、英語における機能進化が積極的に進められているが、日本語での認識精度をより高めるには、最適なバートナーが必要であった。男女を問わず、さまざまな世代や、各地域における日本語の発音だけでなく、日本で活躍するアーティストの名前や、日本ならではの略語なども反映させなくてはならない。
FCCLと日本マイクロソフトが協力して、日本語に関するデータを数多く収集し、それを反映することで、日本語の認識精度の向上を図ることができた」という。
ここでは、中国、米国、英国などの研究開発チームとも緊密に連携。収集したデータは個人が特定されないかたちで活用され、それにより、日本語の認識精度を高めるための改良が繰り返されたという。
2019年5月から両社の協業はスタートし、2019年後半から毎週のように協業を行なってきたというが、「ある領域での精度を高めるために、それに必要なデータが欲しいといった場合にも、FCCLの協力を得て、すぐにデータを用意してもらうといったことを何度も行なってもらった」(日本マイクロソフトの髙頭氏)と振り返る。
じつは女性の声の聞き取りが苦手だったふくまろ
では、具体的には、Azure Cognitive Servicesの音声サービスの採用によって、どんな効果が生まれるのだろうか。
1つは、音声コマンドの認識精度の大幅な向上だ。
FCCLでは、音声コマンドにおける認識率を5~10%高めることができたとする。
「たとえば、ふくまろでは、ラジコ(radiko.jp)でラジオを聞くことができるが、そのさいに、ラジオ局名を言えば選局してくれるようになっている。日本全国のラジオ局名といった日本ならではのニーズを、音声サービスの辞書に反映してもらうことで、ふくまろによるラジオ局名の認識率を高めた」(FCCL コンシューマ事業本部コンシューマ事業部第三技術部の山岸大介シニアマネージャー)という。
また、ふくまろでは、パソコンに保存している音楽を、声で再生することも可能だが、これまでふくまろが反応できるのは、アーティスト名やアルバム名に限定されていた。だが、Microsoftの音声サービスを利用することで、新たに曲名でも再生できるようになった。
ここでは、多く使用されるアーティスト名を優先したり、アーティストを略称やニックネームなどで呼ぶ場合にも対応できるように工夫を凝らしたりしているという。
じつは、ふくまろには、大きな弱点があった。それは、女性の声に対する認識率が低いという点だった。とくに、子供の女の子の声の認識率が低かったという。
「ふくまろを実際に利用している家庭を訪問して、利用状況を調査したところ、奥様があまり利用していないという例があった。理由を聞いてみると『私の声にはあまり反応をしてくれないため』ということだった。女性の声の認識率向上は、ふくまろをリリースして以来の課題だった」(FCCLの山岸氏)とする。
一般的に女性の声はサンプル数が少なく、音声認識率が低くなるという傾向がある。Microsoftにとっても、日本語を話す女性の音声データは、音声サービスの向上につながるトレーニングデータとして重要なものであり、今回のFCCLとの協業は、ふくまろにおける女性の声への認識率向上だけでなく、Azureの音声サービスそのものの認識率を高めることにもつながると言えるだろう。
このように、年代や性別ごとにサンプル収集および解析を行ない、それをふくまろ向けのカスタマイズ音声サービスとして採用。ふくまろの呼びかけへの反応速度や認識精度を大幅に向上させることに成功したというわけだ。
Cortanaの経験値をふくまろが獲得して進化
もう1つのポイントは、Microsoftのマルチプルボイスアシスタント(MVA)への対応である。
Microsoftでは、Windows 10のパーソナルAIアシスタントとして、「Cortana(コルタナ)」を提供しているが、MVAは、Windows上で複数の音声エージェントをサポートするものであり、約1年前から提供。Cortana以外の音声アシスタントを、Windows環境で追加して利用できる。言い換えれば、Cortanaで培った機能を、ふくまろに利用することで、ふくまろを進化させることができるとも言える。
また、MVAは、Cortanaが打ち出した新たな方向性を実現する上でも、重要な意味を持つと言えよう。
Cortanaは、コンシューマ利用から、コマーシャル利用を中心とした技術へと主軸を移行させてきていたが、Microsoftは米国時間の7月31日に、Cortanaの新たなロードマップを発表。そのなかで、iOSおよびAndroid向けのCortana専用アプリのサポートを、2021年はじめに終了することを含めて、個人向けのサービスを廃止する姿勢をより鮮明にしている。
家庭での利用を前提としたふくまろは、Cortanaとの棲み分けが明確になりつつあったが、こうした新たな方針が打ち出されたことで、その方向性の違いはより明確になったと言えるだろう。
では、MVA対応によって、ふくまろはどんな進化を遂げるのだろうか。
1つは、誤反応の大幅低減といった成果である。
ふくまろを利用するさいには、「ふくまろ」と呼びかけて、やりとりができるようになっていたが、これまでは、部屋に流れているTVの音声を含めて、類似する発音などにも反応してしまい、結果として誤反応がたびたび発生していた。
「『ふくまろ』というウェイクアップワードに対応したキーワードスポッティング用のデータを収集して、マイクロソフトに提供。時間と工数をかけて改善を行なった。その結果、従来に比べて、認識率は20~30%改善。数時間に1回程度発生していた誤反応も、ほぼゼロに改善することができた」という。
さらにMVAへの対応により、ワンショットコマンドが利用できるようになった点も大きな変化の1つだ。
これまでは、「ふくまろ」といった後に、ふくまろがそれに反応して、「な~に?」、「うん?」などと答えてから、会話を切り出す必要があったが、MVAへの対応によって、「ふくまろ、〇〇して」というように、1つのフレーズをコマンドとして認識するようになった。
だが、なかには、ふくまろとのこの間合いがいいというユーザーもおり、従来どおり、ふくまろと呼びかけてから利用できるモードも残している。
そして、MVAによって、パソコンのロック画面時にも、ふくまろの一部機能が利用できるようになった。音楽の再生や停止、天気や時間の確認、ふくまろとの雑談などを、パソコン本体のロックを解除せずに行なえる。「パソコンがロックされている状態で、手がふさがっている場面でも、ふくまろの機能を利用できる」という。
このように、Microsoftが持つ最新の音声技術によって、ふくまろのサービスの根幹とも言える音声認識の精度を向上するとともに、声をかけたときのレスポンスを改善。よりスムーズにふくまろと会話ができたり、各種検索やパソコンの操作が行なえたりするようになった。
これが、3.0というメジャーバージョンアップの主要な部分だ。
よりパーソナライズ化を進めて家族ひとりひとりを認識
だが、それ以外にも機能を強化した部分がある。それは、パーソナライズ化のさらなる進展だ。
2020年4月のふくまろの機能強化では、顔認識機能を強化することで、パソコンに内蔵したカメラを通じて、ふくまろが家族の顔と名前を覚えて、個人を認識。家族それぞれの趣味や嗜好などを認識するようになったが、それをさらに進めたいくつかの機能を追加した。
1つは、趣味や好物を理解して、おすすめのTV番組を紹介するという機能だ。
たとえば、ユーザーがラーメンが好きということを理解すると、ラーメンに関連するTV番組をおすすめしてくれるというものだ。また、旅行をしてみたい場所も認識してくれるが、そのさいにもAzure Cognitive Servicesの音声サービスの活用によって、多くの地名を認識しやすくなったというメリットも生まれている。
もう1つの機能は、家族の誕生日を知らせる機能だ。
これは、家族ひとりひとりを認識することで、お父さんが誕生日の場合には、数日前には家族に教え、お父さん本人には当日に伝えて、誕生日を祝ってくれるというものだ。家族は、事前にお父さんの誕生日を確認でき、それにあわせてプレゼントを用意できるといった使い方が可能だ。
「今回のバージョン3.0では、ふくまろが、家族ひとりひとりをより理解してくれるようになった。その点でも大きな進化を遂げている。ここにも、音声サービスやMVA対応によって、言葉を正確に理解したり、反応が迅速に行なえたりといった機能強化が貢献することになる」(FCCLの山岸氏)とする。
その一方で、先に触れたように、今回の機能強化では、ロック画面の状態でも一部機能の音声操作が可能になったが、「いまは、ロック画面において、誰の声でも反応するようになっている。今後は、画像認識や音声認識などによって個人を特定し、家族間のプライバシーにも配慮した取り組みを考えていく必要があるかもしれない」とも語る。
先に触れた誕生日情報のように、直接本人に事前に伝えてはいけないことを、ロック画面でもふくまろが認識することで、家族同士のコミュニケーションを円滑にしたり、サプライズの企画を支援したりといったように、ふくまろが家族の仲介役としての役割を果たすように進化させたいという。
個人のプライバシー保護という点も捉えながら、機能の強化とパ―ソナライズ化を進めていく考えだ。
ふくまろが牽引していたパソコンのスペック向上
FCCLのコンシューマ向けパソコンでは、ふくまろのために、ハードウェアのスペックを強化してきた経緯がある。つまり。ふくまろの機能が、FCCLのパソコンのスペックを高めているとも言える。
たとえば、同社の主力ノートパソコンには、ディスプレイ上部の左右に4個のマイクを搭載。他社の一般的なノートパソコンに採用されている2個のマイクに比べて、音声を拾いやすくなっている。
同社によると、中心から45度の範囲では、2個のマイクでは89.0%の音声認識率であったものが、4個のマイクでは92.4%となる。さらに、90度の広範囲で計測すると、2個のマイクでは79.9%の音声認識率であるが、4個のマイクでは87.5%の音声認識率と高い性能を誇る。
また、フルHDカメラを内蔵しているのも、ふくまろの画像認識を利用したサービスに最適化するためのものであり、家族のひとりひとりを認識して、パーソナライズ化した対応が行なえるようにしている。
じつは、こうしたスペックは、昨今増加しているテレワークにおけるオンライン会議の利用時にも、効果を発揮している。広角に音を拾うことができるため、オンライン会議のさいに、少し姿勢を崩したり、資料を見るために顔の位置が変わったりしても、音声を的確に拾うことができるほか、相手に見せたい商品や資料なども、鮮明に表示できるといったメリットにつながっている。
FCCLでは、今後も、ふくまろを中心としてハードウェアのスペック強化を進めていく考えであり、それが結果として、同社が打ち出す「オンライン生活最適PC」の実現につながると考えている。
FCCLとMicrosoftの協業が日本語の音声技術を進歩させる
では、今後のふくまろの進化はどうなるのだろうか。
FCCL コンシューマ事業本部コンシューマ事業部の青山裕司事業部長は、「今回のMicrosoftの最新音声技術への対応は、もう少し早いタイミングで行ないたかった。だが、リリースを少し遅らせてでも、精度を高めることを優先した。すでに、バージョン3.0を利用したユーザーからは、その機能強化に対して、高い評価を得ている」と前置きしながら、「これによって、ふくまろの進化をさらに加速するための新たなスタートが切れる。今後も、年3~4回はアップデートすることで、利用者を飽きさせずに、愛着を持てる家族の一員として、ふくまろを進化させたい」とする。
FCCLの山岸氏も、「Microsoftの最新音声技術を活用することで、音声認識率をより高めたり、用途を拡張したりといったことが可能になる。モノや人を識別しやすくなったり、家族それぞれのスケジュールをもとにした新たな使い方提案なども可能になったりするだろう。技術的には、多言語への対応も行ないやすいというメリットもある」とし、「音声認識技術は、つねに改善が必要であり、いままで以上に、Microsoftとの協業を強化したい。今後も、マイクロソフトとは、最新技術における連携をはかり、さまざまな技術協力を推進していく予定だ」とする。
そして、日本マイクロソフトの髙頭氏も、「Azureの音声サービスにおいて、FCCLは日本におけるトップパートナーとなる。今後も協業を進めて、音声サービスの認識精度を高める一方で、Azure Cognitive Servicesの新たな機能の提案によって、ふくまろの進化に貢献したい」と語る。
日本マイクロソフトの髙頭氏は、ふくまろの進化において、FCCLが、家庭での利用状況を直接ヒアリングし、それをもとに開発現場にフィードバックをし、改善を加えている点を高く評価している。「Microsoftにとっても、日本のユーザーの利用に即した技術進化を遂げることができる」と期待する。
FCCLとMicrosoftの協業は、日本の家庭における利用状況をもとにして、Microsoftの音声技術を、日本のユーザーのために進化させる取り組みにつながると言っていい。
音声技術に関する両社の協業は、すでに1年以上におよぶが、日本のユーザーにとっては、むしろ、これからの協業成果による進化のほうが、楽しみやメリットが増えるのかもしれない。