笠原一輝のユビキタス情報局
パソコン単体でノイズが少ない声を届ける上で知っておくべき設定
~FCCLにマイクの高音質化設計について聞く
2020年8月27日 09:50
COVID-19の感染拡大により、日本でもいわゆるテレワークやリモートワークと呼ばれるような新しい働き方が注目を集めている。そうしたテレワークやリモートワークに必須なのがビデオ会議だろう。社内の人と、そして外部の人となどさまざまな相手とビデオ会議がすでに当たり前になりつつある。
そうしたビデオ会議ソフトウェアは、パソコンに接続しているWebカメラとマイクを利用して、自分の動画と音声を相手に送る。動画の高画質化に関しては、すでに紹介されているように、Webカメラの代わりにミラーレス一眼カメラやコンパクトデジタルカメラを使うなどの手法を使うことができる。
それに対して音声を良くする方法に関しては、あまり紹介されておらず、ややこしい設定もあるようなので、本記事では、パソコンにおけるマイクから取得した音声をどのように処理したらいいのか、良い音質で録音できるパソコンの内蔵マイクとはどういうことなのかを紹介していきたい。
Windows 10ではマイク→ドライバ→ノイズ抑制ソフト→ビデオ会議ソフトの順で音が渡されていく
以下はWindows 10ベースのパソコンで、マイクから入力された音声がどのような順序で処理されていくかを概念的に示したものになる。
人間の声は、パソコンに接続されている何らかの①マイクのハードウェアとパソコン上に搭載されている②オーディオコントローラを利用してA/D変換(アナログからデジタルへと変換されるプロセスのこと)され、波形というかたちでデータ化される。この波形には、本来相手に送りたい人間の声だけでなく、周囲ノイズ、たとえばキーボードの打鍵音や子供の声なども入っている。
変換されたデータは、パソコン上のオーディオコントローラのドライバを経由してWindows OSに渡される。このときに、パソコンに③ノイズ抑制ソフトウェアがインストールされている場合には、Windows OSからZoomやTeamsなどのアプリケーションに引き渡される前に、ノイズ抑制処理が行なわれ、波形からノイズ部分の波形を取り除き、人間の音声だけをアプリケーションに渡す処理が行なわれる。
なおこのノイズ抑制機能は、②のオーディオコントローラのドライバレベルで実装されている場合もあるし、④のアプリケーションレベルで実装されている場合もある。
そして最終的にはZoomやTeamsなどの④ビデオ会議ソフトに引き渡され、インターネットを経由して自分の音声が相手に届くようになっている。
よって、より良い音声を相手に届けるには、マイクのハードウェアにこだわった上で、ノイズ抑制機能を上手に使うことがポイントになってくると言える。
オーディオコントローラのドライバレベルでもノイズ抑制機能が実装されていることがある
マイクのハードウェアで拾った音は、オーディオコントローラとドライバを経由して、アプリケーションに渡される。ZoomやTeamsといったアプリケーションを利用してビデオ会議を行なう場合には、どの段階でノイズ抑制が行なわれているのか注意したい。
すでに述べたとおり、Windowsではノイズ抑制は図1での②オーディオコントローラ+デバイスドライバの段階、③ノイズ抑制ソフトウェアの段階、④ビデオ会議ソフトウェアの段階と、複数の段階で機能として用意されている場合がある。これらのノイズ抑制を複数有効にしていると、ノイズ抑制同士がかち合ってしまい、ユーザーの意図していないおかしな音になってしまっている場合がある。その場合はどれか1つだけを有効にするのがベターだ。
具体的に見ていこう。たとえばFCCLのNHシリーズの場合は、Realtek Semiconductor(以下Realtek)製のオーディオコントローラが搭載されている。Realtekのオーディオコントローラのデバイスドライバは、標準でノイズ抑制の機能を備えており、キーボードノイズや自分以外の声などを低減する機能が用意されている。
また、スピーカーから出た音をマイクが拾ってしまい発生する音響エコーを低減する機能なども用意されている。標準では前者はオフになっており、後者はオンになっている。そのコントロールは、付属のツールであるRealtek Audio Consoleで調整できるようになっている。
こうしたオーディオコントローラのノイズ低減機能はシーンによっては効果があるのだが、せっかくクリアな音声がやや濁った感じの音になってしまうことがある。そうしたときには、前出の「Realtek Audio Console」のようなツールでオン、オフすることが可能だし、強制的にノイズ低減機能がオンになってしまう場合には、コントロールパネルの「サウンド」からマイクを選び、ターゲットとなるマイクのプロパティで「詳細」を選び「オーディオ拡張機能を有効にする」にチェックが入っているのを外しておくと、オーディオコントローラのレベルでは音声を何も加工せずにアプリケーションにクリアーな音を渡してくれるようになる。
この手法はRealtek製のオーディオコントローラに限らず、ほかのオーディオコントローラでも応用できるので、ドライバレベルでのノイズ抑制をオフにしたい場合にはこのチェックをはずすようにしたい。
アプリケーションとデバイスドライバの中間に入ってノイズ抑制を行なうノイズ抑制アプリケーション
③のノイズ抑制ソフトは、オーディオコントローラとアプリケーションの中間に入って、マイクからアプリケーションに渡される音声を加工して、ノイズを削減してアプリケーションに渡す。有名なところでは、NVIDIAのRTX Voiceや、Krispなどがある。前者はNVIDIAのGPUが必要になるが、後者はCPUだけでノイズ処理が可能だ。RTX Voiceに関しては別記事ですでに取り上げられているので、ここではKrispを取り上げる。
KrispはKrisp Technologiesが開発したノイズ抑制ソフトウェアでアプリケーションがインストールされると、仮想オーディオデバイスがサウンドの「再生」、「録音」のタブにそれぞれ追加される。その状態でKrispのアプリケーションから、実際に利用するスピーカーとマイクを指定すると、Krispでスピーカーに出力する音、マイクで入力する音を乗っ取って、ノイズ抑制することができる。
なお、Krispは無償でも利用できるがその場合はノイズ抑制機能の利用は120分/1週間に限定される。それらの機能制限を解除するにはサブスクリプション(月額ないしは年額での契約制)を契約する必要があり、Proと呼ばれる最も安価な料金では年間契約をする500円/月ないしは月契約では700円/月で利用することができる。まずは無償のプランでその効果を確認して、必要であれば年間契約ないしは月額でサブスクリプションに申し込むといいだろう。
Krispではマシンラーニングベースの学習データがアプリケーションにダウンロードされ、それを元にCPUを利用して推論が行なわれ、音声の波形からノイズと思われる部分を除去する仕組みになっている。このため、CPU上では推論だけが行なわれるので、CPUの処理能力もそれなりに必要だ。
ただ、このKrispはIntelが10nmで製造する第10世代Coreプロセッサ(Ice Lake)とTiger Lakeに搭載されているGNA(Gaussian & Neural Accelerator)に対応しており、GNAに対応したCPUを利用している場合にはCPU負荷率をより小さくすることができる。筆者はIce Lakeを搭載しているDell XPS 13(モデル9300)で利用しているが、GNAが効いているためか、バッテリ駆動時には気になるCPU負荷率の上昇もほとんど確認されていない。
効果に関しては、Krispのノイズ抑制機能が搭載されているDiscordのレビュー記事を参考にして頂きたいが、キーボードの打鍵音などがかなり消えてくれるので重宝している。ビデオ会議するときにはしゃべっていない時やキーボードを打鍵する時は自分のマイクをミュートにするのがマナーではあるが、相づちを打ちながら相手の話を聞きながらキーボードでメモを取りたいなどの時にはやはりマイクをオンのままキーボードを叩きたいときなどもあるだろう。そうした時にKrispのようなノイズ抑制ソフトウェアは非常に効果的だ。
なお、Krispのノイズ抑制機能をオフにするには、Windowsのタスクトレイに表示されているKrispのアイコンから起動されるKrispの設定ツールからオフにする方法と、そもそもKrisp自体をオフにする2つの方法がある。
ZoomやTeamsなどにはノイズ抑制機能が実装されている、オン/オフできるZoomとできないTeamの違い
そして、ビデオ会議ソフトウェアだが、じつはビデオ会議ソフトウェア自体にもノイズ抑制機能が搭載されていることは少なくない。その代表が、ZoomとTeamsだ。いずれもノイズ抑制機能が搭載されているのだが、大きな違いはZoomの方はユーザーが設定で効き具合を調整したり、そもそもノイズ抑制機能をオフにすることができるのに対して、Teamsの方はそれができず標準でオンになったままだし、効きの調整などはできないこと。このため、Teamsを利用する場合には、Teamsに内蔵されているノイズ抑制機能を使うと考えて、②のドライバレベル、③のアプリケーションレベルのノイズ抑制機能はオフにしておくのがおすすめだ(ぜひともTeamsにもノイズ抑制機能をオン、オフできるオプションを用意して欲しいものだが……)。
原稿執筆時点のZoomの最新バージョン(バージョン5.2.1)では、設定のオーディオに「背景雑音を抑制」というメニューが用意されており、「自動」、「低」、「中程度」、「高」という4つの設定から選ぶことができる。通常はこれは自動で問題ないが、ユーザーがよりノイズ抑制を効かせたいと考える場合には「高」などに設定すればいいだろう。
ただし、この設定のメニューではZoomによるノイズ抑制を完全にオフにすることはできない。Zoomのノイズ抑制をオフにするにはそのオーディオ設定のところで、「詳細」のボタンを押すと表示される「ミーティング内オプションをマイクからオリジナルサウンドを有効化」というチェックボックスにチェックを入れる。すると、ミーティングをはじめると、左上に「オリジナル・サウンドをオンにする」が表示されるので、これを押して青い背景とともに「オリジナル・サウンドをオフにする」と表示されれば、ノイズ抑制処理を行なわないオーディオが会議している相手に届けられる。
図1でいうところの②のオーディオコントローラのデバイスドライバ、③のKrispなどのノイズ抑制ソフトウェアでノイズ抑制を行なっている場合には、この「オリジナル・サウンドをオンにする」を有効にしておくといいだろう。
音声認識技術を使うという新しいトレンドがパソコンのマイクハードウェアの進化を促した
さて、ソフトの設定以外にも、良いマイクが必要となるわけだが、じつは近年のパソコンはマイクにかなりこだわっており、別途追加購入しなくても、ビデオ会議で実用的な音質を実現しているモデルもある。その具体的な例として、近年マイクにこだわったパソコンをリリースしているFCCL(富士通クライアントコンピューティング)を取り上げたい。
富士通クライアントコンピューティング株式会社 コンシューマ事業本部 コンシューマ事業部 第二技術部 部長 軽石毅氏によれば「弊社は2018年から音声認識機能のふくまろを生活に身近にする、そうしたビジョンで音声認識機能の普及につとめてきた。そのふくまろをよりよく使えるようにということで、マイクに関しても高音質化を目指して開発を続けており、今年のモデルでもマイクの設計にこだわっており、ディスプレイの額縁を小さくしながら4アレイのマイクを搭載するなどしている」と、FCCLとしては同社独自の音声認識機能「ふくまろ」をよりよく活用できるようにマイクにこだわって設計してきたのだという。
こうしたことはFCCLだけでなく、じつはパソコン業界全体でそうした取り組みが行なわれてきた。Microsoft CortanaやAmazon Alexaといった音声認識機能を実装するパソコンが増えており、そのために高性能なマイクを装着するパソコンメーカーが増えてきていたのだ。そうした取り組みをリードしてきたのは、パソコンのプラットフォーマーであるMicrosoftとIntelだ。
MicrosoftはCortana用にマイクの仕様を定義しており、MicrosoftがWinHECなどで発表したスライドなどによればNear Field(0.5m)、Near Field(0.8m)、Far Field(4m)という3つの距離のマイクが定義されている。
Near Field(近傍界)とは、簡単に言ってしまえばマイクの周辺だけをカバーするマイクで、Microsoftの定義では0.5mと0.8mという距離をカバーする。
それに対してFar Fieldマイクでは周囲4mというかなり広いレンジの音を確実に拾わないといけないため、高感度で高音質なマイクが必要になる。富士通クライアントコンピューティング株式会社 プロダクトマネジメント本部 プラットフォーム開発統括部 デバイス開発部 隅田徹氏によれば「Microsoftの認証を通す必要があり、それを通らないとFar Fieldマイクということはできない」という。
Microsoftの認証試験があり、FCCLのパソコンもきっちりとそうした試験を通してFar Fieldマイクとしている。軽石氏によれば、2マイクと4マイクで比較した場合、90度のレンジで3.4%の認識率向上だが、180度で比較した場合には約10%認識率が向上しているという。
マイク設計担当と構造設計担当が一体になって設計を行なっているFCCL製パソコンのマイク
FCCL 軽石氏によれば「デザインとしてはマイクに割く範囲はできるだけ小さくしてより狭額縁にするなどデザイン性を高めたいし、そこはせめぎ合い。そこでデザインと設計が協力して、マイクのエンジニアが設計段階から入り込むことで共存を目指している。マイク設計が用意したガイドラインを元に構造設計が落とし込み、その後実際に試作機を作って確認しながら行なっている。そうした情報のやりとりを自分の担当機種だけでなく、全体に落とし込むように設計サイクルを回せるようにしており、それがFCCLの強みになっている」とのことで、デザイン、マイク設計、構造設計の担当者が一体になって製品開発をしていることが強みだという。
たとえば、マイクのエンジニアは同社の研究開発拠点(R&Dセンター、神奈川県川崎市中原)の音響測定室を利用してさまざまな設計を行なっており、ETSI(欧州電気通信標準化機構)という欧州の標準化団体の性能基準を設けて音響測定ができるようになっているという。こうした設備を利用して、Microsoftの音声認識性能測定(前出のCortanaの認証のこと)、Intelのマイク性能試験、そしてFCCL独自のふくまろ向けの音声認識測定などが行なわれている。設計したマイクがちゃんと期待される仕様を満たしているか、つねに確認しながら設計されているという。
たとえばそうした取り組みでどう変わるのかと言えば、設計しただけの状態では以下の図の左側に示されたような周波数の特性になってしまっているという。FCCLの隅田氏によれば本来は右側のようにゲインが0の周辺でほぼ直線になるのが望ましいのだが、左側の初期状態では上に行ったり、下にいったりと忙しくなってしまっている。このため、それを構造設計により改善することにより、右側のように0の前後でほぼフラットという周波数特性を実現しているのだ。
では、具体的にどのように実現しているのかと言えば、それは機種により異なっている。とくにノートパソコンの場合は、液晶ディスプレイの上部という限られた場所にマイクを置く必要があるため、そのスペースもディスプレイのサイズなどによって異なってくるからだ。
たとえば、15.6型ディスプレイを採用しているAHシリーズでは、4つのマイクが等間隔で置かれており、マイクの穴径は1.3mmに統一されている。その穴の下にマイクモジュールがあり、そのマイクモジュールをシリコンゴム素材のクッション材で囲むという形状になっている。これにより圧縮率(圧縮率は20~30程度が必要とされている)は20%になり、十分な性能を維持できているという。より大きな17.3型ディスプレイを採用しているNHシリーズでは基本的に構造は同じだが、圧縮率は30%に高められているという。これはAHシリーズはB面にガラスを利用しているのに対して、NHシリーズでは強化プラスチックであるため条件が厳しいためにこうした仕様になっているということだった。
27型のAIO(液晶一体型パソコン)となるFHシリーズでは、2マイク構成になっているが、マイクの穴径が2.1mmと大きめに取れていることもありクションの材料はウレタンフォームで、圧縮率は50%になっているという。
このように、機種ごとにそれぞれ専用の設計が必要になっている。また、多少離れたところからの音も拾えるような高感度になっているし、よりクリアな音が記録できるような高音質なマイクが実現されている。ビデオ会議で使う程度なら、まず内蔵マイクで試してみて、不満を感じるようなら別途購入するというスタンスでも良いだろう。
このように、ビデオ会議で良い音を相手に渡すと言っても、マイクのハードウェアから、デバイスドライバ、ノイズ抑制ソフトウェア、そしてビデオ会議ソフトウェアの設定自体にも注意を払う必要がある。これらを参考に、ご自分のパソコンを正しく設定して、読者の声が会議の相手によりよく届ける参考になれば幸いだ。