配信修行僧

Elgato製品大刷新の隠し玉「Wave FX」こそが最強の独自機能である理由。実機で遅延も検証

Wave FXに対応するElgato「Wave XLR MK.2」

 Stream Deckなどを手がけるElgatoが「Wave Next」と銘打って、オーディオ関連の製品を一挙に発表した。その中の1つは前回紹介したミキサーソフトの「Wave Link 3.0」だ。高機能でありながら使い勝手も向上させ、なによりも“Elgatoハード縛り”がなくなり誰でも使えるようになったことで大きな注目を集めている。

 また、それ自体はオーディオ製品ではないが、Wave Link 3.0と組み合わせて使えるStream Deck + XLも、そのビジュアルの派手さから話題になっている。

 しかし、今回の製品群の中で、筆者が一番注目したのはマイクなどオーディオハードに新搭載された「Wave FX」だ。詳細は追って説明するが、このWave FXにより、ユーザーは遅延なしでマイク音を高音質化したり、ノイズを低減できる。また、従来よりもはるかに低遅延でリバーブやボイチェンなどのVSTプラグインを適用できるようになる。

 ゲーム配信者、歌い手、VTuberなど幅広いユーザーにメリットがあるこの機能を解説していく。また、実機による検証も行なっている。

3つの機能群で構成されるWave FX

 Wave FXは、LEWITT Audioと共同開発した専用プロセッサ「Wave FX Processor」を中核とする機能群で、主に3つの要素で構成される。

音割れを防ぐ「Clipguard 2.0」

Clipguard 2.0の仕組み

 1つは音割れを防ぐ「Clipguard 2.0」。この先技術的な解説をするが、興味ない人は読み飛ばしていい。代わりに、Elgatoスタッフの言葉でWave FXの音割れについて紹介すると「おそらく音割れをさせるにはジャンボジェットのエンジンくらいが必要。ただ、ジェットエンジンで集音すると風圧でマイク自体が壊されるので、音割れさせるのは実質不可能」らしい。

 前世代のElgatoオーディオ製品には初代のClipguardが搭載されていた。初代では、メインのオーディオパスとは別に、低ゲインの予備パスを用意しておき、音割れをしそうになったらオーディオパスを予備パスへと切り替えることで音割れを防いでいた。

 音割れ防止という目的は同じだが、2.0は初代と根本的に設計が異なる。まず、通常は1つしかないアナログデジタル変換器(24bit ADC)が3基ある。1つはローゲイン用、もう1つは中間ゲイン用、残りの1つはハイゲイン用だ。

 これらは並列で同時稼働しており、随時1つの32bitフロート信号へと統合される。32bitフロートという非常に広い帯域の信号になっているため、3つのADCでキャプチャーした信号は統合されても失われない。

 ただし、Wave FX対応の各種ハードの解像度は24bitとなっているので、32bitから24bitへと変換する必要がある。ここではデジタルリミッターがピーク値を管理する。

 こういった徹底的な管理により、Clipguard 2.0搭載製品では音割れがしないのだという。

 そもそもなぜ音割れを防ぐべきなのか?音割れとは、音声信号がマイクがキャプチャーできる上限を超えた際に発生する。上限を超えているということは、その分の音声信号は失われるということだ。データが失われただけでなく、単純に聞き心地がよくない。音割れさえしてなければ出力段階で音量を適切に調節できるが、音割れした音はデータが損失しているので、出力段階で音量を下げても音割れしたままとなる。

ノイズ低減や声の整えをハード処理するDSP

各種エフェクトをハードウェア処理できるDSP

 マイクに関して配信者にとって悩ましいのが環境ノイズだ。自宅配信だと、PCファン、エアコン、周囲を走行する車両などの騒音源が存在する。これらが配信に載ったからといって致命的ではないが、ノイズを抑えるに越したことはない。

 ちなみに、配信において大事なのは画質より音質だといわれている。たとえばビットレートが低くて映像にブロックノイズが多少入っていてもそこまで視聴の妨げにならないが、音がたびたび割れたり、不快なノイズが混じっていたりすると離脱率が上がってしまうそうだ。Clipguard 2.0と、これから紹介するDSP機能で、そういった問題を解消できる。

 Wave FXでは、Clipguard 2.0で処理した信号は内蔵DSPへと送られる。ここでは、ローカットフィルター、エキスパンダー、Voice Tune、コンプレッサー、イコライザーという音声調節を実行する。

 これらの処理を行なうことで、音声を聞きやすくしたり、ノイズを低減したりできるのだが、特筆すべきはDSPでハード処理しているため、遅延なしで処理後の音声をモニタリングできるという点だ。

 コンプレッサーやイコライザーなどは、OBSなどにもその機能がある。しかし、ソフト処理した音声をモニタリングしようとすると遅延がある。試してみると分かるが、コンマ数秒遅れた自分の声を聞きながら会話を続けるのは不可能に近い。

 モニタリングせず、処理した音声は配信にのみ載せるということもできるが、個人的にはモニタリングしないとイヤフォンからゲーム音のみが大きく聞こえてしゃべりにくくなってしまうので、モニタリングしたい。Wave FX対応製品なら、ユーザーが聞いているのと同じマイク音を自分でも遅延なく聞きながら配信できる。

 各機能についても簡単に解説する。ローカットフィルターは、マイクが拾う低周波帯をカットする機能。声のこもりを解消し、エアコンなどが発するノイズも一部低減できるなどの効果がある。

 エキスパンダーは、小さい音をカットする機能。似た機能としてノイズゲートがある。ノイズゲートは一定のしきい値以下の音をバッサリと消してしまう。そのため、場合によっては小さめの声までもがカットされて聞きにくくなることがある。エキスパンダーは、この後説明するコンプレッサーのように、一定のしきい値を超えた音声をいきなりカットするのではなく、なだらかに低減する。これによって、聞かせたい音までカットさせることなく、ファンノイズなどを消せる。

 Voice TuneはElgato独自の機能で、声に豊かさと温かみを加える調整を行なうという。

 コンプレッサーはおなじみの機能で、音量がしきい値を超えると一定レベルに音量を抑える。加えて、ゲインを引き上げることができる。これによって、小さい声と大きい声の差を縮めて一定範囲内に収めることができるため、聞きやすくなる。地味ながら非常に重要な機能だ。

 イコライザーは低音、中音、高音を微調整する機能。これを使ってうまく調整すると、声がよりクリアになる。

 Wave FXはこれらの機能を提供するだけじゃなく、設定も簡単にしている。基本的には、Wave Link 3.0ソフトを使ってオンにするだけで効果が得られるようになっている。コンプレッサーやイコライザーは間違った設定にしてしまうと音質は上がるどころか下がってしまうが、詳しくない人はデフォルト設定のままでもいいだろう。きちんと設定した人は、細かく設定もできる。

 なお、DSP機能については、第2四半期に発売予定のWave XLR Proのみ、ダッキングとMix Maximizerという2つの機能が追加されている。

VSTを低遅延でモニタリングできるVSTインサート

VSTインサートの仕組み

 前述の音割れ防止や、DSP機能についてはすでに他社が似たような機能を実装済みで、Wave FXは後発といえる。しかし、次に紹介するVSTインサートは少なくともコンシューマ向けマイクやオーディオインターフェイスに実装されるには初ではないかと思われる。

 VSTとは、DAW(音楽作成)ソフト向けのプラグイン規格。ボーカルにリバーブをかけたり、ギターの音にディストーションをかけたりと幅広いVSTが存在する。また、DAWだけでなく、OBSでもVSTプラグインを利用可能だ。

 DAWソフトの場合、オーディオハードウェアはASIOドライバを利用する。ASIOドライバは通常のWindows用オーディオドライバより遅延を少なくできる。そのため、VSTプラグインを適用しても、低遅延でモニタリングできる。

 一方、Elgatoオーディオ製品はASIOに対応しておらず、OBSなどでVSTプラグインを普通に使い、モニタリングするとやはり遅延が発生する。そこでWave FXに搭載されたのがVSTインサートだ。

 VSTインサートにより、オーディオ信号はWave FXチップから専用の高速インターフェイスを介してWave Linkにルーティングされる。そして、VSTを適用された音声は、即座にWave FXデバイスのヘッドフォン出力に戻されるため、低遅延でVST処理した音声をモニタリングできるという具合だ。

 配信の場合、VSTを使ってボイスチェンジャーを利用したり、リバーブをかけて歌ったりという用途がある。いずれも、エフェクトがかかった自分の声をモニタリングできた方がはるかにノレる。そのため、この機能を歓迎するユーザーは多いだろう。

 ただし、VST処理はソフトウェア上で行なわれるため、DSPエフェクトのように遅延なしとはいかず、多少の遅延は発生する。どれくらい発生するかはこの後の検証パートでお伝えする。

 遅延が起きるのであれば、DAWソフトとASIO対応オーディオデバイスを使った方がいいのではと思うかもしれない。遅延のことだけを考えるならその通りだろう。しかし、その場合は基本的にASIOドライバは1つのソフト上でしか同時に使えないという制約があり、それを回避する(DAWソフトでVSTを挿してOBSに渡すなどする)にはルーティングが複雑になり、かなりの知識が必要となる。

 それに対してWave FXの場合は、Wave Link上でマイクに対してVSTプラグインをオンにするだけでいい。また、マイクに直接VST処理をかけられるので、OBSだけでなくDiscordやWeb会議ソフトでも利用できるというメリットがある。

 先のDSPエフェクトもそうだが、Elgatoのオーディオ製品は簡単に高音質を実現できることを目指している。その観点から、VSTインサートは目の付け所が鋭い機能だと感じた。

検証結果: DSPエフェクトで一定のノイズ削減効果も。VSTインサートは実用レベルの遅延

 今回、Wave XLR MK.2を使って、ノイズ低減と処理の遅延という観点で検証を行なってみた。使ったマイクはShureのダイナミックマイク「MV7X」だ。

 Wave LinkのSound Check機能を使い、録音した音声を繰り返し再生しながら、Lowcut Filter、Expander、Voice Tune、Compressor、Equalizer、Voice Focusをそれぞれ適用したのが下記の動画だ。Wave FXのDSPエフェクトはExpanderを除き、基本的には音質を上げるものでありノイズ抑制が主目的ではないが、特に環境ノイズを意識しながら聞いてほしい。

 筆者の環境は、メインPCの水冷ユニットにちょっとガタが来ており、常時ジリジリとしたビビり音とファンの音が発生している。各種エフェクトを適用していない状態だとそれがよく聞こえるだろう。

 それに対し、Expanderを適用するとそこそこそのノイズがカットされる。ただ、Compressorをかけると再度ノイズレベルが上がってしまうので、Expanderとうまく設定のバランスを取る必要がある。

 そして、ノイズ低減という意味でやはり一番効果があるのはVoice Focusだ。これを適用すると筆者の環境のノイズはほぼ消し去ることができる。

 もう1つVoice Focusについて驚いたのが遅延の少なさだ。Voice FocusもVSTプラグインの1つでありソフト処理されるため、DSPエフェクトのようにゼロ遅延とはいかない。Voice Focusを適用し、それをモニタリングしていると遅延は感じる。しかし、その遅延はごくわずかで、聞きながらしゃべっていてもほとんど違和感を覚えないレベルなのだ。

 モニタリングの音量レベルや使っているイヤフォン/ヘッドフォンによる部分もあるが、筆者の環境だと同じノイズを聞いていても、直接耳で聞くよりイヤフォン越しの方がノイズが目立つ。そんな場合もVoice Focusを使えば、ノイズがほとんどないマイク音を最低限の遅延で聞くことができる。

 VSTインサートについては、Elgato製の「Reverb FX」とVoiceMod製のボイスチェンジャー「Akari Voicemod FX」も試してみた。リバーブについては、そもそも遅延させるという特性もあるが、処理が軽いためまったく遅延を感じられない。これならリバーブがかかった声を聞きながら気持ちよく歌うことができる。

 ボイスチェンジャーについては、今回試したVSTの中で一番遅延を感じた。しかし、それでもVSTインサート効果により遅延はかなり抑えられている。実際、Voicemod単体ソフトを使って同じ声のボイスチェンジャーを適用すると、だいぶ遅れて声が聞こえるため、モニタリングしながらの会話に困難が生じる。

 一口にVSTインサートといっても遅延の度合いが異なるのは、その処理にかかる時間が違うためだ。では、実際に各種VSTでどれくらいの遅延が発生するのか?今回、RTL Utilityというソフトを使って遅延を計測した。このソフトを使うと、音を鳴らす命令を出してから音が出力され、それが入力に戻ってくるまでの時間を計測できる。計測にあたり、Wave XLR MK.2のXLR入力とヘッドフォン出力をケーブルで接続している。

RTL Utilityを使って遅延を計測した

 VSTを利用していない時の遅延時間は124ms程度だった。Voice Focusをオンにすると遅延は179msになった。Wave XLR MK.2にイヤフォンをつないでモニタリングしている時は遅延が起きないので、179-124=55msがVoice Focusをオンにした際の追加の遅延となる。ただ、これはWave XLR MK.2に対してサウンドを鳴らすという命令を出してから、VST処理をこなした後に入力に戻ってくるまでの往復にかかる時間だ。

 出力にかかる時間と入力にかかる遅延は同じではないが、ここではざっくり半分半分だとすると、VST処理して入力に渡されるのにかかるのが27ms程度ということになる。これが、おおよそVoice Focusをモニタリングしたときの遅延と言っていいだろう。

 ただ、上述の通り、上りの処理にかかる時間と下りの処理にかかる時間が同じくらいという想定がどこまで妥当か分からないので、1回拍手する動画をVoice Focusありとなしの状態で録画して、音声トラックのスパイクが発生するまでの時間を比べてみた。これはこれで60fpsで録画しているので、精度が16ms単位でしかないのでおおざっぱな参考にしかならないのだが、両者の差は2フレーム、つまり約32msだった。

 ということで、RTL Utilityと動画撮影の検証結果を踏まえると、Voice Focusの遅延は30msほどだといえそうだ。人間の聴覚は30msくらいから遅延に違和感を覚え始めるといわれている。Voice Focusをモニタリングしていると「あ、気持ち遅れているな」と感じるので、体感とも合致している。

 そしてVoicemodのボイスチェンジャーVST利用時も遅延を測定した。こちらは動画での検証は困難なので、RTL Utilityのみで測った。この時の遅延は203msだったので、ここから124msを差し引き、2で割ると約40msの遅延となる。一方、単体のVoicemodで測ると200msあった。これも半分に割ると、およそ100msがモニタリング時の遅延となる。これだけ遅れていると聞きながら話すのが困難になってくる。

 なお、注意点としてWave LinkでDirect Monitoringをオンにすると、ソフト処理した音声のモニタリングはできなくなる。VSTインサート後の音をモニタリングしたい場合は、Direct Monitoringをオフにしよう。

シンプルな構成のハードウェア

 本稿はWave FXにフォーカスしているので、検証は以上の通りだが、オーディオインターフェイスとしてのWave XLR MK.2についても紹介しておく。

 入出力インターフェイスはPCとの接続用のUSB Type-Cのほか、マイク用のXLR端子と、イヤフォン用の3.5mm端子があるだけのシンプルなもの。外部入力などはないので、ピュアなオーディオ機器として見ると少し物足りないだろう。XLR端子はファンタム電源にも対応する。

端子類は、USB Type-C、XLR、3.5mm音声出力のみ。その上の「Mute」というところはタッチ式のミュートスイッチ

 上面にはタッチセンサー式のミュートボタンがある。前面のダイヤルは360度の回転と押し込み操作ができる。ダイヤルはクリック感があるので、ボリュームやゲインなどを1dB単位で調整したいときなどにも操作しやすい。ダイヤルを押し込む度に左下のLEDが変わり、マイクゲイン、Voice Enhancer強度、イヤフォンボリューム、マイク/PCのミックス度合いの調整を切り替えられる。

 ダイヤル周囲のLEDリングには、マイクの入力レベルがリアルタイムで緑色に、イヤフォンボリュームがその上に白い点で表示されるので、1つのLEDでありながら2つの役割を持っているのがおもしろい。ミュート時は赤色になる。

ダイヤルを押すとモードが変わる。マイク入力レベルについては、緑色でレベルがリアルタイム表示される。白いイヤフォン出力レベルも同時に表示される
イヤフォンボリュームは白で表示
Voice Enhancerの強度はオレンジ色で表示
マイク/PCのミックス度合いは白で表示
ミュート時はリングが赤くなる。

 マイクプリアンプの性能は検証していないが、55dB程度のゲインが必要とされるMV7Xで問題なく利用できた。同じShureでワンランク上のSM7Bを使っている配信者も多くいる。こちらは60dB以上のゲインが必要と言われている。筆者自身は試していないので断言はできないが、製品情報に「Shure SM7Bにも最適です」と書かれているので問題ないはずだ。

今後さらに"化ける"可能性を秘めたオーディオデバイス

 VST処理にかかる時間は当然PCのスペックにも依存する。そのため、今回測定した数字は精度の観点からもおおよその目安として受け取ってほしい。ただ、Voice Focusによるノイズ低減、リバーブ、ボイスチェンジャーあたりは違和感のないレベルの遅延でモニタリングしながら使えるというのが重要な点であり、この機能のためにWave XLR MK.2(あるいは同じWave FXを搭載した製品)を導入したいと考えるコンテンツクリエイターも少なくないだろう。

 筆者が所有している配信用オーディオインターフェイスBEACN Studioは、EQ、コンプレッサー、エキスパンダーに加え、ノイズ抑制までもハードウェアで処理できる。このノイズ抑制は非常に強力で、10秒ほど環境ノイズを録音しスナップショットを録り、リアルタイムでそれを打ち消せる。つまり、Voice Focusと同等以上の処理をゼロ遅延で実現できる。

 そのためノイズの低減という点で言うと、BEACN Studioの方が性能は上だ。しかし、Wave FXにはVSTインサートという機能がある。これにより、Wave FXがハードで持っていない音声処理機能も最低限の低遅延で適宜追加できるのは唯一無二の強みといえる。

 ただ、懸念点としてVSTプラグインの価格は高いと言わざるを得ない。Elgato純正だとディエッサーは無料だが、リバーブは2,373円する。また、Voicemodのボイスチェンジャーは1種類ごとに1,600円ほど(3月下旬時点)する。筆者はVoicemod単体の永久ライセンスを購入済みなのだが、このライセンスはElgato用VSTプラグインには適用されないので、Voicemodユーザーも買い足す必要がある。ボイスチェンジャーは使う人の声によって聞こえ方が変わることもあり、せめて購入前に試用できる仕組みが欲しい。

 とはいえ、VSTプラグインの購入は必須ではない。Wave FXの標準機能のままでもWave XLR MK.2は多くの配信者にとって魅力的なデバイスといえる。