トピック

OBS用AIプラグインで翻訳字幕が「無料・文字数無制限」になるだと!?切り抜き作成にも便利!

~ハイエンドゲーミングPCの余剰能力を、次世代の配信環境構築に活用しよう!

マウスコンピューターの「G TUNE FZ-I7G70」でOBS LocalVocalによる翻訳字幕の設定方法やGPU負荷を紹介していく

 配信を中心に活動するYouTuberやVTuberが、海外からの視聴者も楽しめるようにと翻訳字幕を表示する人が増えている。また、配信動画を元に切り抜き動画やショート動画を作ってさらに多くの視聴者にアプローチするというのも一般化してきている。しかし、リアルタイムで翻訳字幕を表示する無料ツールはすぐに制限に達して長時間の配信では使いにくい。あるいは、切り抜きやショート動画を作るためにテロップを付けるための文字起こしが大変という悩みも増えている。

 それを解決できる手段の1つとして紹介したいのが、ハイエンドゲーミングPCのパワフルなGPUとOBS Studio用ローカルAI「LocalVocal」の組み合わせだ。本稿では、マウスコンピューターの高性能ゲーミングPC「G TUNE FZ-I7G70」を使って、その導入/設定方法からローカルAI処理による負荷、ゲーム配信に与える影響までチェックしていく。よりよい配信環境の構築に役立つはずだ。

GPUパワーでAIをローカル実行するOBSプラグイン「OBS LocalVocal」

 まずは「OBS LocalVocal」を紹介する。これはローカルでAI処理し、マイク音声を聞き取ってリアルタイムで字幕を付けられるOBS Studio用のプラグインだ。多数の言語に対応しているので、日本語をそのまま字幕として表示できるのを始め、英語や中国語など各国の言語に翻訳しての表示もできる。2024年に一時開発が休止していたが、2025年の秋からアップデートが再開し、以降は精力的に活動していることからいま再び注目されている。

 OBS LocalVocalを使う配信時のメリットは、“文字数や料金の制限がない”こと。リアルタイムに翻訳字幕を出す無料サービスは「音声認識字幕ちゃん」などが存在するが、Google翻訳APIの無料枠を利用しているため、1日5,000回という制限があって長時間配信には向いていない。最近追加されたChromeの内部翻訳機能を使ってこの制限を回避するアップデートもあったが、それでも利用できるブラウザが限定されるという制約が残ってしまう。

 その点、OBS LocalVocalはローカルで動作するため、APIやブラウザといった制限を気にしなくてよいのが強み。長時間配信でも安心して翻訳字幕を付けられる。

OBS LocalVocalを使えば、文字数の制限なく日本語や英語の字幕を配信に載せられる

 配信後のメリットもある。それは、“音声認識結果をテキストファイルとして保存可能”なこと。これによって配信後に切り抜きやショート動画を作成したい時、テロップの文起こし作業がかなり減るため、作成効率が大幅にアップする。配信に字幕を載せなくても、その後の編集作業を考えてOBS LocalVocalによる音声認識を動かしておくという使い方もアリということだ。

これは認識結果をテキスト保存したもの。切り抜き動画作成時のテロップ作成効率を劇的に高められる

 その一方でトレードオフも存在する。ローカルで処理するためある程度のGPU負荷が発生することだ。また、OBS LocalVocalのインストールや設定には、それなりの知識と手間がかかること。ただし、使い方については、このあと詳しく解説するので安心していただきたい。また、今回紹介するG TUNEであれば、GPU負荷について心配する必要はない。

音声認識モデルの選択が重要! 「OBS LocalVocal」設定ガイド

 ここからは、OBS LocalVocalの設定方法を紹介していく。検証機材として用意したのはマウスコンピューターのゲーミングデスクトップPC「G TUNE FZ-I7G70」だ。

 CPUはIntel最新世代で20コア(Pコア8基、Eコア12基)20スレッドのインテル Core Ultra 7 プロセッサー 265Kで、パフォーマンスと効率の両面でスケールアップを実現。これまでにないAI PC 体験を提供する。

 GPUはNVIDIA最新世代となるGeForce RTX 5070とアッパーミドルという構成。配信しながらのゲームプレイはもちろん、クリエイティブワークやAI処理にも活躍できるスペックだ。メモリはDDR5-5600が32GB(16GB×2)、ストレージはNVMe SSDが2TBと十分な容量が確保されている。価格は46万4,800円から。

 今回紹介するOBS LocalVocalは、AI処理で主にGPU(CUDA)を活用しているが、CPU性能が低いとシステム全体のパフォーマンスバランスが悪くなる。本製品が採用するインテル Core Ultra 7 プロセッサー 265Kなどの最新かつ高性能なCPUがオススメだ。

検証に使用するのはマウスコンピューターのゲーミングデスクトップPC「G TUNE FZ-I7G70」。直販価格は46万4,800円から
CPUには20コア(Pコア8基、Eコア12基)20スレッドのインテル Core Ultra 7 プロセッサー 265Kを搭載
性能をエンスージアスト級に、さらなる性能と高い効率を提供
GPUはGeForce RTX 5070を搭載する

 まずはOBS LocalVocalを公式サイトからダウンロードしてインストールする。原稿執筆時点での最新版は「OBS LocalVocal 0.5.3」。OSやGPU別に複数の種類が用意されているが、GeForce環境ならば「obs-localvocal-0.5.3-windows-x64-nvidia-Installer.exe」を選択すればOKだ。

 ただし、これだけだとCUDAによる処理が行なえないため「CUDA Toolkit 12.8」もNVIDIAのサイトからダウンロードして導入する。

GeForceの場合はobs-localvocal-0.5.3-windows-x64-nvidia-Installer.exeをダウンロード
CUDAでの処理を行なうためにCUDA Toolkit 12.8も導入する

 OBS Studioを起動。日本語の音声をそのまま字幕表示するには、字幕を表示させたいシーンのソースで「+」をクリックし、「テキスト(GDI)」を選ぶ。名前を「字幕(日本語)」などとしておく。

 次に「音声ミキサー」のマイクを右クリックして、「フィルタ」を選択。フィルタのプロパティが表示されるので、画面左下の「+」をクリックして「ローカルボーカルトランスクリプション」を選択。これがOBS LocalVocalだ。フィルタの名前も分かりやすいものにする。これも「字幕(日本語)」とすると分かりやすい。

ソースに「音声入力キャプチャ」を追加する
音声入力キャプチャの右クリックメニューを開き「フィルタ」を選択する
「+」をクリックして「ローカルボーカルトランスクリプション」を選択
ここでは名前を「字幕(英語)」とした

 フィルタにさまざまなメニューが表示されるので「出力先」として、先ほどシーンに追加したテキストソースである「字幕(日本語)」を選び、「入力言語」は「Japanese」に、「GPU device」は「GPU:CUDA0-NVIDIA GeForce RTX 5070」に設定する。

 重要なのが「トランスクリプション」(文字起こし)の「モデル」選択だ。ここでのモデルとは、OpenAIが開発した多言語対応のオープンソース音声認識モデル「Whisper」のことを指す。これをベースにしたモデルは非常に数が多くあり、種類によってGPUの負荷や翻訳の精度が大きく変わる。目安になるのはTiny、Base、Small、Medium、Largeという言葉で順に負荷、容量が大きい。

 日本語での音声をそのまま日本語字幕で表示したい場合、いくつか試した結果「Whisper Japanese Kotoba V2.0 Q5」が日本語に特化しており精度もかなり高いのでオススメだ。

モデルに「Whisper Japanese Kotoba V2.0 Q5」を使えば日本語の音声をそのまま日本語字幕で表示できる。かなり高精度だ

 これで準備は完了。マイクに向かって話せば、ほぼそのまま字幕として表示される。表示させる位置や文字のフォント、サイズなどは好みに応じて調整しよう。

 次に、日本語音声を英語字幕で表示させる場合の設定を解説する。基本的には先ほどと手順は同じで、シーンに「字幕(英語)」といった名称でテキストソースを追加する。

 そしてマイクを右クリックして「フィルタ」、画面左下の「+」、「ローカルボーカルトランスクリプション」と選び、名称はやはり「字幕(英語)」などとしておく。出力先は「字幕(英語)」を、入力言語は「Japanese」を、「GPU device」は「GPU:CUDA0-NVIDIA GeForce RTX 5070」を選ぶのも同じ。トランスクリプションモデルは、ここでは翻訳の精度が高い「Whisper Large v3」を選択する。

 先ほどと違うのは、その下の「Local Translation」にチェックを入れる点。そして「出力言語」は「English」を選択する。「モデル」と「出力先」はデフォルトのままでいい。これで基本的な準備は完了だ。

入力言語を「Japanese」、GPU deviceを「GPU:CUDA0-NVIDIA GeForce RTX 5070」、モデルを「Whisper Large v3」にする
Local Translationにチェックを入れ、出力言語に「English」を選択

 フィルタの画面を閉じ、マイクに向かって何かしゃべってみよう。OBSの画面に英語へと翻訳された字幕が表示されるはずだ。

 ちなみに、トランスクリプションモデルとしてWhisper Large v3を選んだのは、Local Translationのモデルとしてデフォルトである「ウィスパーベースの翻訳」を使う際に、Whisper Japanese Kotoba V2.0 Q5と組み合わせるとOBSがクラッシュするためだ。Whisper Japanese Kotoba V2.0 Q5を使いたい場合は、Local TranslationモデルとしてM2M-100など「ウィスパーベースの翻訳」以外を選ぼう。

 複数言語の字幕を同時に表示させたい場合は、テキストソース(字幕)の数と、マイクに対して適用する「ローカルボーカルトランスクリプション」の数を増やせばいい。理論的にはローカルボーカルトランスクリプションの数に制限はないと考えられるが、数を増やす分システム負荷が増大するため注意が必要だ。実際の負荷については、下記で検証している。

 切り抜きやショート動画用に字幕をテキストとしてファイルに保存したい場合はフィルタ画面の一番上にある「モード」を「高度」に変更する。「ファイル出力設定」にチェックを入れることで、翻訳した字幕や日本語の字幕をテキストファイルとして出力できる。STR形式で保存を選ぶとタイムスタンプも追加されるので配信後の動画編集に便利だ。

字幕をテキストで出力するには、まずモードを「高度」に変更
ファイル出力設定にチェックを入れて、出力先とファイル名を決める

 ここからは実際にゲーム配信しながら字幕を表示した時の負荷の検証結果をお伝えする。日本語の字幕と日本語を英語に翻訳した字幕を両方表示し、YouTubeにフルHD/H.264/10Mbpsで配信してみた。日本語字幕のモデルは「Whisper Japanese Kotoba V2.0 Q5」に固定。英語への翻訳字幕は「Whisper Large v3」「Whisper Large v3 Turbo」「Whisper Medium q8」の3種類を試した。

 ゲームはVALORANTとストリートファイター6を用意した。GPU負荷とゲームへのフレームレートへの影響、日本語の認識と英語翻訳の精度に注目したい。実況は筆者が行なっており、内容は以下の通りだ。

【実際に話した内容】
ウィーどうもセリザワです今日はストリートファイター6のランクマッチをやっていきたいと思いますまず私の使用キャラを紹介しておきましょう一応マスターまで到達しているのはリリーとヴァイパーですねデバイスがパッドということもあってどちらもモダンです胴着系のキャラをクラシックでプレイすることもありますがヘバーデン結節で指が痛いということもあってモダンがメインになってますそういう点でもストリートファイター6のモダンはありがたいですね

 あえてゲームに関する専門的な言葉を入れ、くだけた感じでしゃべっている。ゲーム配信時の精度を見るのに参考になるはずだ。

【Whisper Japanese Kotoba V2.0 q8による字幕】
ウィーどうもセリザーです今日はストリートファイター6のランクマッチをやっていきたいと思いますまず私の使用キャラを紹介しておきましょう一応マスタマで到達しているのはリリーとバイパーですねデバイスがバットということもあってどちらもモダンです同期系のキャラをクラシックでプレイすることもありますがバーデン季節で指が痛いということもあってモダンがメインになってますそういう点でもねスレートファイター6のモダンはありがたいですね
【Whisper Large v3による翻訳結果】
Hey guys, it's SerizawaToday, I would like to do a rank match of Street Fighter VIFirst of all, let me introduce my main characters Lily and Viper have reached the masterThe device is bad, so both are modernI sometimes play classic characters, but I also have a pain in my finger in Heverden, so modern is the mainI'm grateful for Street Fighter 6's modern
【Whisper Large v3 Turboによる翻訳結果】
Hey, how are you, Selesawa?Today we're going to play Street Fighter VI's rank matchFirst of all, I'm going to introduce myselfThe Master of the Master is Rili and ViperThe device is bad and modernI'm going to play the classic game with the classic gameThe other hand is the main part of the modern styleBut I think Street Fighter VI is very good
【Whisper Medium q8による翻訳結果】
Wheeee! Domo! Serizawa desu!Today, I would like to play Street Fighter VI Rank MatchFirst of all, let me introduce my main characters The ones that reach Master are Lily and ViperBoth are modern because the device is a padThere are times when you can play classic characters, but there are times when you can play classic characters, but there are times when you can play classic characters, but there are times when you can play classic characters, but modern characters are the mainThank you for the modern version of Street Fighter VI

 Whisper Japanese Kotoba V2.0 Q5による日本語の認識はかなり正確だ。配信後にその動画を元にして切り抜きやショート動画を作るテロップとして、わずかな修正で使うことができるだろう。

 英語に関してはかなり大まかな翻訳になる。特にゲームでは専門的な用語が多くなるので、「ある程度は伝わるかな」ぐらいに思っておいたほうがよさそうだ。

 フレームレートの変化も見てみよう。VALORANTは練習場の一定コースを移動した際のフレームレート、ストリートファイター6はCPU同士の対戦を60秒実行した際のフレームレートをそれぞれ「CapFrameX」で測定している。なお、フレームレートは全体の平均値と、テスト実行時間全体のうち、フレームレートが低かった下位1%のフレームの平均値(最小1%)、つまりフレームレートが落ち込むところ、の2つを算出している。

Whisper動作+VALORANTプレイ時のフレームレート
Whisper動作+ストリートファイター6プレイ時のフレームレート

 VALORANTは軽いゲームなので、Whisperを動作させても総じて高いフレームレートが出ている。しかし、字幕を付けるとGPU負荷が高まるので、最小フレームレートが大きく下がる。その中でも「Whisper Large v3 Turbo」はフレームレートの落ち込みが小さかった。平均値もほかのモデルよりも高い結果となった。

 ストリートファイター6も同じ傾向だ。最大60fpsのゲームなので平均を見れば、どれもほぼ上限に到達しているが、最小では「Whisper Large v3 Turbo」が優秀となる。

 GPU負荷を見るとフルHDで軽めのゲームであれば、配信しながら翻訳字幕を付けても平均使用率は100%に達しないので、G TUNE FZ-I7G70はその余剰能力を十分に活用していると言ってよいだろう。ゲームプレイでの負荷で見れば、英語への翻訳は「Whisper Large v3 Turbo」モデルを使うのがよさそうだ。

Whisper動作+ゲームプレイ時のGPU負荷

 日本語字幕「Whisper Japanese Kotoba V2.0 Q5」と日本語から英語翻訳字幕「Whisper Large v3 Turbo」の環境に、さらに「Whisper Large v3 Turbo」を使って韓国語と中国語の字幕を加えた場合の負荷もチェックした。配信で多言語の字幕をつけたい場合の目安になるはずだ。ここではVALORANTだけを試す。

 翻訳する言語を増やしても平均フレームレートは大きく変わらないが、最小値は落ち込んでいく。実際にプレイしてみると、英語+中国語や英語+中国語+韓国語では、英語翻訳だけの環境では見られなかった、一瞬カクッと止まるような状況がたまに発生していた。VALORANTのように、常に安定したフレームレートが欲しいゲームをプレイする場合は、字幕は日本語+英語、英語+中国語など、2つぐらいにしておいたほうがよいだろう。

 どうしても複数言語の字幕を付けたいなら、もっと軽い音声認識モデルを選択すればいい。ただし、その分翻訳精度は下がるので、どのモデルが自分の環境にちょうどいいか試行錯誤が必要だ。

複数Whisper動作+VALORANTプレイ時のフレームレート
複数Whisper動作+ゲームプレイ時のGPU負荷

重厚で高冷却の「G TUNE FZ-I7G70」は周辺機器も充実

 今回検証に使用した「G TUNE FZ-I7G70」を紹介しよう。本製品は、ゲーミングデスクトップPCのG TUNEの中でフルタワー型に属する大型モデル。重厚なデザインと赤色のLEDによる力強い雰囲気が特徴だ。前面に3基、背面に1基のケースファン、そして360mmクラスの簡易水冷クーラーを搭載し、高い冷却力が確保されており、長時間のゲームプレイや配信も安心して行なえる。

前面3基、背面1基、天面には360mmクラスの簡易水冷クーラーと強力な冷却システムが組まれている
赤色LEDによってケース内部を照らすことができる
天面にはUSBポートやヘッドセット端子、LEDスイッチを用意。スライド式のカバーも備わっている

 メモリやストレージを変更しての注文に加えて、多彩な周辺機器を同時に選べるのもポイント。中でも注目したいのが、G TUNEオリジナルのラピッドトリガーキーボードワイヤレスゲーミングマウスだ。

 キーボードは70%サイズとコンパクトで磁気式スイッチを搭載し、アクチュエーションポイントは0.1~3.3mmの範囲で、ラピッドトリガーは0.1~2.0mmの範囲で設定が可能とFPSなどのゲームでとにかく素早い反応を求めるニーズに応えられる。滑らかな押し心地、かつ本体重量が約720gとずっしりしているので激しい操作でもまったく動かない安定性がナイスだ。

G TUNE ラピッドトリガーキーボード「GMK82」。70%サイズと言われるコンパクト型
RGB LEDバックライトを内蔵する
WASDキーキャップはオレンジとグレーの2種類を付属
USB接続による有線タイプだ

 マウスについては、ワイヤレス仕様ながら約38gと強烈な軽さを実現している。本当にバッテリが入っているのかと違和感があるほどの軽さで、長時間のプレイでも疲れにくいのがメリットだ。バッテリ駆動時間はポーリングレート1,000Hz設定で約50時間、8,000Hz設定で約15時間となっている。

ワイヤレス仕様でわずか約38gの軽さを実現したG TUNE ワイヤレスゲーミングマウス「G38
レシーバーはUSB接続
USBケーブルでPCと有線接続して使用も可能だ

 このほか、オリジナルのマウスパッド「G TUNE Alpha cell Hard-M」(約320×270×3mm)も用意している。ゲーミングモニターも充実しており、PC本体だけではなくゲーミング環境を一気に整えられるのもマウスコンピューターの強みと言ってよいだろう。

オリジナルのマウスパッド「G TUNE Alpha cell Hard-M」。サイズは約320×270×3mmと大きい
ゲーミングモニターも豊富に用意されている。写真は27型/フルHD/180Hzのスペックを持つ「G-MASTER GB2770HSU-B6

G TUNEで「AI配信」の未来を先取りする

 以上の通り、G TUNE FZ-I7G70の高いGPU性能があれば、高画質なゲーム配信に加えて、OBS LocalVocalによる「制限のないAI翻訳字幕」と「配信後の動画編集作業のためのテキスト化」が同時にできるようになる。ゲーミングPCへの投資は、快適なゲーム環境を整えられるだけでなく、「AIによる配信活動の効率化」という新しい価値を生み出す。

 本製品は、最先端の配信環境を構築したいと考えているコンテンツクリエイターの強力なパートナーになってくれるだろう。