特集

音声合成ソフトの進化がすごい！無料で使えるVOICEVOXや有料のVOICEPEAKを試してみた

藤本健

2022年4月16日 06:30

音声合成ソフト「VOICEVOX」の操作画面

　コンピュータが人間の言葉を音声で発する音声合成。テキストをスピーチに変換するという意味で「TTS(Text to Speach)」と呼んだり、「入力文字読み上げソフト」といった表現をすることもあるが、この音声合成の世界がこの1～2年で大きく発展を遂げている。

　その背景にあるのがディープラーニングを用いた人間の声の分析と合成になるのだが、もはや人間が喋っているのか、機械が喋っているのか判別できないレベルに進化してきているのだ。実はさっき人が喋っていると思っていた声が、コンピュータによる合成だった……というケースも少なくないはず。実際、いまどんなことが起きているのか、整理しながら紹介してみたい。

記事目次

　(1) 音声合成はディープラーニングで急速に進化
　(2) 代表的な音声合成ソフト
　(3) 有料のVOICEPEAKを試す
　(4) 無料のVOICEVOXを試す

音声合成はディープラーニングで急速に進化

　最先端技術でもある音声合成だが、その歴史はかなり長い。最初の音声合成は1791年にヴォルフガング・フォン・ケンペレンというハンガリーの発明家が作った機械式のスピーキング・マシンである、と言われており、子音と母音を組み合わせて人っぽい声で喋らせることができるものであった。

　しかし、コンピュータによる音声合成となると、1960年代となってくる。アメリカの通信研究所であるベル研究所においてIBM 7094を使って音声合成を行なうと同時に「Daisy Bell」という歌を歌わせることまで実現している。その歌声を記録したビデオはYouTubeなどでも公開されているので、興味のある方は検索して聴いてみるとおもしろいと思う。

　ヤマハ株式会社はVOCALOIDにつながる歌声合成の研究開発をスタートした2000年当初、そのDaisy BellにちなんでDaisy Projectと名付けていたのはよく知られる話だ。

　音声合成の歴史の話をし出すとキリがなくなるので、ここでは割愛するが、一般のPCで広く音声合成が普及するようになったのは、2009年に株式会社AHSが発売したVOICEROIDがキッカケだったと思う。

　それ以前からもいくつかのソフトはあったが、キャラクタを前面に打ち出し、かなりキレイな声で喋らせることができたため、多くの関心が集まった。

　そのVOICEROIDには株式会社エーアイが開発したAITalkというエンジンが使われていたが、漢字・かな交じりの日本語のテキストを入力すると、流暢に喋ってくれるということで爆発的にヒットしたのだ。

　ちなみにエーアイは音声合成を専門に研究・開発するソフトメーカーとして2018年に上場している。そのAITalkより前の2006年に、アクエストが開発したAquesTalkが公開されているが、これは後の棒読みちゃんなどにつながっているものだ。

　こうした音声合成ソフトは、波形接続型音声合成とかコーパスベース音声合成などと呼ばれている。これは人間の声を録音し、それを子音、母音などに細かく分割するとともに、コーパスと呼ばれる言葉データベースに従って再構築して音声を作り出すというもの。

　ある意味、デジタル録音した声を再生しているとも言えるので、元の人の声の特徴をリアルに再現できる。またその録音時に、楽しそうな声、悲しそうな声、怒った声など、表情を付けた状態で行なうことで、感情ごとのデータベースを作成すれば、感情表現のできる音声合成も可能になる。

　ただし、それぞれに膨大な量の録音した声をデータとして使うため、インストール容量が大きくなるという問題はあった。もっとも感情表現を持った1つの声で数GB程度なので、いまの時代それほど気にするものではないかもしれないが……。

　それに対し、ここ1、2年で急速に進展してきたのがAI音声合成とか、DNNパラメトリック音声合成などと呼ばれているものだ。

　これも人の喋りを最初に録音し、ラベル付け、つまり子音や母音の位置で切っていくところまでは同じだが、それをコンピュータにディープラーニングさせ、どのように喋っているのかを学習させている。この学習においては、人がどのように発音しているのかを学んでおり、それを元に再合成をかける仕組みだ。

　その際、ボコーダーと呼ばれる、いわば喉や口をシミュレーションするシステムを通して発音させるため、パラメータさえあれば合成できるのも特徴。

　昨今のディープラーニングの進化からこのパラメータの精度が非常に上がってきており、もはや人の声と区別できないほどリアルになってきているのだ。

　またパラメータのデータサイズは録音されたPCMデータと比較すると遥かに小さいため、インストールサイズも波形接続型と比較して1/100程度になるというメリットもある。

代表的な音声合成ソフト

　こうした状況から、音声合成は波形接続型からAI型に移り変わってきているが、最近の代表的な音声合成をピックアップすると以下の表の5つが挙げられる。

【表】代表的な音声合成ソフト
	エンジン	商用利用	エンジンメーカー	発売元	価格
A.I.VOICE	波形接続/AI	別料金	エーアイ	エーアイ	9,680円～
CoeFont	AI	プランによりOK	CoeFont	CoeFont	月額500円～
CeVIO AI	AI	別料金	テクノスピーチ	各社	9,020円 ※音声は別
VOICEPEAK	AI	〇	Dreamtonics	AHS	2万3,800円～
VOICEVOX	AI	〇	オープンソース	オープンソース	無料

　少し補足すると、A.I.VOICEはエーアイ開発のAITalk5というエンジンを搭載しており、これは従来からの波形接続とAIのハイブリッドとなっている。

A.I.VOICEの画面

　CoeFontはクラウド型となっており、PCにインストールする必要がなく、ブラウザ上で使える。そのためスマホでも利用できるというメリットがある。

CoeFontの画面

　CeVIO AIは従来からあったCeVIO Creative Studioと並行して販売されているもので、音声合成と歌声合成の両方に対応しているソフトだ。エンジンはテクノスピーチが開発しているが、最終的な製品は各キャラクタごとにAHSや1st PLACE、KAMITSUBAKI STUDIOなどが発売元となっている。

CeVIO AIの画面

　VOICEPEAKとVOICEVOXについてはこの後で、詳しく紹介するが、もう1つ重要なチェックポイントとなるのが商用利用について。つまり、喋った声でビデオ作品を作って販売したり、通販サイトのナレーションに使うなど、商用で使っていいのかという点だ。

　これは各社ごとに細かな規定があるので、詳細は各自確認していただきたいが、一般的に広告入りのYouTubeで利用する程度までは個人利用に留まるとみなされているようだ。

　ただし、YouTubeであっても法人で利用する場合は商用利用ととられるので、その点も注意が必要。商用利用の料金は、個別問い合わせとなっているケースが多いようだが、例えば年間10万円といった単位になっている。

　さて、その中で今回は商用利用が無料で手軽に使えるソフトとしてVOICEPEAKとVOICEVOXの2つをピックアップしてみる。いずれもWindows、Mac、Linuxのそれぞれの環境で使えるソフトになっているのもユニークなところだ。

有料のVOICEPEAKを試す

　まずVOICEPEAKはAHSが企画するソフトで、正式製品名は「VOICEPEAK商用可能6ナレーターセット」というもの。6ナレーターセットとはなっているが実際には女性3ボイス、男性3ボイス、さらに幼い女の子の声の計7ボイスがセットになっている。

VOICEPEAK商用可能6ナレーターセットには合計で7ボイスが入っている

　また、多くの音声合成ソフトがキャラクタを前面に打ち出しているのに対し、VOICEPEAKは女性1、女性2、女性3、男性1、男性2、男性3、女の子、とキャラクタ付けしていないのも特徴。ビジネス利用などを念頭にシンプルな製品にしているようなのだ。

　編集部から課題文章として以下の文面をもらった。

【サンプルテキスト】

購入価格は約32万円。大きな出費となったが筆者は最新のVAIO SX14を買った。経費としてではなく、正真正銘の自腹である。この記事は、2世代前のVAIO SX14(第2世代)から、この最新の第4世代VAIO SX14に買い換えた筆者の購入記だ。なぜ筆者が2台続けてVAIO SX14を買ったのか、ほかにも選択肢がある中でなぜあえて選んだのか、その理由をつまびらかにしていきたい。

　このテキストを単純にコピーし、VOICEPEAKにペーストして、女性1、そして男性2の設定にして再生させたのが以下のものだ。

VOICEPEAK 女性1

VOICEPEAK 男性2

動作中の画面

　かなりリアルに発音しているのが分かると思う。下手に人に読ませるよりも上手なナレーションではないだろうか?

　ちなみに「VAIO SX14」(バイオエスエックスジュウヨン)は固有名詞ではあるものの「VAIO」という言葉を知っているようでスムーズに読んでくれる。ただ、必要あれば固有名詞などを辞書登録することが可能で、その読み方やイントネーションを指定することも可能になっている。

固有名詞の辞書登録

　またカッコについては微妙な間合いでの間隔を空けて読み飛ばしている。これは句読点などにおいても同様で、必要の応じて間隔の長さを調整することも可能だ。どうしても「カッコ」「カッコトジ」と読ませたいのであれば、そのようにカタカナを入力することになる。

カッコについては、カッコそのものは読まず、間隔を空けてカッコ内の文字を読む

　画面下には長さ調整のエディタのほか、アクセント調整、イントネーション調整のエディタを表示させることが可能。通常は特に何もしなくても、先ほどのように喋らせることができるが、必要に応じてこれらを動かすことで、より求める発音にすることが可能になる。

アクセントを調整

イントネーションの調整

　また画面右側では、読むスピード(速さ)や、声の高さ(ピッチ)などを調整できるほか、幸せ、楽しみ、怒り、悲しみの4つのパラメータがあるので、これらを動かすことでも、かなりニュアンスを変えることが可能。

　うまくできたら、メニューから出力を選び、WAVファイルもしくはFLACファイルで書き出すことができるようになっている。この際サンプリングレートを44.1kHz、48kHz、96kHzから選ぶことも可能。必要に応じてブロックごとに分割して保存することもできる。

音声はWAVかFLACファイルで出力

無料のVOICEVOXを試す

　続いてVOICEVOXを見てみよう。これはオープンソースのフリーウェアという形のソフトになっているので、誰でも無料で入手可能。ダウンロードする際、Windows、Mac、Linuxのいずれかを選択するとともに、GPU/CPUモードか、CPUモードかを選べるのもVOICEVOXの特徴。GPUとしてはNvidia製のGPUが必要となるが、GPUを使った方がより負荷が軽く快適に使えるようになっている。

　このソフトは、現在ドワンゴの社員でもあるヒロシバ氏が、個人の立場で開発し、公開しているもの。貢献者リストを見るとヒロシバ氏のほかにも多くの人の名前が並んでいるので、まさにオープンソースとして色々な人が開発に加わっているようだ。

　また、2022年4月現在VOICEVOXは0.11.4というバージョンになっているが、ここには四国めたん、ずんだもん、春日部つむぎ、雨晴はう、波音リツ、玄野武宏、白山虎太郎、青山龍星、冥鳴ひまり、九州そらの計9つのキャラクタがあり、キャラクタによってはノーマル、あまあま、ツンツン、セクシーなど複数の声が用意されているといった格好だ。

VOICEVOXでは音声が豊富でキャラクター付けされている

　ここでも、先ほどと同じ課題文章をコピー&ペーストして四国めたん(ノーマル)および、九州そら(ささやき)に喋らせてみた。

四国めたん(ノーマル)

九州そら(ささやき)

四国めたん(ノーマル)

九州そら(ささやき)

　そのままでも問題なく喋ってくれたし、VAIOもしっかり発音してくれたのだが、VAIOとSXの間に妙に間があり、やや不自然さを感じたので、「VAIO SX」として単語登録した上での結果が以下のものだ。

VOICEVOXでの単語登録

　四国めたんは、きれいに読み上げてくれるし、九州そらのささやきは、これまでにないリアルなささやき声を実現してくれる。VOICEVOXはキャッチフレーズとして「無料で使える中品質なテキスト読み上げソフトウェア」とある通り、確かに有料のVOICEPEAKの方が、間の取り方などが上手ではある。とは言え、無料でここまでの喋りを実現してくれることには驚かされる。

　またなぜ14を「じゅうよん」と読むケースと「いちよん」と読むケースがあるのかは、ちょっと気になるところだったが、その次のカッコの位置などが関係しているようではあった。

　このVOICEVOXもアクセント、イントネーション、長さの3つのパラメータで調整できるのもVOICEPEAKと同様であり、話速、音高、抑揚、音量などが調整可能。こちらは感情表現のパラメータはないが、その分、キャラクタでノーマル、あまあま、ツンツン、セクシーなどが選択できるようになっている。

イントネーションの調整

長さの調整

　音声の書き出し方は1つ1つの文で書き出すか、全部をつなげて書き出すかを選択できるようになっており、ファイル形式はWAV。必要に応じて設定オプションでサンプリングレートを変更できるようになっているが、デフォルトは24kHzで、そのほかに44.1kHz、48kHz、96kHzが選択できるようになっている。

WAV形式で出力できる

　先ほども触れた通り、VOICEVOXは無料ソフトであるのにも関わらず、商用も含めて無料で使うことができるのも大きなポイント。ただし、音声ライブラリごとに利用規約があり、「VOICEVOX : 四国めたん」などととクレジットを記載すること、など決まりがあるので、使用する場合はチェックしてほしい。

　以上、最近の音声合成ソフト事情について、俯瞰する形で紹介してみたが、いかがだっただろうか? かなり人間らしい喋り方ができることに驚く方も多かったのではないだろうか?

　まさに進化の真っただ中の最新技術であり、この先1、2年後にはさらにリアルになっている可能性も高そうだし、より多くのライブラリが登場してくると思われる。

　ビデオのナレーションに使ったり、プレゼンテーションの音声に活用したり、もちろんVtuberの音声に使ったり、ゲーム実況を始めとするネット配信に利用するなど、活用法は様々。使い方もいたって簡単なので、これまで音声合成ソフトを使ったことがない人も、一度試してみてはいかがだろうか?