Mac Info
Macでかんたん文字起こし!「Google ドキュメント」で自動化しよう
2021年9月7日 09:50
オンライン会議やセミナー、ビデオ通話などの機会が増えています。この会話の内容をテキストとして保存する「文字起こし」の作業は、慣れない人にとって大きな手間がかかります。この作業をMacで自動化する方法を紹介します。
リモートワーク時代に必須の作業
「文字起こし(テキスト起こし)」は、会議やインタビュー取材などで録音した音声を聞きながらテキストに書き起こす作業です。議事録や取材記事の作成には欠かせないもので、古くはカセットテープレコーダが録音に使われていたため「テープ起こし」と呼ぶ世代の人もいます。
最近では、オンラインセミナーの動画の内容をレポートとしてまとめたり、オウンドメディアのインタビュー記事を作ったり、リモート会議の議事録を作成したりするために、一般的な企業にお勤めの方でも行なう機会が増えているのではないでしょうか。
実際に体験したことがある方ならわかると思いますが、この文字起こしの作業は、音声を聞きながらタイピングするだけのシンプルな作業とはいえ、スピーディーに行なうためにはかなりのノウハウやテクニックが必要です。
早口な人の音声は再生速度を落とさなければ聞き取れませんし、録音状態が悪かったり、用語がわからなかったりすると聞き取るのに何度も再生を繰り返さなければなりません。1時間の話をすべてテキストにすると1万字を超えることもあり、作業に慣れていないと録音した時間の2~3倍かかってしまうことも珍しくありません。
では、文字起こしの作業を効率化するためにはどうしたらいいのでしょうか。筆者のようにライターの経験があるならば、文字起こし用のMacアプリである「Transcriptions」や音声議事録のWebサービスを使うかもしれませんが、初めての場合は操作方法や機能を習得するために時間がかかります。
また、文字起こしを専門で請け負う業者に依頼することも可能ですが、専門用語が出てくる分野において精度の高い文字起こしをする場合は、作業1時間あたり1万円以上の費用がかかるため、時間や予算に余裕がない場合にはお願いできないこともあるでしょう。
そこで今回おすすめしたいのが、Googleの音声入力機能を利用する方法です。初めての方でも操作方法をかんたんにマスターでき、文字起こしの作業を無料で全自動化することができます。さっそくMacでの利用方法を順を追って見ていきましょう。
仮想オーディオドライバ「BlackHole」の導入
まずは、「BlackHole」という仮想オーデイオドライバをMacにインストールします。これは、Macのアプリから出力する音声データ(録音したデータ)をGoogleの音声入力に渡すために必要なソフトです。
以前であれば「Soundflower」が定番でしたが、macOS Big SurやM1 Macの環境で問題なく動作するものとしてはBlackHoleが安定しています(2021年8月時点の情報のため、今後より最適な方法が登場することもあります)。
「Audio MIDI設定」でサウンド出力を作成
BlackHoleをインストールしたら、Macの音声(サウンド)出力の設定を行ないます。音声出力をMac内蔵のスピーカからBlackHoleに切り替えればいいように思えますが、そうすると再生した音声がMacから聞こえなくなってしまいます。そのため、Macの内蔵スピーカ(あるいは外部スピーカ)とBlackHoleの出力をミックスする(両方から出力するように設定する)必要があります。
そこで利用するのが、macOSシステム標準アプリの「Audio MIDI設定」です(複数の音声出力をミックスするための「LadioCast」といった専用アプリを使う方法もあります)。設定は比較的簡単で、追加したBlackHoleをサウンド入力装置として使用することを選択した状態で、メニューから新規に[複数出力装置を作成]するだけです。
この際に、設定画面でMac内蔵オーディオ(内蔵スピーカ)とBlackHoleの両方にチェックを入れる必要があります。また、出力機器のリストでBlackHoleが下になるような順番で登録しないと一部環境で音声再生や録音がうまくいかない場合があります。下記の手順で設定し、サンプルとなる動画を再生して音声が聞こえるか事前に確認しておきましょう。
自動テキスト起こしの設定をする
ここまでの準備ができていれば、残りの作業はスムーズです。Googleのアカウントを持っているのであれば、「Google ドキュメント」を開いて、音声入力の機能を有効にします。ただし、macOS標準ブラウザ「Safari」では正しく動作しないため、「Google Chrome」での利用が前提となります。
音声出力が[複数出力装置]になっている状態で録音した音声やビデオを再生し、Google ドキュメント上で音声入力のマイクアイコンをクリックすれば自動的にテキスト入力が開始されます。日本語は同音異義語が多いため誤変換なども発生しますが、音声ファイルの録音時間とほぼ同じ時間で作業が終了するのはとても効率的です。
もちろん文字起こしされた文章がそのまま原稿などに利用できるかというと、そうではありません。一般的な文字起こしの作業でも、単に文字にしただけの「素起こし」から始まり、会話内の不必要な発言や間をカットする「ケバ取り」、日本語で読むための文章として表現を整える「整文」というプロセスを経ます。
Googleの音声入力が自動化してくれるのは、この「素起こし」の部分となります。現段階では、最終的に人間による確認と修正はほぼ必須です。また、テキスト化の精度は元の音声ファイルの音質や話し方によって大きく影響を受けます。
プレゼンのようにゆっくりはっきりとした発音は概ね正しく認識されますが、複数人が参加する会議などではほとんどうまく変換されないこともあります。その場合は、発言者それぞれにマイクを用意してセッティングを適正にするなど、録音環境を良くしていくことが必要です。オンラインのビデオ録画では映像以上に音声に気を遣うことがこれからの時代に求められるのではないでしょうか。
なお、今回紹介したGoogleの音声入力以外にも動画編集ソフトの「Adobe Premiere Pro」には2021年7月に「音声のテキスト化」機能が追加されました。今後、音声テキスト化の技術はさらに進化していくことで、文字起こしはもっと楽になるに違いありません。