Mac Info
Macでかんたん文字起こし!「Google ドキュメント」で自動化しよう
2021年9月7日 09:50
オンライン会議やセミナー、ビデオ通話などの機会が増えています。この会話の内容をテキストとして保存する「文字起こし」の作業は、慣れない人にとって大きな手間がかかります。この作業をMacで自動化する方法を紹介します。
リモートワーク時代に必須の作業
「文字起こし(テキスト起こし)」は、会議やインタビュー取材などで録音した音声を聞きながらテキストに書き起こす作業です。議事録や取材記事の作成には欠かせないもので、古くはカセットテープレコーダが録音に使われていたため「テープ起こし」と呼ぶ世代の人もいます。
最近では、オンラインセミナーの動画の内容をレポートとしてまとめたり、オウンドメディアのインタビュー記事を作ったり、リモート会議の議事録を作成したりするために、一般的な企業にお勤めの方でも行なう機会が増えているのではないでしょうか。
実際に体験したことがある方ならわかると思いますが、この文字起こしの作業は、音声を聞きながらタイピングするだけのシンプルな作業とはいえ、スピーディーに行なうためにはかなりのノウハウやテクニックが必要です。
早口な人の音声は再生速度を落とさなければ聞き取れませんし、録音状態が悪かったり、用語がわからなかったりすると聞き取るのに何度も再生を繰り返さなければなりません。1時間の話をすべてテキストにすると1万字を超えることもあり、作業に慣れていないと録音した時間の2~3倍かかってしまうことも珍しくありません。
では、文字起こしの作業を効率化するためにはどうしたらいいのでしょうか。筆者のようにライターの経験があるならば、文字起こし用のMacアプリである「Transcriptions」や音声議事録のWebサービスを使うかもしれませんが、初めての場合は操作方法や機能を習得するために時間がかかります。
また、文字起こしを専門で請け負う業者に依頼することも可能ですが、専門用語が出てくる分野において精度の高い文字起こしをする場合は、作業1時間あたり1万円以上の費用がかかるため、時間や予算に余裕がない場合にはお願いできないこともあるでしょう。
そこで今回おすすめしたいのが、Googleの音声入力機能を利用する方法です。初めての方でも操作方法をかんたんにマスターでき、文字起こしの作業を無料で全自動化することができます。さっそくMacでの利用方法を順を追って見ていきましょう。
仮想オーディオドライバ「BlackHole」の導入
まずは、「BlackHole」という仮想オーデイオドライバをMacにインストールします。これは、Macのアプリから出力する音声データ(録音したデータ)をGoogleの音声入力に渡すために必要なソフトです。
以前であれば「Soundflower」が定番でしたが、macOS Big SurやM1 Macの環境で問題なく動作するものとしてはBlackHoleが安定しています(2021年8月時点の情報のため、今後より最適な方法が登場することもあります)。
「Audio MIDI設定」でサウンド出力を作成
BlackHoleをインストールしたら、Macの音声(サウンド)出力の設定を行ないます。音声出力をMac内蔵のスピーカからBlackHoleに切り替えればいいように思えますが、そうすると再生した音声がMacから聞こえなくなってしまいます。そのため、Macの内蔵スピーカ(あるいは外部スピーカ)とBlackHoleの出力をミックスする(両方から出力するように設定する)必要があります。
そこで利用するのが、macOSシステム標準アプリの「Audio MIDI設定」です(複数の音声出力をミックスするための「LadioCast」といった専用アプリを使う方法もあります)。設定は比較的簡単で、追加したBlackHoleをサウンド入力装置として使用することを選択した状態で、メニューから新規に[複数出力装置を作成]するだけです。
この際に、設定画面でMac内蔵オーディオ(内蔵スピーカ)とBlackHoleの両方にチェックを入れる必要があります。また、出力機器のリストでBlackHoleが下になるような順番で登録しないと一部環境で音声再生や録音がうまくいかない場合があります。下記の手順で設定し、サンプルとなる動画を再生して音声が聞こえるか事前に確認しておきましょう。
自動テキスト起こしの設定をする
ここまでの準備ができていれば、残りの作業はスムーズです。Googleのアカウントを持っているのであれば、「Google ドキュメント」を開いて、音声入力の機能を有効にします。ただし、macOS標準ブラウザ「Safari」では正しく動作しないため、「Google Chrome」での利用が前提となります。
音声出力が[複数出力装置]になっている状態で録音した音声やビデオを再生し、Google ドキュメント上で音声入力のマイクアイコンをクリックすれば自動的にテキスト入力が開始されます。日本語は同音異義語が多いため誤変換なども発生しますが、音声ファイルの録音時間とほぼ同じ時間で作業が終了するのはとても効率的です。
もちろん文字起こしされた文章がそのまま原稿などに利用できるかというと、そうではありません。一般的な文字起こしの作業でも、単に文字にしただけの「素起こし」から始まり、会話内の不必要な発言や間をカットする「ケバ取り」、日本語で読むための文章として表現を整える「整文」というプロセスを経ます。
Googleの音声入力が自動化してくれるのは、この「素起こし」の部分となります。現段階では、最終的に人間による確認と修正はほぼ必須です。また、テキスト化の精度は元の音声ファイルの音質や話し方によって大きく影響を受けます。
プレゼンのようにゆっくりはっきりとした発音は概ね正しく認識されますが、複数人が参加する会議などではほとんどうまく変換されないこともあります。その場合は、発言者それぞれにマイクを用意してセッティングを適正にするなど、録音環境を良くしていくことが必要です。オンラインのビデオ録画では映像以上に音声に気を遣うことがこれからの時代に求められるのではないでしょうか。
なお、今回紹介したGoogleの音声入力以外にも動画編集ソフトの「Adobe Premiere Pro」には2021年7月に「音声のテキスト化」機能が追加されました。今後、音声テキスト化の技術はさらに進化していくことで、文字起こしはもっと楽になるに違いありません。
楽天市場 売れ筋ランキング
Amazon売れ筋ランキング
Anker Soundcore Life P2 Mini【完全ワイヤレスイヤホン / Bluetooth5.3対応 / IPX5防水規格 / 最大32時間音楽再生 / 専用アプリ対応】ブラック
¥4,490
Anker Soundcore P40i (Bluetooth 5.3) 【完全ワイヤレスイヤホン/ウルトラノイズキャンセリング 2.0 / マルチポイント接続 / 最大60時間再生 / PSE技術基準適合】ブラック
¥7,990
イヤホン bluetooth ワイヤレスイヤホン 48時間の再生時間 重低音 LEDディスプレイ表示 小型/軽量 IPX7防水 ブルートゥース 接続瞬時 Hi-Fi ブルートゥースイヤホン Type-C 急速充電 ぶるーとぅーすイヤホン iPhone/Android/Pad適用 スポーツ/通勤/通学/WEB会議 (ホワイト)
¥39,999
【VGP 2025 金賞】EarFun Air Pro 4 ワイヤレスイヤホン Bluetooth 5.4/50dBアダプティブ式 ハイブリッドANC/最先端チップ「QCC3091」aptX Losslessに対応/ハイレゾ LDAC対応/Snapdragon Sound™ に対応/Auracast™に対応/52時間連続再生【6マイクAI 通話/PSE認証済み】 装着検出機能 (ブラック)
¥9,990
EarPods with 3.5 mm Headphone Plug
¥2,668
by Amazon 天然水 ラベルレス 500ml ×24本 富士山の天然水 バナジウム含有 水 ミネラルウォーター ペットボトル 静岡県産 500ミリリットル (Smart Basic)
¥1,173
by Amazon 炭酸水 ラベルレス 500ml ×24本 強炭酸水 ペットボトル 500ミリリットル (Smart Basic)
¥1,409
コカ・コーラ い・ろ・は・す天然水ラベルレス 560ml ×24本
¥2,131
キリン 自然が磨いた天然水 ラベルレス 水 2リットル 9本 国産 天然水 ミネラルウォーター ペットボトル 軟水
¥2,722
い・ろ・は・すラベルレス 2LPET ×8本 【Amazon.co.jp限定】
¥1,168
葬送のフリーレン(14) (少年サンデーコミックス)
¥583
薬屋のひとりごと 15巻 (デジタル版ビッグガンガンコミックス)
¥770
無職転生 ~異世界行ったら本気だす~ 22 (MFコミックス フラッパーシリーズ)
¥733
ブルーロック(33) (週刊少年マガジンコミックス)
¥594
黄泉のツガイ 9巻 (デジタル版ガンガンコミックス)
¥590