Mac Info

文字起こしは「Whisper Transcription」がオススメ！

小平淳一

2024年3月26日 06:04

　一昔前、会議の議事録作成やインタビューなどの文字起こしは大変な作業でした。現在はさまざまな文字起こしツールが登場していますが、中でもMacユーザーにおすすめしたいのが「Whisper Transcription」というソフトです。ChatGPTで有名なOpenAI社の音声認識モデルを利用しており、AIの力を借りて効率的な文字起こしを実現します。

Macで文字起こしをするのは大変！と思っているなら、Whisper Transcriptionをぜひ使ってみましょう

OpenAIの音声認識モデルをMac上で利用

　音声をテキストに変換する文字起こしツールは、近年大きく進化しました。機械的な音声分析から、AIを活用したインテリジェントな会話分析へと変わったことがその大きな理由です。

　また、それに併せてツールやサービスの種類も増加し、これまで以上に手軽に利用できるようになっています。そうした多くの文字起こしツールの中でMacユーザーにぜひ一度試してほしいのが、Whisper Transcriptionです。

　このMac用ソフトはOpenAI社が提供する音声認識モデル「Whisper」を利用し、読み込んだ音声ファイルや新規録した音声を自動でテキスト化することが可能。また、「メッセージ」や「Zoom」などほかのMacソフト上の音声を読み込んでテキスト化することもできます。

　さらに、Whisper TranscriptionはMacのローカル環境で処理を行なえるのも大きな特徴です。音声データなどをサーバー側にアップロードしないため、情報漏洩や個人情報保護の心配が少なく、機密性が高い会議でも安心して使用できます。

Whisper Transcriptionは、Mac App Storeから無料でダウンロードできます。高精度の文字起こしを行なうには有料のPro版が必要ですが、7日間の試用も可能です。まずは気軽に試してみましょう

シンプルながらも十分な機能

　では、Whisper Transcriptionの基本的な使い方について見ていきましょう。まず、初めてソフトを起動した際は、音声のテキスト化に利用する言語モデルを「Tiny」「Base」「Small」「Medium」「Large」「Large(V3)」の6つの中から少なくとも1つダウンロードする必要があります。

　大きな言語モデルのほうが処理に時間がかかり精度は高くなりますが、「Medium」以上はPro版でないと利用できないため、まずは「Tiny」「Base」「Small」から試すとよいでしょう。

　言語モデルのダウンロードが完了するとWhisper Transcriptionのメイン画面が表示され、文字起こしを開始できます。インターフェイスは日本語化されていませんが、英語が分からなくてもそれほど戸惑うことはありません。

　音声ファイルや動画ファイルを読み込む場合は[Open Files]、新規録音を開始して終了後に文字起こしするには[New Recordings]を選びましょう。または、単に音声ファイルを画面にドラッグ&ドロップするだけでもOKです。

　こうして文字起こしをスタートすると、あとは自動的に画面にテキスト化された内容が表示されます。

　上部のメニューから連続した文章で表示する「Transcript」と、音声を細かく区切った文章で表示する「Segment」という2つのビューを切り替えられますので、読みやすいほうで確認しましょう。

　Transcriptは講演などの文字起こしをじっくり読むのに向いており、Segmentは会議や対談など、複数の人が話しているケースに向いています。

　また、文字起こししたテキストは書き出すことも可能です。[Export]メニューをクリックすると、書き出しスタイル(文章全体かセグメントかなど)や、書き出し形式(シンプルテキスト形式やMicrosoft Word形式、PDF形式など)を選べます。

初めてソフトを起動したら「言語モデル(Whisper Model)」をまずダウンロードしましょう。大きな言語モデルほど精度が高くなりますが、ダウンロード容量が大きくなります

メイン画面の左側には文字起こしを実行した履歴がリストアップされます。右側には、ファイルの読み込みや音声録音などの各種メニューが並びます

音声ファイルや動画ファイルの文字起こしをしたい場合は、[Open Files]ボタンを押したあとにファイル選択ダイアログからファイルを選んで実行します

[Transcript]と[Segment]というボタンからビューを切り替えられます。連続した文章として表示する「Transcript」ビューは、講演などを読むのに向いています

会話を細かく分割して表示する「Segment」ビューは、複数人数での打ち合わせや会議での会話を確認するのに向いています

対談などの場合、会話ごとに話者を登録していくことも可能です。ただし、話者の自動認識は行なってくれないため、会話ごとにユーザー側で割り当てていく必要があります

メイン画面で[New Recording]を選ぶと、Macのマイクを使って音声を録音します。録音と同時ではなく、録音を停止後に文字起こしが開始されます

メイン画面で[Batch Transcription]を選ぶと、複数のファイルに対して一括で文字起こしを行なえます。書き出し形式などを柔軟に選択可能です

メイン画面で[Record App Audio]を選ぶと、アプリを指定して録音できます。ビデオ会議アプリをはじめ、基本的にはどんなアプリでも指定できます

メイン画面の上部にはURL入力欄があり、そこにYouTubeなど動画共有サービスのURLを入れることで文字起こしをすることもできます

専門用語も正確に判別

　Whisper Transcriptionは実に簡単に使い始められますが、実際に利用するうえで多くの人が気になるのはテキスト化の速度や精度でしょう。そこで、実際に約40分の会話データを読み込ませて比較してみました。

　まず速度に関しては、もっとも低品質のTinyで1分34秒、もっとも高品質なLarge(V3)で10分5秒という結果でした(MacBook Pro 2021/M1 Proで検証)。

　Whisper TranscriptionはAppleシリコンのGPU性能を活用して文字起こしを行なうため、新しいチップを搭載したMacではより高速な処理が実現するはずです。

　次に肝心の精度に関しては、録音ファイルの品質にも左右されますが、TinyやBase、Smallでは誤認識が出てきます。

　とはいえ、話者が明瞭な話し方をしている講演などであれば、Smallでも十分内容を掴めるはず。また、自分が同席した会議や打ち合わせで、話の流れを再確認したいときなどはこの品質でも問題ないケースがあるでしょう。

　一方で、LargeやLarge(v3)にすると、精度は飛躍的に向上します。機械的な音声認識ではなく、AIを使って文脈を判断していることがしっかりと分かり、専門的な会話でも正しく専門用語を文字起こししてくれます。

　これまでさまざまな自動文字起こしサービスを利用してきましたが、その中でもトップレベルの精度だと言えるでしょう。

文字起こしの品質は、メイン画面左下のプルダウンメニューから変更できます。また、言語を任意に指定することも可能ですが、筆者が試した限りでは[Auto]のままで問題ありませんでした

約40分の会話データを文字起こしするのにかかった時間です(MacBook Pro 2021/M1 Proで検証)。Tiny、Base、Smallの所要時間に大きな違いは見られませんでした

品質「Small」での文字起こし例。「CO2」が「C4-2」、「当てはまる」が「あたまる」と誤認識されてしまいました。しかしこれでも、会話に同席していた人なら正しく内容を振り返ることができるレベルです

同じ文章を「Large(V3)」で文字起こししてみました。「CO2」「当てはまる」が正しく認識されています

Macユーザーにとっての強力な選択肢

　Whisper TransctiptionのほかにもMacで利用可能な文字起こしツールはたくさんの種類があり、ツール選びの決め手は人によって異なるでしょう。精度を重視する人もいれば、処理速度や話者の自動判別、ビデオ会議ツールとの連携のしやすさなど、答えは千差万別だと思います。

　そんな中、もし精度の高さやセキュリティの高さを重視するのであれば、Whisper Transctiptionは極めて強力な選択肢になるでしょう。有料プランを利用すれば、どのような会話でも十分に満足いく精度を実現してくれるはずです。

　有料プランは、月額1,000円または年間3,500円のサブスクリプションか、6,000円の買い切りという方法が用意されています。7日間の試用期間を有効活用し、自分がどのプランを選ぶかを見極めましょう。