Mac Info
文字起こしは「Whisper Transcription」がオススメ!
2024年3月26日 06:04
一昔前、会議の議事録作成やインタビューなどの文字起こしは大変な作業でした。現在はさまざまな文字起こしツールが登場していますが、中でもMacユーザーにおすすめしたいのが「Whisper Transcription」というソフトです。ChatGPTで有名なOpenAI社の音声認識モデルを利用しており、AIの力を借りて効率的な文字起こしを実現します。
OpenAIの音声認識モデルをMac上で利用
音声をテキストに変換する文字起こしツールは、近年大きく進化しました。機械的な音声分析から、AIを活用したインテリジェントな会話分析へと変わったことがその大きな理由です。
また、それに併せてツールやサービスの種類も増加し、これまで以上に手軽に利用できるようになっています。そうした多くの文字起こしツールの中でMacユーザーにぜひ一度試してほしいのが、Whisper Transcriptionです。
このMac用ソフトはOpenAI社が提供する音声認識モデル「Whisper」を利用し、読み込んだ音声ファイルや新規録した音声を自動でテキスト化することが可能。また、「メッセージ」や「Zoom」などほかのMacソフト上の音声を読み込んでテキスト化することもできます。
さらに、Whisper TranscriptionはMacのローカル環境で処理を行なえるのも大きな特徴です。音声データなどをサーバー側にアップロードしないため、情報漏洩や個人情報保護の心配が少なく、機密性が高い会議でも安心して使用できます。
シンプルながらも十分な機能
では、Whisper Transcriptionの基本的な使い方について見ていきましょう。まず、初めてソフトを起動した際は、音声のテキスト化に利用する言語モデルを「Tiny」「Base」「Small」「Medium」「Large」「Large(V3)」の6つの中から少なくとも1つダウンロードする必要があります。
大きな言語モデルのほうが処理に時間がかかり精度は高くなりますが、「Medium」以上はPro版でないと利用できないため、まずは「Tiny」「Base」「Small」から試すとよいでしょう。
言語モデルのダウンロードが完了するとWhisper Transcriptionのメイン画面が表示され、文字起こしを開始できます。インターフェイスは日本語化されていませんが、英語が分からなくてもそれほど戸惑うことはありません。
音声ファイルや動画ファイルを読み込む場合は[Open Files]、新規録音を開始して終了後に文字起こしするには[New Recordings]を選びましょう。または、単に音声ファイルを画面にドラッグ&ドロップするだけでもOKです。
こうして文字起こしをスタートすると、あとは自動的に画面にテキスト化された内容が表示されます。
上部のメニューから連続した文章で表示する「Transcript」と、音声を細かく区切った文章で表示する「Segment」という2つのビューを切り替えられますので、読みやすいほうで確認しましょう。
Transcriptは講演などの文字起こしをじっくり読むのに向いており、Segmentは会議や対談など、複数の人が話しているケースに向いています。
また、文字起こししたテキストは書き出すことも可能です。[Export]メニューをクリックすると、書き出しスタイル(文章全体かセグメントかなど)や、書き出し形式(シンプルテキスト形式やMicrosoft Word形式、PDF形式など)を選べます。
専門用語も正確に判別
Whisper Transcriptionは実に簡単に使い始められますが、実際に利用するうえで多くの人が気になるのはテキスト化の速度や精度でしょう。そこで、実際に約40分の会話データを読み込ませて比較してみました。
まず速度に関しては、もっとも低品質のTinyで1分34秒、もっとも高品質なLarge(V3)で10分5秒という結果でした(MacBook Pro 2021/M1 Proで検証)。
Whisper TranscriptionはAppleシリコンのGPU性能を活用して文字起こしを行なうため、新しいチップを搭載したMacではより高速な処理が実現するはずです。
次に肝心の精度に関しては、録音ファイルの品質にも左右されますが、TinyやBase、Smallでは誤認識が出てきます。
とはいえ、話者が明瞭な話し方をしている講演などであれば、Smallでも十分内容を掴めるはず。また、自分が同席した会議や打ち合わせで、話の流れを再確認したいときなどはこの品質でも問題ないケースがあるでしょう。
一方で、LargeやLarge(v3)にすると、精度は飛躍的に向上します。機械的な音声認識ではなく、AIを使って文脈を判断していることがしっかりと分かり、専門的な会話でも正しく専門用語を文字起こししてくれます。
これまでさまざまな自動文字起こしサービスを利用してきましたが、その中でもトップレベルの精度だと言えるでしょう。
Macユーザーにとっての強力な選択肢
Whisper TransctiptionのほかにもMacで利用可能な文字起こしツールはたくさんの種類があり、ツール選びの決め手は人によって異なるでしょう。精度を重視する人もいれば、処理速度や話者の自動判別、ビデオ会議ツールとの連携のしやすさなど、答えは千差万別だと思います。
そんな中、もし精度の高さやセキュリティの高さを重視するのであれば、Whisper Transctiptionは極めて強力な選択肢になるでしょう。有料プランを利用すれば、どのような会話でも十分に満足いく精度を実現してくれるはずです。
有料プランは、月額1,000円または年間3,500円のサブスクリプションか、6,000円の買い切りという方法が用意されています。7日間の試用期間を有効活用し、自分がどのプランを選ぶかを見極めましょう。