山田祥平のRe:config.sys

口は目ほどに物をいう~記憶にたよらず記録が解説

 AIの浸透によってボイスレコーダを使う目的が大きく変わりつつある。日常的な会話や授業やセミナーなどの受動的な聴取は、ボイスレコーダにその内容を記録することを委ねれば、さまざまなかたちで生かせるようになった。記憶にたよらず記録が記憶を代行する。まさに、スマートライフのドライブレコーダだが、AIにとって光景を記録した映像は、今のところサイズの割に情報量が少ないのかもしれない。映像よりも、濃密な言葉の記録にこそAIの真価が発揮されるということだろうか。今の音声データがそうであるように、将来的に、映像のデータ記録がそのサイズを無視できるような状況になる頃にはまた話は変わっているだろうとは思うのだが……。

音声データは記録と記憶の中間ファイル

 ボイスレコーダはこれまで、一部のコアユーザーだけが愛用してきたデバイスだったが、ビジネス、プライベートを問わず、さまざまな場面で使われるようになってきている。会話等の録音が必要な場合、かつては、カセットテープを使うのが普通で、マイクロカセットがメディアとして長く使われてきたが、2000年前後にはICレコーダに取って代わられた。そして今は、Webサービスとの連動でAI処理がその付加価値として欠かすことができないものになっている。さすがによい子には真似をしてほしくない……。

 個人的に、対面取材などではメモをPCで入力し、音声を記録に残すことはしてこなかったのだが、最近は、ちょっとした要件でも録音するようになっている。もちろん並行してメモもPCに入力するので二重の記録となるのだが、それはそれで無駄だとは思わない。

 ぼく自身のレコーダの使い方が普通とちょっと違うとすれば、録音した内容を音声として聴くことがほとんどないということだろうか。たとえ早送りで聞けたとしても効率が悪すぎる。実際、AI処理で録音した音声ファイルを文字に起こし、その要約を長めに生成させたものをザッと見れば、記憶にある概要を網羅しているかどうか、そして内容が正しく記録されているであろうことが分かる。

 まれに、これは違うぞと思ったときには、その部分だけを聞き返し、その相違を文字起こしや概要に反映すればいい。

 こうして、いろんな場面での会話や聴取を音声として保存するようになったわけだが、保存されている音質がそれほどいいとは限らないことにも気がついた。多くの場合、専用のAIボイスレコーダを使って録音するが、その録音を聞き直したときに、よくこんな音質のファイルから正確に文字起こしができるものだと感心したりもする。おそらくは、AIにとって聴きやすい音質と、人間の耳に聴きやすい音質というのはどこかに違いがあるのかもしれない。

 いずれにしても、医者で説明を聴くような用途でも、その内容を記録しておけばあとの役にたつ。メモしなくてもいいのはもちろん、データの内容を質問できるメモ帳というのは何気にすごい。

老舗のPlaud Note

 日常的に常用しているAIボイスレコーダは「Plaud Note」だ。PlaudはAIボイスレコーダの先駆けとして大きな実績を持つ企業だ。同社のレコーダには3種類あり、愛用のPlaud Noteは初代の製品だ。

 その後、Plaud NotePinが出たりもしたが、結局この初代機種がシンプルで使いやすいと思う。Plaud NotePinは小さくていいのだが、持ち運び中に知らないうちに録音が始まっていることも多く、いざ使おうとするとバッテリ切れになっていたりすることを経験するなど、ちょっとしたところでの信頼性に欠ける印象だ。

 また、最近になって、Plaud Note Proが発売された。2つのMEMSマイクを内蔵していた無印Noteに比べ、倍となる4つのマイクが実装され、音声を捉えることのできる範囲が広くなっている。また、OLEDディスプレイがあって、現在のステータスを饒舌に表示できるようになるなど仕様的には魅力的な存在となっている。

 NoteとNote Proは、通話録音と対面録音の2つの録音モードを持っている。レコーダをスマホの裏側にくっつけ、振動での音声ピックアップを併用して通話を録音することができる通話録音、そして、テーブルの上などに置いて、複数のマイクを使ったビームフォーミングで会議や会話などを録音する対面録音モードの2種類を切り替える。この切り替えがNoteは手動、Note Proが自動なのだ。

 Note Proは内蔵センサーが縦置きか横置きかを判別し、縦置きされている場合は通話録音であると認識してモードを切り替える。本当は手動でも切り替えができるといいのだが、現時点ではできないようだ。ただ、録音を開始した時点のモードが自動的に切り替わることはないようなので、録音を開始するときには必ず横置きにしてスタートさせることで録音モードが固定される。そうすることで意図通りのモードで使うことができる。

ハードウェアビジネスからAIエージェントを駆使したプラットフォームビジネスへ

 今どきのAIレコーダは、そのほとんどがクラウドサービスと連動することで各種のサービスを提供する。レコーダそのものが生成AIデバイスとして機能するわけではないのだ。

 Plaudの場合は、レコーダが収集した音声内容がいったん本体内に保存され、録音終了後、BluetoothやWi-Fiによってスマホアプリに転送され、それがさらに同社のWebサービスPlaud Web内のパーソナル領域と同期される。

 文字起こし処理や、その要約処理はクラウドサービスで処理される。ハードウェアとしてのレコーダ所有者であれば、1カ月に300分までは無料だが、それを超えて処理が必要なら、2時間400円、10時間2,000円、50時間1万円といった文字起こし時間を追加購入するなり、3,000円/月で20時間無料のProプランや、5,000円/月で無制限のUnlimitedプランに移行する必要がある。いずれも年間契約することで、さらに安く使える仕組みだ。

 裏技としては、録音した音声ファイルをPlaud AIに処理させず、音声のみをダウンロードして自分が自由に使える生成AIに渡して各種の処理をさせるということもできる。

 ちなみにPlaud Webで提供される生成AIは、複数のモデルが組み合わせられていて、特定の1社に依存せず、たとえば、要約や解析にはOpenAI、Anthropic、Google各社のLLMが使われ、文字起こしにはOpenAIのWhisperをベースにPLAUDが独自にチューニングした「PLAUD Intelligence」が使われている。上位プランではテンプレートを使ってAIモデルを指定することもできるようだ。

 そういえば、昨年(2025年)の暮れに、AI議事録作成プラットフォームサービスを提供するNottaが、音声データと外部情報を統合するAIエージェント「Notta Brain」を発表した。今月(2026年1月)のリリースだそうだが、その発表イベントに登壇した同社日本法人のCOO田村清人氏は「ヘビーなNottaユーザーほど、専用ハードウェアとしてのレコーダで収集した音声を、文字起こしについてはNottaのサービスを使っても、そのあとは、テキストをダウンロードして外部の別のツールに移してから、より複雑なプロンプトを作成して処理させたり、外部情報と紐付けたりすることで高度な分析をしている」という発言をしていた。

 今回発表されたNotta Brainは、こうした手間を省き、Nottaのプラットフォーム内で高度なAI処理を完結させるためのものだという。こうしたサービスの登場で、会話や聴取のAI処理は、今後さらに高度化し、新たなビジネスを模索しながら想像もつかない方向に進化していくのだろう。まるで会議の現場にいたかのように、生成したアニメーションで話者がしゃべる様子を再現するようなAIも出てくるかもしれない。

 Plaudは先日、これまでベータだったPlaud Desktopを正式版のアプリとしてリリースした。PCにインストールしておき、PCに内蔵されたハードウェアとしてのマイクからの音声やシステム音声を録音し、そのデータを同社のプライベートクラウドと同期するアプリだ。

 このアプリを使えば、専用のハードウェアを使わずにPlaudのサービスを利用できる。対面での会議やミーティングが増えている今、そのときの対話を録音するために、PCが使えるのだ。そういう場で、手元にPCがないということはありえないので、リーズナブルなソリューションだといえる。もちろんZoomやTeamsなどのオンラインミーティングもシステム音声から直接記録することができる。

 生成AIによってまたたくまに新たな役割を担うようになったボイスレコーダだが、そのビジネスは、ハードウェアからプラットフォームサービスへの移行フェーズに入ろうとしているようだ。その成長が頼もしくもある。

 そもそも「記録」は英語でRecordだ。その語源をたどると、ラテン語の「cor(心・心臓)」に行き着く。つまり「もう一度(re)」「心(cor)」に戻すことを意味する。これは「覚えている」という意味だ。

 これまでのボイスレコーダは、単に音波を固定するだけだったが、生成AIによって、記録は再び「心(知性)」を伴うものに回帰した。記録が単なるデータの蓄積を超えて、人間の思考を補助する「動的な記憶」へと進化した瞬間ともいえるだろう。意義のあるものなら、記憶をダイナミックに改ざんするのを厭わないのが人間という生き物だ。