山田祥平のRe:config.sys

AIの手先として働くウェアラブルデバイス

 ウェアラブルデバイスの多くはセンサー等を統合することで人間の感覚を拡張するとともに、人間自身では知覚しえない情報を四六時中集め続け、近い将来、自分の身体に起こるであろう出来事を予測するなどで人々の暮らしに貢献している。今回は、自分が参加している会話や会議、ミーティングといった音声コミュニケーションへのウェアラブルデバイス活用について考えてみる。

日常生活のデータをAIサービスが強化

 高性能AIボイスレコーダメーカーとして知られるNicebuildが、「PLAUD NotePin(プラウド ノートピン)」発表した。予約はすでに開始されていて、12月上旬に正式に発売が開始される。世界で最初にOpenAIのGPT-4oを搭載したポータブル型ウェアラブルAIメモリーカプセルだという。今回は、発売前の製品を使う機会を得た。

 ただ、GPT-4o搭載という言い方はちょっと大げさだ。実際には、重さ25gのカプセル状のデバイスで、2つのMEMSマイクを内蔵し、64GBまでの音声データを記録することができるようになっている。カプセルは同梱されたマグネットピン、クリップ、ネックストラップ、リストバンドのアタッチメントをつけて、それぞれの装着方法を使いわけられる。内蔵バッテリでの連続録音は20時間、また、録音しない場合は40日間スタンバイできる。デバイスローカルでのノイズキャンセリングによってクリアな録音ができるのもいい。

 録音したデータはスマホのアプリがBluetoothで受け取り、それを手動または自動でクラウドに転送する。データ量、つまり録音時間が長くサイズが大きい場合には、Wi-Fiによる高速転送もサポートする。こちらは、本体が臨時のアクセスポイントになり、アプリからそこに接続すると自動転送が始まるようになっている。

 そして、クラウドサービスとして提供されているOpenAIのGPT-4oの処理によって話者識別対応の文字起こしがされ、外国語が混じっていればそこは翻訳して提示され、内容の要約やマインドマップが得られるサービスが付帯する。1時間の会話なら約5分で文字起こしと要約が生成される。明示的にストレージ保存を指示しない限り、これらのデータはスマホアプリ内にしか残らない。

 同社によれば、デジタル化されたデータとウェアラブルデバイスが集める日常生活のデータをAIサービスが強化することで、効率や生産性、生活や仕事の質の向上に貢献するという建て付けだ。

 なので、AI内蔵ボイスレコーダというよりは、AIサービスを統合したデバイスというの置付けになる。文字起こしについては毎月300分まで無料でサービスが提供されるほか、年間一括(1万2,000円)や月額払い(1,980円)で1,200分の有料サービスがある。この仕様なら起きている時間すべてを録音するドラレコ的な使い方もできそうだとも考えたが、本気で使うなら有償サービスの20時間でもちょっと無理そうだ。

AIと現実社会を結びつける

 発表会に登壇したNicebuild ジャパンカントリーマネージャーのWatson Zhang氏は、同社がAIと現実社会を結びつける企業であるとし、サービスとしてのAIを突き詰めていった結果、デバイスで集めたデータをエージェントを使って強化する方法論に行き着いたという。

 先行製品のClaudNoteは昨2023年6月に出荷開始され、すでに25万人が利用中で、日本市場はその2割を占めるそうだ。

 注目すべきはAsk AIのサービスだ。文字起こし原稿をAIに食わせて、そこに含まれる情報をもとに回答させることができるのだから、生成AI利用のパターンとしては、当たり前といえば当たり前なのだが、必要な情報を即座に取得できることや、録音内容から情報を抽出してその場で回答できる様子は知らない人が見たら魔法のようだ。

 今はまだ録音セッション単位での質問にしか答えられないが、将来的には複数のセッションを串刺ししての質問にも答えられるようになるという。だからこそ、24時間365日のパーソナルコミュニケーションをすべて記録し、自分がいつ何をしたのか、何を言ったのか、TVやラジオでどんな情報を耳にし、どんな音楽を聴いたのかなどのライフロガーとしての使い方ができればおもしろいのにと思う。AIの無駄遣いと言われるようなことをやってみたい。もっともそこでは録音対象となる相手の承諾や知財などの問題もクリアしなければならないだろうから、けっこう大変なことだとは思う。

デバイスのUXにもう一工夫欲しかった

 カプセル状のレコーダデバイスは実に小さい。ネクタイピンのようにもなるので、シャツのエリに止めてもいいし、脱落が不安ならネックストラップを利用すればいい。細いストラップが付属するが、カプセル本体にはストラップホールがあるので、好きなストラップを調達して使ってもいい。

 本体の充電には、同梱のクレードルが必要だ。本体と同じくらいのサイズの平たいもので、USB Type-Cケーブルを装着し、そのクレードルに本体を乗せて充電する。本体がマグネットで吸着し、接点が接触することで充電がスタートする。なので出張や旅行などのときにクレードルを忘れたらアウトだ。ここはひとつ、なんとか本体にUSB Type-Cポートを実装してほしかったがフル充電で20時間は録音できるというので満充電ならそれほどの心配はないかもしれない。

 使い方としては電源を入れたままで待ち受け携帯し、必要に応じて録音をオン/オフするといったことになるだろう。

 本体に物理スイッチはない。中央部がタッチセンサーとなっていて、そこを長押しすると電源がオンになるようだ。どうにもそのときのステータスが分かりにくく、録音されているかどうかが不安になってしまう。電源オフという状態があるのかどうかもよく分からない。

 タッチセンサーがボタンであるというのも原因のひとつだとは思う。押したときにバイブするといった工夫はあるのだが、もう少しなんとかしてほしかった。なんならスマホ側からステータスを確認したり、録音のスタート/ストップを制御できるような仕様でもよかった。

 録音内容は、いったんスマホのストレージに記録され、スマホでのアプリ操作によって文字起こし、要約、マインドマップなどの生成を指示すると、音声データがいったんクラウドにアップロードされ、サービス側で処理されて結果がもどってくる。このときに使用するテンプレートとして各種のものを指定できる。また、使うAIについてもデフォルトのGPT-4oのほか、Claude 3.5を指定することができる。

 生成結果の閲覧はスマホでもできるが、Plaud Private Cloud(PPC)というプライベートクラウドストレージに自動的に同期することもできる。この機能を使うと、録音済のデータは逐次、クラウド側にも保存されてバックアップにもなるし、クラウドだけに置いておいてもアプリからは参照できるので、スマホストレージの節約にもなる。

 クラウドに保存したデータの参照はPCでできるし、その方が圧倒的に使いやすい。たとえば、生成結果を自分の目でレビューして、修正を加えた上で、要約のやり直しといったこともできるので、より洗練された結果を残すことができる。要約はびっくりするほど賢く分かりやすい。マインドマップも見事だ。もちろん、記録内容をもとにして質問ができるAsk AIも、ブラウザから使った方が効率的だ。

 こうしたことができるようになって、これからは、リアルなミーティングに限らず、セミナーを受講したり、基調講演を聴いたり、また、飲み会の会話も録音しちゃえといった層も出てきそうだ。少なくとも対話で手帳やPCにメモをとることはなくなるかもしれない。そっちの方が不確実性が高いからだ。メモをとって記録したつもりになるよりも、必ず記録を再読して確認する習慣をつけたほうがいいとされる可能性もありそうだ。

 やっぱりこのままAIは世の中を変えるのかもしれないぞ。