ニュース

OpenAIの新音声モデル「gpt-realtime」。画像入力や電話網の接続に対応

 OpenAIは、新しい音声モデルである「gpt-realtime」と、本番環境の音声エージェント向け新機能を搭載した「Realtime API」を一般公開した。gpt-realtimeの料金は「gpt-4o-realtime-preview」と比較して20%引き下げられたといい、100万オーディオ入力トークン当たり32ドル、100万オーディオ出力トークン当たり64ドル。

 gpt-realtimeはカスタマーサポートやパーソナルアシスタンス、教育などのタスク向けにトレーニングされた音声モデルだ。これまでの音声やテキストに加え画像入力に対応したほか、複雑な指示への対応やツールの呼び出し、音声の生成、プロンプトの解釈能力などで優れた性能を発揮するという。

 推論能力やプロンプトの順守、関数呼び出しなど複数のベンチマークにおいて、gpt-4o-realtime-previewを上回る性能が確認できたとしている。また、関数の非同期呼び出しにも改良を加えており、長時間実行される関数の結果を待っている間もスムーズな会話が可能だという。

推論能力ベンチマーク
指示の順守などに関するベンチマーク
関数呼び出しベンチマーク

 出力音声には、これまで実装されていた8つの音声の改良に加え、新たにMarinとCedarという2つの音声が追加された。

 Realtime APIはリモートMCPサーバーや画像入力、SIP(Session Initiation Protocol)経由の通話などをサポートする新たなAPIだ。

 連携したい外部ツールのリモートMCPサーバーがあれば、Realtime APIが渡されたリモートMCPサーバーのURLを自動的に処理するため、簡単に新たな機能を実装できる。別のMCPサーバーを指定するだけで容易に機能切り替えも可能だ。

 Realtime APIのセッションでは音声やテキストに加え、gpt-realtimeが新たにサポートした画像や写真、スクリーンショットを入力可能になった。これにより「何が見えるか」「スクリーンショットのテキストを読んで」などの質問に対応できる。この時、画面は常に監視されているわけではなく、その瞬間の写真を会話に追加するように扱われる。そのため共有する画像やタイミングをアプリ側で制御可能となっている。

 SIPをサポートしたことで、一般電話やIP電話と連携可能になった。AIエージェントによる受信、発信ができ、顧客対応などの自動化が可能になる。

 なお、gpt-realtimeの社内評価では、日本語に含まれる電話番号や車両識別番号といった英数字列の検出で正確なパフォーマンスを示したとしているが、日本語で実用可能なレベルであるかは不明。