ニュース

ChatGPT、見て、聞いて、話す能力を獲得

 OpenAIは、AIチャットボットのChatGPTに新たな音声機能および画像機能を追加した。ChatGPTと音声で会話したり、画像とメッセージを使ってやりとりしたりといったことが可能となる。ChatGPT PlusおよびEnterpriseのユーザー向けに今後2週間ほどで提供予定で、音声機能はiOSおよびAndroid、画像機能は全プラットフォームで利用可能となる。

 音声機能に関しては、ユーザーがChatGPTに音声で話しかけると、その内容を認識し、適した返答を合成音声で返すことができる。テキストと数秒のサンプルボイスをもとに、人間のような音声を生成できるという新たな合成音声モデルを採用し、プロの声優と共同で制作された5種類のボイスから選択できる。Whisperによる文字起こし機能も備える。

 画像機能では、画像を使ったChatGPTとのやりとりができるようになり、たとえば自転車の画像を送ってサドルの高さ調整の方法を聞く、複雑なグラフの画像を送って業務データの分析をしてもらうといったことが可能となる。ドローイングツールも付属しており、画像の丸で囲った部分についてChatGPTに質問するといった使い方にも対応する。

 こちらはマルチモーダルのGPT-3.5よびGPT-4によって実現しており、単純な写真だけでなく、テキストと画像の入った文章なども処理できる。

 なお、現行のモデルでは英語のテキストは上手く処理できるものの、そのほかの言語、中でもアルファベットを用いない言語の処理は苦手だと説明している。