ニュース
「GPT-4o」発表。人間と同じ速度で会話可能。利用料は半額に
2024年5月14日 10:58
OpenAIは5月13日(米国時間)、従来よりも処理が高速化され、画像や音声認識にも優れた新モデル「GPT-4o」(oはomniの意味)を発表した。テキストと画像処理に関しては現在ChatGPTやAPIを通して利用可能になっているほか、音声とビデオに関しては今後数週間で実装する予定。
GPT-4oはテキスト、音声、画像といったあらゆる組み合わせを入力でき、生成出力もテキスト、音声、画像で行なえる。既存モデルと比較して、特に音声と画像の理解に優れているという。
特に音声入力に関しての応答時間はわずか232ms、平均でも320msと、人間の応答時間とほぼ同じ。GPT-3.5では平均2.8秒、GPT-4では5.4秒だった。加えて、笑い声や歌唱力、感情表現なども出力できる。
過去バージョンでの音声を介したChatGPTとの会話は、音声をテキストに変換して処理し、出力されたテキストを音声に変換するプロセスを経ていたため、音調や複数の話者、背景のノイズといった多くの情報を検知できなかった。
一方GPT-4oではテキスト、音声、画像にわたって単一の新しいモデルをエンドツーエンドでトレーニングし、すべての入力と出力を同じニューラルネットワークで行なうようにした。なお、GPT-4oはまだこの方式を最初に採用したモデルでしかないため、「このモデル限界まで行なえることの表面をなぞっただけに過ぎない(氷山の一角にしか過ぎない)」という。
また、テキストおよびコードの性能はGPT-4 Turboに匹敵し、英語以外の言語のテキスト処理も大幅に改善。APIの利用価格はでは、より高速でありながら50%安価となった。さらに、20言語においては新しいトークナイザー圧縮を用いており、日本語に関しては1.4倍程度少ないトークンで済むとしている。
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time:https://t.co/MYHZB79UqN
— OpenAI (@OpenAI)May 13, 2024
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks.pic.twitter.com/uuthKZyzYx