ニュース

「GPT-4」登場。多くの試験を「人間レベル」で合格、画像認識も

多くの試験で高いスコアを実現するGPT-4

 米OpenAIは3月14日(現地時間)、最新の人工知能「GPT-4」を発表した。タスクの複雑さが一定のしきい値を超えると、GPT-3.5との違いが大きくなり、より信頼性が高く、創造的で微妙な指示も処理できるようになったほか、画像入力にも対応し、処理できるようになった。現在、ChatGPTとAPIを介して、GPT-4のテキスト入力機能をリリースしている。

 1年前にリリースしたGPT-3.5にあったバグを修正し、理論的基盤を改善。敵対的テストプログラムと、ChatGPTからのフィードバックを使用し、6カ月にわたる調整を繰り返した結果、事実性および制御性の向上、逸脱の低減において、これまでにない結果を残した。

 また、Azure上でトレーニングを行なったが、GPT-4は“前例のないほど”安定していたとし、トレーニングパフォーマンスを事前に正確に予想できる最初の大規模モデルとなった。

 カジュアルな会話ではGPT-3.5とGPT-4の違いはあまりないが、複雑さが増すと違いが出てくるという。特に専門的または学術的なベンチマークでは「人間レベルのパフォーマンス」を示すとしており、模擬司法試験の場合、GPT-3.5では下位10%程度のスコアだったが、GPD-4は受験者上位10%のスコアで合格したという。ほかの既存の大規模言語モデルよりも大幅に優れているという。

 加えて、多くのMLベンチマークは英語で記述されているが、Azure Translateを使用してMMLUベンチマークをさまざまな言語に翻訳して実行したところ、26言語のうち24言語において、GPT-4はGPT-3.5や、ほかの大規模言語モデルの英語でのパフォーマンスを上回ったとしている。

言語の正確性

 さらに、GPT-4では画像認識も可能となった。例としてエレコムの“ミニD-Sub15ピンコネクタ形状のLightningケーブル”「ケーブルマニア」の画像例(ソースはReddit)を入力して「この画像のどこがおかしいのか説明してください」と問うと、それぞれの写真の解説とともに、ユーモアであるポイントも答えられるようになった。

画像のおかしい(面白い)ところを指摘するGPT-4

 制御性の向上においては、例えば「家庭教師」のように振る舞い、生徒に正しい答え直接教えることなく、正解に近づいているヒントだけを与えるようなことも可能だとしている。

 ただ、こうしたさまざまな優れた機能や性能を備えているのにも関わらず、GPT-4は以前のGPTモデルと同様に「完全に信頼できるわけではない」といい、推論の誤りにより「幻覚」を事実にすることがあるため、リスクの高いコンテキストで出力する場合は最新の注意を払う必要があるとしている。また、2021年9月以降に発生したイベントの知識を欠いており、生成するコードにセキュリティの脆弱性があるといった可能性もあるとしている。

 一方、モデルの安全性への取り組みとしては、有害なアドバイス、バグのあるコード、不正確な情報の生成に関して、以前のモデルと同様のリスクをもたらす可能性があるとしているが、さまざまなリスクの専門家と協力しリスク低減を図ったとしている。