ニュース

OpenAI、科学研究でのAIの判断力を評価する新ベンチ

推論レベル最高時の各モデルのGeneBench-Proベンチマーク結果

 OpenAIは6月30日、計算生物学の分野におけるAIの推論能力や判断力を評価する新たなベンチマーク「GeneBench-Pro」を発表した。

 GeneBench-Proは、曖昧さへの対処、仮説の修正、分析手法の選択、結果が意思決定に足るかといった、科学研究で求められる高度な判断に関するAI性能を評価するベンチマーク。複雑で反復的な判断のプロセスをどこまで正確に行なえるか測定できるという。

 統計遺伝学、集団遺伝学、臨床・薬理遺伝学など、10の分野に関する合計129の高度な問題が含まれる。問題は専門家が解くのに20~40時間かかるような高度な内容となっているほか、因果構造を把握できるように作られており、AIモデルが正しい分析プロセスを踏めたかを自動で採点できるという。

 同社の説明によれば、最新モデルである「GPT-5.6 Sol」の場合、推論レベル最高で28.7%、Proモードで31.5%の正答率を達成。GeneBenchの構築を始めた当時最先端だったGPT-5の正答率は5%未満だったという。

GPTモデルでのGeneBench-Proの正答率と使用トークン数