ニュース

IQテストでClaude 3がChatGPT-4超えのスコアを達成

チャットAIのIQテストスコアランキング

 TVプロデューサーでレポーターのマキシム・ロット氏は、複数のチャットAIを対象にIQテストを行なった結果、Anthropicの「Claude 3」がIQ100を達成したと自身のブログで報告した。

 テスト内容はノルウェー版のメンサ。回答のばらつきを減らすために同じテストを2回行なった。Claude 3のほかには「ChatGPT-4」や「Bing Copilot」、「Gemini」、「Grok」、「Llama-2」なども対象としている。

 ロット氏は2月にもチャットAIに対するIQテストを実施しており、このとき現行のチャットAIは画像パターンの詳細な認識が不得手であることを指摘していた。メンサのIQテストには画像を用いた設問もあるが、今回は設問の内容をすべて文章に起こして質問している。

 IQテストのスコアはClaude 3が101、次いでChatGPT-4が85、Claude 2が82、Bing Copilotが79、Geminiが77.5と続いている。ロット氏の手法でランダムに回答した場合のスコアは63.5。一般的に人間のIQの平均値は90~109とされる。

 記事の中では個々のチャットAIによる回答の一部も紹介している。一例としてはClaude 3が図形の変化を認識して回答のロジックを説明する様子や、Bing Copilotが質問の内容を正確に把握してアスキーアートを用いた視覚的な返答を行なった例がみられた。

 ロット氏は今回のテスト結果を受けて、チャットAIの進歩の速さや不得手としている画像認識の課題について言及。現行のチャットAIではすべての質問に正確な返答を行なうことは現実的ではないとしつつも、4~10年後にはIQテストの設問にもすべて正解でき、"ほとんどすべての人類よりも賢い"水準のAIが登場する可能性を示唆した。ロット氏のテストでは人間向けのIQテストをAIに適用して一般人並みの回答が得られる例が示されたが、あくまでも一個人が独自の手法で実施したテストであることは考慮する必要がある。

Claude 3の正答率。テストの試行回数は2回
Copilotの解答例。質問に対して図形を再作成する形で返答している