ニュース

Anthropic、フィードバックに人間が要らないAIトレーニング手法

 Anthropicは9日(米国時間)、AIモデル構築において、トレーニングのフィードバックを人間に代わってAIが担い、有用で無害なAIモデルを作り出す「Constitutional AI」という手法について説明した。

 同社では、トレーニングを経てAIモデルは何らかの価値観を持つものだとしているが、人間がフィードバックを行なう場合、モデルの判断に関わる価値観を人間が暗黙のうちに定めてしまう。Constitutional AIでは一定の原則に基づいて、AIモデルのトレーニングを別のAIモデルが行なうことで、明確な価値観を与え、無害で回避的なAIモデルを構築する。必要に応じた調整もしやすくなるという。

 加えて、無駄な出力や複雑な出力に対応するために拡張性に劣る、評価には膨大な時間とリソースが必要になるといった、人間がフィードバックを行なう際の欠点も解消できるとしている。

 ここで用いる原則は、国連の世界人権宣言やAppleの利用規約にヒントを得たもの、ほかのAI研究所が提案するものなど多岐にわたっており、有害または差別的な出力、違法または非倫理的な行動を勧めるような出力を回避し、有用で誠実かつ無害なAIシステムを作成できるという。

 同社では、原則のセットといくつかの例を使ってAIモデルが自らの出力を評価/修正する教師あり学習の段階と、原則とこのAIモデルに基づくフィードバックを使って最終的なモデルをトレーニングする強化学習の段階で、この手法を使用しているという。どちらの場合も、AIモデルは毎回すべての原則を参照するわけではないが、トレーニングを通して何度も参照することになるため、最終的には人間に悪影響を与えるような出力をしなくなるという。

 同社が3月に発表したAI「Claude」には、Constitutional AIで用いた原則をさらに更新したものを反映しているという。