ニュース

OpenAI、AI学習用Webクローラーのブロック方法を紹介

 OpenAIは、同社がAI学習用に利用しているWebクローラーについて、アクセスをブロックするための手法を公開している。

 同社が使用するクローラーは、User Agent「GPTBot」、UA文字列「Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)」にて識別が可能な仕様になっている。そのため、Webサイトのrobots.txtに対し、GPTBotがアクセスを許可しないように設定することで、無断でのクロールを拒否できるとしている。Webサイト全体だけでなく、一部のコンテンツのみを拒否するといったことも可能。

 なお同社では、GPTBotがクロールしたWebサイトは、アクセスに料金が必要なもの、個人情報が含まれることがあらかじめ分かっているもの、同社のポリシーに反するものを除き、AIモデルの改善のために使用される可能性があると説明している。