やじうまPC Watch

小説家らがNVIDIAを提訴。生成AIのトレーニングに著書の無断使用で

写真はイメージです(ChatGPTのDALL-E 3で生成)

 小説家などの著書らが、NVIDIAの大規模言語モデル(LLM)構築用フレームワーク「NeMo」のトレーニングにおいて自身の著作物が無断で利用されたとし、NVIDIAに対し訴訟を起こしていると海外メディアArs Technicaなどが報じた。

 NeMoはユーザーがLLMを迅速に構築できるようにするためのフレームワークで、この中に事前の学習済みモデルが含まれている。訴状によれば、この学習済みモデルには約19万6,640冊におよぶ海賊版書籍を含むBibliotekの「すべて」が含まれている「Book3データセット」が用いられていたという。

 Book3データセットは当初Hugging Faceを通じて共有されていたが、著作権侵害により2023年10月に削除されたことが明らかとなっている。そしてNVIDIAはそれ以前にBook3のデータセットを入手しトレーニングしたと著者らは主張している。