やじうまPC Watch
小説家らがNVIDIAを提訴。生成AIのトレーニングに著書の無断使用で
2024年3月13日 15:16
小説家などの著書らが、NVIDIAの大規模言語モデル(LLM)構築用フレームワーク「NeMo」のトレーニングにおいて自身の著作物が無断で利用されたとし、NVIDIAに対し訴訟を起こしていると海外メディアArs Technicaなどが報じた。
NeMoはユーザーがLLMを迅速に構築できるようにするためのフレームワークで、この中に事前の学習済みモデルが含まれている。訴状によれば、この学習済みモデルには約19万6,640冊におよぶ海賊版書籍を含むBibliotekの「すべて」が含まれている「Book3データセット」が用いられていたという。
Book3データセットは当初Hugging Faceを通じて共有されていたが、著作権侵害により2023年10月に削除されたことが明らかとなっている。そしてNVIDIAはそれ以前にBook3のデータセットを入手しトレーニングしたと著者らは主張している。