AI模型能从训练数据生成近乎逐字的小说副本,引发版权担忧

发布时间:2026-02-24 01:02

近期一系列研究表明,来自OpenAI、谷歌、Meta、Anthropic和xAI等公司的大型语言模型,其记忆的训练数据量远超此前认知。研究人员证明,通过策略性提示,可以诱导这些顶级AI模型生成畅销小说的近乎逐字副本。

这引发了关于AI行业核心主张的新质疑。该行业长期声称其系统并不存储受版权保护的作品,并主张在受版权保护的书籍上训练模型属于“合理使用”,因为技术将原始作品转化为具有意义的新内容。然而,斯坦福大学和耶鲁大学上月发布的研究显示,研究人员能够诱导模型生成来自多部知名小说的数千字内容。

具体而言,通过要求模型完成书中的句子,某些模型能以高准确率复现出小说的大部分文本。研究还发现,通过“越狱”手段,用户甚至可以从某些模型中提取出近乎完整的小说副本。这延续了去年的一项发现,即“开源”模型会记忆训练数据中特定书籍的很大部分。此前,专家不确定防护措施更多的“闭源”模型是否同样容易发生大规模记忆。

AI和法律专家指出,这种“记忆”能力可能对AI公司应对全球数十起版权诉讼产生严重影响,因为它削弱了其关于模型“学习”但不“存储”版权作品的核心抗辩。知识产权律师认为,这些研究发现可能对那些主张AI模型不存储或复制任何版权作品的人构成挑战。

模型是否记忆训练数据,已在近期的版权法律战中扮演重要因素。不同司法管辖区的法院裁决结果存在差异。有法律合伙人指出,未经越狱而复制整本书“显然是版权侵权”,但问题在于这种情况是否频繁到足以让AI模型为侵权承担替代责任。

涉事AI公司对此回应不一。有公司强调研究中使用的越狱技术对普通用户不切实际,且其模型并非存储特定数据集的副本,而是从训练数据中的模式和关系学习。也有公司未予置评。专家认为,AI实验室已设置防护措施防止训练数据被提取,表明他们意识到了该问题。另有学者质疑,创建尖端模型是否真的需要在训练数据中使用受版权保护的内容,并认为法律最终应在此过程中坚守立场、充当仲裁者。

客服微信
客服微信