AI模型能从训练数据生成近乎逐字的小说副本，引发版权担忧

发布时间：2026-02-24 01:02

近期一系列研究表明，来自OpenAI、谷歌、Meta、Anthropic和xAI等公司的大型语言模型，其记忆的训练数据量远超此前认知。研究人员证明，通过策略性提示，可以诱导这些顶级AI模型生成畅销小说的近乎逐字副本。

这引发了关于AI行业核心主张的新质疑。该行业长期声称其系统并不存储受版权保护的作品，并主张在受版权保护的书籍上训练模型属于“合理使用”，因为技术将原始作品转化为具有意义的新内容。然而，斯坦福大学和耶鲁大学上月发布的研究显示，研究人员能够诱导模型生成来自多部知名小说的数千字内容。

具体而言，通过要求模型完成书中的句子，某些模型能以高准确率复现出小说的大部分文本。研究还发现，通过“越狱”手段，用户甚至可以从某些模型中提取出近乎完整的小说副本。这延续了去年的一项发现，即“开源”模型会记忆训练数据中特定书籍的很大部分。此前，专家不确定防护措施更多的“闭源”模型是否同样容易发生大规模记忆。

AI和法律专家指出，这种“记忆”能力可能对AI公司应对全球数十起版权诉讼产生严重影响，因为它削弱了其关于模型“学习”但不“存储”版权作品的核心抗辩。知识产权律师认为，这些研究发现可能对那些主张AI模型不存储或复制任何版权作品的人构成挑战。

模型是否记忆训练数据，已在近期的版权法律战中扮演重要因素。不同司法管辖区的法院裁决结果存在差异。有法律合伙人指出，未经越狱而复制整本书“显然是版权侵权”，但问题在于这种情况是否频繁到足以让AI模型为侵权承担替代责任。

涉事AI公司对此回应不一。有公司强调研究中使用的越狱技术对普通用户不切实际，且其模型并非存储特定数据集的副本，而是从训练数据中的模式和关系学习。也有公司未予置评。专家认为，AI实验室已设置防护措施防止训练数据被提取，表明他们意识到了该问题。另有学者质疑，创建尖端模型是否真的需要在训练数据中使用受版权保护的内容，并认为法律最终应在此过程中坚守立场、充当仲裁者。

返回快讯列表