AI模型能从训练数据生成小说逐字副本，引发版权担忧

发布时间：2026-02-24 01:02

顶尖AI模型能够被诱导生成畅销小说的近乎逐字副本，这引发了业界关于其系统不存储受版权保护作品说法的质疑。近期一系列研究表明，来自多家领先公司的大型语言模型所记忆的训练数据远超先前预期。

AI与法律专家指出，这种“记忆”能力可能对AI公司在全球面临的数十起版权诉讼产生严重影响，因为它动摇了其核心辩护理由，即模型从受版权作品中“学习”但并不存储副本。研究人员通过策略性提示，成功诱导多个模型生成了多部知名小说的数千字内容。

研究表明，即使存在防护措施，模型仍能记忆训练数据中出现的整部文本。这种记忆特性也可能对医疗保健和教育等其他领域产生严重影响，任何训练数据的泄露都可能导致隐私和机密性问题。法律专家表示，这可能为AI公司带来重大的版权侵权责任，并影响其训练模型的方式和开发成本。

关于AI模型是否记忆其训练数据，在近期的版权法律战中已成为一个重要因素。有法律专家认为，未经破解即复制整本书“显然是版权侵权”，但关键在于这是否频繁发生到足以让AI模型承担替代责任。

部分AI公司回应称，研究中使用的破解技术对普通用户不切实际，且提取文本所需精力远超直接购买内容。公司强调其模型并非存储特定数据集的副本，而是从训练数据中词语和字符串的模式与关系中学习。

研究人员尚未完全弄清大型语言模型记忆训练数据中内容的原因，也不清楚其生成内容中体现多少训练数据。有学者质疑，创建尖端模型是否真的需要在训练数据中使用受版权保护的内容，并认为法律最终应在此过程中发挥仲裁作用。