AI模型能从训练数据生成小说逐字副本,引发版权担忧

发布时间:2026-02-24 01:02

顶尖AI模型能够被诱导生成畅销小说的近乎逐字副本,这引发了业界关于其系统不存储受版权保护作品说法的质疑。近期一系列研究表明,来自多家领先公司的大型语言模型所记忆的训练数据远超先前预期。

AI与法律专家指出,这种“记忆”能力可能对AI公司在全球面临的数十起版权诉讼产生严重影响,因为它动摇了其核心辩护理由,即模型从受版权作品中“学习”但并不存储副本。研究人员通过策略性提示,成功诱导多个模型生成了多部知名小说的数千字内容。

研究表明,即使存在防护措施,模型仍能记忆训练数据中出现的整部文本。这种记忆特性也可能对医疗保健和教育等其他领域产生严重影响,任何训练数据的泄露都可能导致隐私和机密性问题。法律专家表示,这可能为AI公司带来重大的版权侵权责任,并影响其训练模型的方式和开发成本。

关于AI模型是否记忆其训练数据,在近期的版权法律战中已成为一个重要因素。有法律专家认为,未经破解即复制整本书“显然是版权侵权”,但关键在于这是否频繁发生到足以让AI模型承担替代责任。

部分AI公司回应称,研究中使用的破解技术对普通用户不切实际,且提取文本所需精力远超直接购买内容。公司强调其模型并非存储特定数据集的副本,而是从训练数据中词语和字符串的模式与关系中学习。

研究人员尚未完全弄清大型语言模型记忆训练数据中内容的原因,也不清楚其生成内容中体现多少训练数据。有学者质疑,创建尖端模型是否真的需要在训练数据中使用受版权保护的内容,并认为法律最终应在此过程中发挥仲裁作用。

客服微信
客服微信