研究揭示主流AI模型可逐字复现畅销书,版权抗辩基础受动摇

发布时间:2026-02-24 11:04

全球顶尖人工智能模型被证实可通过特定提示词,生成与畅销小说几乎逐字相同的内容。这一发现对AI行业长期声称其系统不存储受版权保护作品副本的说法构成了直接挑战。近期多项研究显示,来自OpenAI、谷歌、Meta、Anthropic和xAI的大语言模型,对训练数据的记忆程度远超此前认知。

AI与法律专家指出,这种“记忆”能力可能对全球AI企业应对的数十起版权诉讼产生重大影响,动摇了其核心抗辩理由,即大语言模型仅是从作品中“学习”而非存储副本。研究人员通过针对性提示,成功让多个主流模型输出了《权力的游戏》《饥饿游戏》等知名作品的数千字内容。其中,有模型甚至能高精度复现特定小说的大部分原文。

这一结论建立在先前研究基础之上,并证实了安全防护更严格的闭源模型同样存在大规模记忆现象。研究人员表示,尽管设有防护机制,模型仍能记住整段文本,这令人意外。目前,学界尚未完全弄清大语言模型为何会记住训练数据,也不清楚输出中会体现多少训练数据。

法律专家分析,这种记忆特性可能使AI企业面临重大版权侵权责任,并影响其未来的模型训练方式与研发成本。有观点认为,无需越狱即可完整复制一整本书“显然构成版权侵权”,关键在于此类情况是否普遍到足以让AI模型承担连带责任。

AI模型是否记忆训练数据,已成为近期多起版权法律纠纷的关键因素。已有法院判决认定,因模型记忆特定内容而构成版权侵权。尽管有AI公司辩称研究中使用的提取技术对普通用户不实用,且成本高昂,但学者指出,AI实验室设置防护机制防止数据被提取,本身就说明它们知晓问题的存在。最终,法律层面需要对此类技术应用的范围与边界做出裁决。

客服微信
客服微信