主流AI模型可逐字复现畅销书，版权抗辩基础受质疑

发布时间：2026-02-24 11:04

近期多项研究表明，来自OpenAI、谷歌、Meta、Anthropic和xAI等公司的主流大语言模型，能够通过特定提示词，生成与《权力的游戏》《哈利·波特》等畅销小说几乎逐字相同的内容。这一发现对AI行业长期声称其系统仅“学习”而不“存储”受版权保护作品的核心抗辩理由提出了直接质疑。

AI与法律专家指出，这种对训练数据的“记忆”能力远超此前认知，可能对全球AI企业应对的数十起版权诉讼产生重大影响。研究人员通过让模型补全书中的句子，成功从多个模型中提取了数千字的版权作品内容。其中，部分模型对特定书籍内容的复现比例相当高。

这一结论建立在早期研究基础之上，并首次在安全防护更严格的闭源模型中证实了大规模记忆现象的存在。研究人员表示，尽管模型设有防护机制，但其仍能记住整段文本，这一发现令人意外。目前，学界尚未完全弄清大语言模型为何会记住训练数据中的内容。

法律专家分析，这种记忆特性可能使AI企业面临重大的版权侵权责任，并影响其未来的模型训练方式与研发成本。已有法院判例表明，存储盗版作品可能被认定为侵权。尽管有AI公司辩称研究中使用的提取技术对普通用户不实用，且成本高昂，但专家认为，模型能够完整复制整本书的事实本身，已对相关法律主张构成挑战。

此外，这种记忆能力还可能引发医疗、教育等其他领域的隐私与数据保密问题。业界与学界开始反思，AI开发是否必须依赖受版权保护的内容进行训练。最终，法律层面需要对此类技术行为的边界做出裁决。