微软删除引导使用盗版《哈利·波特》训练AI模型的博客文章

发布时间:2026-02-20 20:32

微软删除了一篇技术博客,该博客因引导用户使用涉嫌盗版的《哈利·波特》书籍数据集训练大型语言模型而引发争议。这篇由微软高级产品经理撰写的博客,旨在展示如何利用Azure SQL DB等工具为应用程序添加生成式AI功能。

博客中为提供“引人入胜且易于理解的示例”,链接了一个包含全部七部《哈利·波特》小说的Kaggle数据集,并将其描述为“知名数据集”。然而,该数据集被错误地标记为“公共领域”,其上传者随后承认此为操作失误,并无意歪曲作品的许可状态。

在受到社区批评后,微软删除了该博客。法律专家指出,操作者可能精通技术却不熟悉版权期限,尤其是当数据集被其他知名平台标记时容易产生误解。评论者认为,鉴于《哈利·波特》版权的强保护性,几乎无人会相信该系列已进入公共领域。

博客详细说明了用户如何下载该数据集,将文本文件上传至Azure Blob存储,进而训练自己的AI模型。示例用途包括构建能够提取书中相关片段的问答系统,以及生成融合原著元素的“AI驱动同人小说”。微软曾用此生成包含其产品宣传内容的同人故事示例。

此举发生在AI公司因使用受版权保护材料训练模型而面临诉讼增多的时期。微软和Kaggle平台均未就此事发表评论。行业观察认为,微软删除博客是明智之举。

客服微信
客服微信