
AI训练数据控制:谁拥有你的内容?
探索AI训练数据所有权的复杂法律环境。了解谁控制你的内容,版权影响,以及新兴法规。
了解 AI 搜索引擎面临的版权挑战、合理使用的局限性、最新诉讼以及 AI 生成答案和内容抓取的法律影响。
AI 搜索引擎在未经授权的情况下使用受版权保护的内容进行训练,面临重大的版权挑战。来自主要出版商的近期诉讼、不利的合理使用裁决以及监管指导表明,使用受版权保护的作品进行 AI 训练可能构成侵权,且可用的合理使用保护有限。
AI 搜索的版权影响是当今人工智能行业面临的最重大法律挑战之一。当开发 AI 搜索引擎和生成式 AI 系统时,需要大量训练数据来学习文本、图片及其他内容中的模式、结构和关系。关键问题在于,这些训练数据大多未经版权持有者授权获取。美国版权局已明确表示,使用受版权保护的作品训练 AI 模型,可能构成《版权法》下授予版权所有者复制权和衍生作品权的表面侵权。
生成式 AI 系统的开发和部署涉及到版权所有者享有的多项专有权利。这种侵权行为可能发生在 AI 流程的多个阶段,包括开发者为训练目的最初下载和存储作品,以及在训练过程中创建中间副本。最具争议的问题是模型的内部权重——即使模型能生成输出的数学参数——是否构成对底层训练数据的侵权副本。当 AI 生成的输出与训练数据输入高度相似时,有有力的理由认为模型权重本身侵犯了原作品的复制权和衍生作品权。
| AI 开发阶段 | 版权关注点 | 侵权风险 |
|---|---|---|
| 数据收集 | 未经许可下载受版权保护的作品 | 高 |
| 数据整理 | 组织和存储受版权保护的材料 | 高 |
| 模型训练 | 训练过程中创建副本 | 高 |
| 输出生成 | 生成与训练数据相似的内容 | 高 |
| 模型部署 | 让用户访问侵权输出 | 高 |
AI 版权法领域最重要的发展之一,来自版权局于 2025 年 5 月发布的报告,该报告探讨了未经授权使用受版权保护材料进行 AI 训练是否可被合理使用抗辩。报告的结论大大限制了 AI 开发者可用的合理使用保护。转化性的概念——即使用是否与原作品目的不同——是合理使用分析的核心,但版权局认为,将转化性应用于 AI 训练时,“是一个程度问题”。
报告指出了转化性使用的两个极端。一端是,将生成式 AI 基础模型训练于大量、多样的数据集,以便在不同情境下生成输出,这种使用很可能是转化性的。另一端是,将 AI 模型训练为生成与训练数据集中受版权保护作品高度相似的输出,这种使用则不太可能是转化性的。大多数现实世界中的 AI 系统介于两者之间,当模型被训练用于“吸引特定受众”的内容时,这种使用“充其量也只是适度地具有转化性”。这意味着,许多商业 AI 搜索引擎和生成式 AI 产品无法依赖强有力的合理使用保护。
版权局明确否定了 AI 开发者常见的两种辩解。首先,认为 AI 训练本质上具有转化性,因为它不是为了表达性目的,这是“错误的”。AI 模型吸收了“语言表达的本质”——即在句子、段落和文档层面上词语的选择和排列。其次,将 AI 训练类比为人类学习并不能为版权侵权辩护。人类对作品的记忆总是经过个人独特视角过滤后留下的模糊印象,而生成式 AI 能创建完美副本,几乎瞬间分析作品。这一根本区别动摇了人类学习的类比,也暗示《版权法》鼓励创作与创新的平衡,在 AI 语境下可能无法如预期运作。
AI 搜索的版权影响已经通过针对主要 AI 公司的多起诉讼变得愈加具体。**《纽约时报》**于 2025 年 12 月对 Perplexity AI 提起标志性诉讼,指控该公司非法复制数百万篇文章,并在未经许可的情况下分发记者作品。《纽约时报》称,Perplexity 的商业模式根本上依赖于抓取和复制内容,包括付费墙内容,以驱动其生成式 AI 产品。此外,《纽约时报》还指控 Perplexity 根据《兰哈姆法》侵犯其商标权,原因是其创作虚假内容或“幻觉”,并将这些内容与其注册商标一起展示,误导性地归属给时报。
Perplexity AI 已成为版权执法行动的重点对象,面临来自多家大型出版商和内容创作者的诉讼。默多克旗下的道琼斯和《纽约邮报》对 Perplexity 提起了类似的版权侵权诉讼,涉及其使用受版权保护内容。大英百科全书和韦氏词典也起诉 Perplexity,指控其系统性内容抓取,违反了基本的版权保护。《芝加哥论坛报》、**《福布斯》和《连线》**均指控 Perplexity 剽窃其内容,其中《连线》甚至报道称 Perplexity 复制了关于其自身剽窃问题的文章。Reddit 于 2025 年 10 月起诉 Perplexity 及另外三家公司,控告其非法抓取 Reddit 数据用于训练基于 AI 的搜索引擎。
这些诉讼揭示了激进内容抓取与未经授权使用的模式,远超传统合理使用的界限。版权局报告特别指出,“大规模商业利用受版权保护作品,生成与原作在现有市场中竞争的表达性内容,尤其是在通过非法渠道获得原作的情况下,已经超出既定合理使用的范围。”这一表述直接描述了上述诉讼中被指控的行为,并暗示法院可能会认定这些案件构成版权侵权。
版权局对市场损害的分析显著扩展了版权法评估未经授权使用影响的方式。传统上,法院主要关注销售损失和直接替代——即侵权作品直接取代原作并造成收入损失。然而,版权局指出了与 AI 训练相关的三种市场损害。除直接替代外,报告还包括市场稀释和同类作品竞争,即使 AI 生成的输出并非原作的完全副本,只要与原作在同一市场竞争,也会造成损害。这尤其令人担忧,因为 AI 系统可以以前所未有的速度和规模,生成与原作风格、体裁或类别相同的内容。
第三种市场损害涉及许可机会的丧失。随着 AI 训练内容许可市场的初步发展,版权局认为,只要存在或有可能实现许可选择,这一因素将不利于合理使用的认定。这一结论十分重要,因为它意味着在可行的许可安排存在时,AI 开发者不能简单以合理使用为由。报告指出,虽然目前已协商了一些单次 AI 训练数据许可协议,但可扩展的许可解决方案可能需要集体许可安排。不过,版权局建议允许许可市场继续自主发展,不建议政府干预,这表明许可将在版权争议中日益重要。
版权局报告中对 AI 开发者的一个积极发现是,采取防护措施防止或减少侵权输出,有利于主张合理使用。报告认为,实施防护措施可支持合理使用抗辩。这些防护措施包括屏蔽可能复现受版权保护内容的提示、训练流程设计以降低侵权输出概率,以及系统内部提示模型不要生成受版权保护角色姓名或创作在世艺术家风格的图片。这一发现表明,AI 开发者如果实施强有力的保护措施,防止系统复现受版权保护内容,可能增强其合理使用抗辩。
然而,防护措施作为合理使用抗辩的效力依然有限。报告承认,各方对于 AI 输出中原作被大幅复制的频率,以及实施全面防护措施的难度存在分歧。防护措施只能支持合理使用,而不能构成完全抗辩,这意味着即使有保护措施的 AI 系统,依然可能面临版权侵权责任。此外,报告指出,明知使用盗版或非法获取的作品作为训练数据,将对合理使用不利,尽管不是决定性因素,这提示法院将严查训练数据来源,并可能对使用非法内容的开发者予以处罚。
AI 搜索的版权影响为 AI 公司和内容创作者都带来了复杂局面。对于AI 搜索引擎运营商而言,法律环境对抓取和使用受版权保护内容的做法日益严格。版权局的不利合理使用指导、多起高调诉讼和法院裁决显示,AI 训练可能不符合合理使用保护,意味着运营 AI 搜索引擎的公司面临重大法律与财务风险。鉴于这些系统训练于数十亿受版权保护作品,潜在责任规模巨大。
对于内容创作者和出版商来说,AI 搜索的版权影响既带来挑战,也带来机遇。挑战在于,他们的作品被用于训练可能与自身产品和服务竞争的 AI 系统,可能降低其内容的价值及变现能力。机遇则在于新兴的许可市场,出版商可就其内容用于 AI 训练谈判获得补偿。但这要求出版商主动监控其内容的使用方式,并通过许可谈判或诉讼主张其版权权益。在此背景下,监控工具变得不可或缺——了解您的品牌、域名和 URL 如何出现在 AI 生成答案中,有助于发现未经授权的使用,并以更有力的立场进行谈判。

探索AI训练数据所有权的复杂法律环境。了解谁控制你的内容,版权影响,以及新兴法规。

了解版权法和AI引用。在人工智能时代,学习作为内容创作者的法律权利,包括合理使用、许可和保护策略。

探索AI内容权利不断演变的格局,包括版权保护、合理使用原则、许可框架以及全球监管方法,这些因素共同塑造着创作者报酬和AI发展的未来。...
Cookie 同意
我们使用 cookie 来增强您的浏览体验并分析我们的流量。 See our privacy policy.