
法学前沿
Frontiers of Law
- 主办单位:未來中國國際出版集團有限公司
- ISSN:3079-7101(P)
- ISSN:3080-0684(O)
- 期刊分类:人文社科
- 出版周期:月刊
- 投稿量:2
- 浏览量:708
相关文章
暂无数据
生成式人工智能视域下的著作权合理使用研究——以美国为例
Study on the Fair Use of Copyright under the Perspective of Generative Artificial Intelligence ——A Case Study of the United States
引言
生成式人工智能(Generative Artificial Intelligence,简称GenAI)是一种基于算法和模型生成文本、图片、声音、视频、代码等内容的技术,不同于传统AI的分析功能,GenAI能学习并生成具有逻辑的新内容。随着人工智能技术的迭代升级,GenAI的能力边界持续拓展,从文生文、文生图逐渐演变为文生视频,GenAI在文本创作、视觉设计和音视频制作等领域也因此得以广泛应用。以ChatGPT为代表的大语言模型,通过整合人类海量知识储备,具备了支撑各类智力工作的综合能力,推动内容生产模式向自动化、智能化转型,不仅提升了出版、新闻、美术等行业的内容生产效率,更打破了传统创作的思维局限,为行业创新注入了持久动力。
然而,GenAI在便利了人类工作与生活的同时,也对现行著作权法律体系构成严峻挑战:一方面,GenAI在训练过程中对海量受版权保护内容的使用边界模糊;另一方面,其生成内容的权利归属、侵权认定标准尚不明确,导致著作权人与AI研发及应用方的利益冲突日益加剧,相关版权诉讼案件频发。2023年,我国多位创作者联合起诉某书平台下人工智能绘画产品Trik涉嫌侵权;同年7月,美国喜剧演员兼作家萨拉·西尔弗曼与其他两位畅销书作家共同对Meta及OpenAI提起侵权诉讼;2024年我国广州互联网法院审结“全球人工智能生成内容平台侵权第一案”——奥特曼图片版权纠纷。在这几起案件中,其核心矛盾早已超越了普通的著作权方与侵权方的对抗范畴,折射出在生成式人工智能技术快速发展的背景下,传统版权治理规则与现实应用场景之间的深层冲突,也凸显了完善相关法律规制的紧迫性。
一、大语言模型版权治理的核心法律争议
GenAI的运行机制主要可以划分为数据输入、模型训练和内容输出三个阶段。由于其不同阶段运行过程中与传统著作权制度的冲突,催生出了不同环节下的法律争议。就数据层面而言,GenAI的运行需要抓取海量数据以作为生产素材,而这些“被抓取的数据”是否获得版权授权问题构成了输入阶段的基础性合规难题。当模型生成内容后,其输出内容对原作品及其市场的影响是核心分歧点。
(一)输入之“困”:训练数据的版权合规性
1.“合理使用”原则的适用
从系统治理的角度出发,可将GenAI划分为三大核心要素,分别是数据、算力和算法。其中,海量数据被认为是生成式人工智能的基石。GenAI模型训练需收集涵盖文本、图像、音频等多种类型的数据,对于科技公司而言,庞大的数据“肥料”是生成式AI的核心养分,在这些数据中,包含了大量受版权保护的作品,人工智能技术公司为降低成本、提高研发效率,常未经著作权人授权便使用其作品训练模型,此行为是否构成侵权成为了输入阶段的最大法律争议点,而在生成式人工智能侵权诉讼案的实践中,判定训练数据使用合规与否的关键在于是否符合“合理使用”。
2.临时复制的法律定性
在训练数据收集过程中,临时复制的法律定性也存在争议。目前国际上对临时复制是否属于著作权法意义上的复制尚未达成共识,英国将其纳入版权法例外与限制范畴,欧盟则视作复制行为,但我国相关法律对此尚未明确界定。
(二)输出之“惑”:生成内容的版权争议
1.“记忆”与“复制”的界限
GenAI的模型训练往往需要大量数据进行“喂养”后才能进行内容输出,因此在平台开发过程中必然会频繁抓取重复出现的数据,由于“记忆现象”,基于这些数据生成的内容也难免会出现复现原作品片段甚至一模一样的现象,进而导致侵权纠纷。
2.市场替代效应的评估
GenAI在运行过程中虽不会直接复制受版权保护的内容,而是从数据中学习潜在的输出模式、关系和结构,但其输出内容在某种程度上与原作的市场存在相似性;若在训练过程中频繁出现某些特定的表达或作品时甚至会直接输出作品的原始片段,可能会对原作的市场产生替代效应,影响其可版权性的同时还侵犯了原作品著作权。
二、美国著作权法中“合理使用”的“名存实亡”
美国作为最早将GenAI投入商业应用的国家,最先爆发了著作权人与人工智能开发商的利益矛盾,其中最具代表性的案件为“《纽约时报》诉OpenAI侵权案”。
2023年12月27日,《纽约时报》控告OpenAI及该公司最大投资者微软在未经许可情况下,直接抓取了其数百万篇新闻报道用于模型训练,侵犯了《纽约时报》的著作权。此外,《纽约时报》指出,OpenAI在未获得版权许可下抓取其新闻报道中具备独创性和商业价值的内容,并在此基础上进行训练和内容输出,事后也未向其支付报酬,导致《纽约时报》原创内容去标识化,流失了大量读者,对其商业价值和市场地位造成巨大打击。针对以上指控,OpenAI回应表示,以往长期和广泛接受的案例表明,若使用受版权保护的内容是为了开发具有创新性和独特性的新技术,则属于“合理使用”。因此,OpenAI使用公开可得的互联网资料训练人工智能模型也在“合理使用”范畴内。同时,OpenAI表示,公司仍然希望与其建立建设性的合作伙伴关系,并尊重其悠久的历史。
针对美国版权争议中AI企业长期以“合理使用”原则作为抗辩依据这一现象,美国新闻出版业对此保持反对意见。2024年美国出版商协会发布官方声明,针对GenAI所涉及的版权问题表明立场:一方面,协会明确反对企业将“合理使用”广泛用于抗辩,防止企业借“合理使用”之名规避版权许可义务,弱化对原创作品的保护;另一方面,强烈呼吁政府出台相关法律对人工智能企业实施严格管控,遏制企业未经许可擅自抓取享有著作权保护的作品以用于模型训练,该行为侵犯了出版商及著作权人合法权益的同时,还破坏了出版产业的利益平衡。
值得关注的是,在Authors Guild v. Anthropic一案中,美国加州北区联邦法院的判决提出,大模型训练过程中若对版权书籍的数据抓取和算法处理仅用于技术开发且具有高度“转换性使用”特征,则属于合理使用范畴;但若企业商业化利用版权作品的完整副本,则构成侵权责任。此案中提到的“转换性使用”,一定程度上体现了当今美国GenAI版权治理中对“合理使用”判定标准。
三、美国版权治理中“合理使用”的界定
在美国著作权法律体系中,《版权法》第一百零七条对“合理使用”的判定规定了“四要素”判断标准,分别是:使用的目的和性质;受保护作品的性质;同受保护作品整体而言,使用其内容部分的数量和实质性;对享有版权作品的潜在市场或价值所产生的影响。其中,第一要素和第四要素是判定“合理使用”的核心要素。
就“使用的目的和性质”而言,重点在于使用目的的独立性与合理性,换言之使用作品并非以复现原作品的价值表达、实现其固有功能为目的,而是通过拓展新视角、注入新内容、融入新观念等创新性转换方式,使原作品具备新的价值属性、功能定位或性质特征,实现原作品的“转换性使用”;同时,版权作品的使用是否为商业化用途也是判定其使用目的合理与否的重要依据。针对“对享有版权作品的潜在市场或价值所产生的影响”这一因素,其本质是评估使用行为主体与著作权人市场利益的冲突程度,主要衡量的是对原作品的使用行为是否会导致替代原作在现有市场的需求,挤压其既有市场空间;以及是否会损害著作权人潜在的商业利益,阻碍著作权人对未来可能开发的市场的探索与收益。
2025年2月,Thomson Reuters v. Ross Intelligence案裁决结果尘埃落定。此案件源于美国法律数据库内容被用于人工智能训练的纠纷,其核心争议点涉及合理使用原则。原告Thomson Reuters运营大型法律数据库Westlaw,收录了美国法院所有判决,并为判决要点撰写主题提要、配以键号体系分类,方便法律检索。被告Ross Intelligence为开发AI法律检索工具,需大量训练数据,其请求使用Westlaw数据遭拒后,与第三方LegalEase Solutions提出合作,由LegalEase提供其“Bulk Memos”中的大量法律问题摘要和相关案例以供AI训练使用。而Thomson Reuters发现,LegalEase提供的Bulk Memos在内容和结构上与原Westlaw数据库的内容高度相似,遂起诉Ross侵犯其主题提要和键号体系的著作权。对此,Ross表示复制只是为用于AI训练而将其转换为数字数据的中间步骤,对原作品的使用具有“转换性”;且最终生成的内容中并不包含原头注文本,主张其行为属于“合理使用”。
在此案件审理过程中,法官在重点考量了“合理使用的四要素”后指出,Ross Intelligence复制主题提要训练模型的目的是构建了一个商业性的、具有竞争力的产品,其功能与Westlaw一致,不符合“转换性使用”,因此不符合“合理使用”的第一因素。在第四要素上,法院针对Ross Intelligence的复制行为对Thomson Reuters市场利益的影响进行了分析,指出Ross Intelligence开发该产品的意图就是打造Westlaw的市场替代品,对原产品的现有市场造成了挤压;同时在潜在市场上,Ross Intelligence的行为威胁到了Westlaw的数据许可机会,即是否有打算许可其法律批准以用于人工智能训练,因此不符合“合理使用”的第四要素。除以上两个要素外,由于法律批注的创意性较低;以及Ross Intelligence虽对Thomson Reuters的内容进行了复制,但在产品的最终输出结果中并未体现原内容,因此因素二和因素三支持Ross Intelligence的“合理使用”主张。综合以上四要素,鉴于第一要素和第四要素为判定“合理使用”的关键因素,且在此案中均不支持“合理使用”,因此法官判定Ross Intelligence的行为已构成直接侵权,其关于合理使用的抗辩不成立。这一判决标志着美国法院首次对AI训练数据的版权争议作出明确裁定,其判定结果和法律逻辑对美国乃至全球都有着深远影响。
在上文提到的Authors Guild v. Anthropic案件中,Andrea Bartz,Charles Graeber和Kirk Wallace Johnson三位作家指控Anthropic未经许可,下载盗版版权作品并搭建数字内容库,用以训练其AI产品Claude。Anthropic辩称,其复制行为仅出于训练模型的目的而非直接传播内容;且Anthropic安装了过滤软件,防止用户访问原始材料的侵权副本,因此该行为本质上未对原作市场产生替代作用。法官指出,Anthropic将合法购买的书籍进行数字化,实现了节省空间并实现可搜索性,此行为符合“转换性使用”。然而,由于此案件的特殊性,Anthropic下载的书籍中包含大量盗版书籍,对此法官判定,下载盗版版权作品的行为不属于“合理使用”范畴。鉴于该案件的特殊性,该事项需由陪审团进行裁决。
2025年6月,Authors Guild和Anthropic达成了15亿美元的和解协议,但遭到了法官的拒绝,此案将于9月再次举行听证会。针对Authors Guild v. Anthropic案的和解动向,不同主体基于立场差异形成了不同看法。Authors Guild首席执行官Mary Rasenberger表示,该和解协议的核心价值在于确立了AI企业对其使用的版权作品的付费义务,既为AI公司获取作品使用权提供了合规途径,同时也保证了著作权人的经济权益。然而,部分作家对和解协议提出了质疑,认为该协议仅覆盖了已在美国版权局完成登记注册的书籍,而将大量尚未登记的作品排除在外。知识产权领域专家认为,该和解协议本质上折射GenAI对传统知识产权体系的颠覆性影响:一方面,GenAI对海量数据的需求以及数据来源的合理性要求显著提升了知识产权的市场价值;另一方面,AI训练数据的隐蔽性、生成内容的复杂性等特征,也使知识产权的权属界定、侵权认定及救济路径面临前所未有的挑战。
四、结语
面对GenAI浪潮的袭来,不同的著作权主体展现出了差异化的应对策略。以《纽约时报》、路透社为代表的部分新闻平台选择在他们的网站上加入新代码以阻止大模型的入侵;而其他部分新闻机构则作出了截然相反的选择——与科技公司达成合作。去年7月,美联社与OpenAI达成协议,授权OpenAI使用美联社部分新闻存档,以探索生成式AI在新闻领域的应用。12月,德国大型媒体公司阿克塞尔·施普林格与OpenAI建立全球合作伙伴关系,授权ChatGPT用户阅读该出版社旗下媒体所创作的精选内容,同时允许将其内容用于大模型训练。《华尔街日报》新闻集团则正在考虑向AI开发人员收取使用其中内容的费用,将GenAI视为未来业绩的支持。
著作权制度的核心价值在于赋予权利人一定时期享有专有权利,保障其创作权益,进而激励优质作品产出,推动社会进步。GenAI的内容产出虽具有高效性,但仍依赖于人类智慧结晶的作品“喂养”,无法自行创造和生产新知识源。“合理使用”的存在旨在推动人工智能技术的进步与发展,使其能够在训练过程中合理地获取数据加以训练。但“合理使用”并非无限制地扩张,其行为与目的也应当受到限制。因此我们仍需坚持著作权保护原则,推动GenAI发展的同时保障版权人的专有权利,平衡好人工智能开发者、使用者以及著作权人三方的权益,防止人工智能发展蚕食替代作品传统市场,避免高质量数据资源枯竭。
参考文献:
- [1] 梁雪云.试论生成式大语言模型预训练活动中著作权人权益的保护[J].今古文创,2025(14):127-130.
- [2] 何哲,曾润喜,秦维,等.ChatGPT等新一代人工智能技术的社会影响及其治理[J].电子政务,2023(04):2-24.
- [3] 肖启贤.大语言模型发展的版权掣肘及其治理——以美国版权集体诉讼的实践为视角[J].电子知识产权,2024(09):74-83.
- [4] 李彬.生成式人工智能的风险与治理——以ChatGPT为例[EB/OL].(2023-05-20)[2025-09-16].https://m.gmw.cn/baijia/2024-05/16/37326450.html
- [5] 北京师范大学法学院博士生导师,中国互联网协会研究中心副主任.专家解读|构建面向AI时代的数据治理新生态[EB/OL].(2023-07-13)[2025-09-16].https://www.cac.gov.cn/2023-08/29/c_1694965943882536.htm
- [6] 张佳欣.美AI巨头被控秘密“侵吞”数据[N].科技日报,2024-04-17(004).
- [7] 张怡峥.生成式人工智能数据训练合理使用的正当性证成与规范构建[J].张江科技评论,2025(05):23-25.
- [8] 潘圆,宁迪.《纽约时报》起诉OpenAI大模型时代下的版权边界在哪里[EB/OL].(2023-07-10)[2025-09-18].https://m.cyol.com/gb/articles/2024-01/12/content_99VoG0Sa3x.html
- [9] 熊琦,陈子懿.美国人工智能模型训练合理使用认定的成案经验研究[J].科技与法律(中英文),2024(06):11-23.
- [10] AAP. Appeals Court Affirms Decision Against Internet Archive for Copyright Infringement[EB/OL].(2024-09-04)[2025-09-20].https://publishers.org/news/appeals-court-affirms-decision-against-internet-archive-for-copyright-infringement/
- [11] 中国保护知识产权网.美国法院裁定开发人员不可使用受版权保护的材料来训练人工智能[EB/OL].(2025-03-12)[2025-09-20].https://ipr.mofcom.gov.cn/article/gjxw/gbhj/bmz/mg/202502/1990602.html
- [12] 袁锋.论新技术环境下“转换性使用”理论的发展[J].知识产权,2017(08):42-57.
- [13] Kate Knibbs. Thomson Reuters Wins First Major AI Copyright Case in the US[EB/OL].(2025-02-11)[2025-09-20].https://www.wired.com/story/thomson-reuters-ai-copyright-lawsuit/
