GAI训练使用作品的合法性困境与因应之道

马文超

当前位置：首页 > 法学前沿 > GAI训练使用作品的合法性困境与因应之道

法学前沿

Frontiers of Law

主办单位:
未來中國國際出版集團有限公司
ISSN:
3079-7101（P）
ISSN:
3080-0684（O）
期刊分类:
人文社科
出版周期:
月刊
投稿量:
2
浏览量:
669

GAI训练使用作品的合法性困境与因应之道

The Legal Predicament and Coping Strategies of Using Copyrighted Works in Generative AI Training

发布时间：2026-04-21

作者: 马文超 :中国科学院大学公共政策与管理学院/知识产权学院北京;

摘要: 生成式人工智能在训练过程中大量使用受著作权保护的作品，已成为生成式人工智能产业发展的焦点法律问题之一。在我国现行法律框架下，绝大多数生成式人工智能未经许可使用他人作品进行训练的行为既难以构成合理使用，也难以纳入法定许可范围。因此，在现阶段，可适当借鉴“文本与数据挖掘”“非表达性使用”等理念，扩展著作权合理使用制度的边界以及技术中立下的非表达性使用，从而为生成式人工智能产业发展提供合规路径，有效化解生成式人工智能训练使用作品的合法性危机。同时兼顾权利人权益与技术创新两者间的平衡。

Abstract: In the training of generative artificial intelligence (GAI), substantial amounts of copyrighted works are often used. This issue has become an important focus for lawyers operating in the GAI sector. Under China's current legal regime, the majority of GAI training activities that exploit copyrighted materials without the needed authorization fail to satisfy either fair use or statutory licensing. At present, there may be better ways to use GAI‘s technological capabilities (to create new works) than through data mining exceptions and non-expressive uses, thus expanding the existing boundaries of copyright’s fair use doctrines and non-expressive uses by employing technological neutrality concepts to provide GAI practitioners with an avenue to develop their respective businesses that also satisfies the conditions of valid copyright law use, and more importantly, create compliant pathways to resolve the legitimacy crisis for how GAI practitioners can use others’ copyrighted works in connection with GAI technology development. It is critical that GAI practitioners continue to build their businesses while enjoying the protection of copyright law, as there must be a proper balance between the rights of rights owners and the need for innovation through GAI.

关键词: 生成式人工智能；著作权；合理使用；法定许可

Keywords: generative artificial intelligence; Copyright; fair use; statutory licensing

引言

人工智能技术的迅猛发展，正在深刻改变着作品创作的逻辑与生态。与传统人工智能不同，生成式人工智能不仅能理解信息，还能“创造”信息，其在文本、图像、音频、视频等方面的内容生成能力已接近人类水平。这一创造能力的核心基础，在于其背后所依赖的海量训练数据，其中包括从互联网获取的大量受著作权保护的作品，如文学作品、新闻报道、艺术图像、学术论文、影视片段等。然而，随着生成式人工智能应用领域的拓展，其训练数据行为的合法性问题逐渐浮出水面，成为国际社会关注的焦点。以Open AI等为代表的开发机构，因在训练过程中涉嫌未经许可大规模使用他人作品，已在部分国家面临侵权诉讼。因此，厘清生成式人工智能训练中使用作品行为的合法性，已成为理论界和实务界亟须解决的重大课题。不仅如此，如何在尊重和保障著作权人合法权益的基础上，构建兼顾技术进步与权利保护的制度框架，成为我国现行法律制度在面对新一轮人工智能技术革命时无法回避的时代命题。

一、生成式人工智能训练使用作品行为的法律定性

生成式人工智能的运作涵盖了数据输入、机器训练学习、内容生成输出三个部分，其训练的核心是输入数据并让机器从中学习解决方案，其生成内容的质量高低在很大程度上取决于训练数据的质与量。训练数据是模型训练的关键，而优质数据获取难、成本高、数量少，因此训练数据主要来源于公共领域及私人与公共利益相关数据。将作品类数据纳入训练范畴可提升生成内容的质量，但易引发著作权侵权风险。例如，互联网电子数据因易获取常被用于训练，却可能侵犯著作权；数据训练行为是多轮的连续性技术过程，其中每个阶段或触及著作权边界，需拆解定性其法律性质以判断其合法性。

其一，认定生成式人工智能训练是否构成“复制”是界定著作权侵权责任的关键。我国《中华人民共和国著作权法》（以下简称《著作权法》）规定的复制权包括数字方式再现作品的行为，生成式人工智能开发者将网络内容下载并存储于服务器，属于实质性数字复制，即便未直接展示，在未经许可的情形下也可能构成对复制权的侵犯^[7]。司法实践中，复制行为的成立并不取决于商业目的或最终是否逐字输出，国内外学界及判例亦多支持此观点，例如美国谷歌公司图书扫描案虽认定复制成立，但判决其属于合理使用，故此类数字复制行为应纳入复制权规制范畴。其二，生成式人工智能训练使用他人著作权作品是否构成侵权，关键在于该行为是否构成合理使用。我国《著作权法》列举出个人学习、科学研究等合理使用情形，但商业公司主导的生成式人工智能训练多出于营利目的，远超传统学术研究范畴，难以被认定为合理使用。判断合理使用需综合考量使用目的、作品性质、使用数量及对原作品市场影响。大规模使用数据且生成内容可能替代原作品并形成市场竞争的，在多数情况下无法通过合理使用抗辩免责。而合法使用受著作权保护作品应取得权利人许可或符合法定例外情形，否则可能构成侵权。

二、现行制度框架下生成式人工智能训练使用作品行为的合法性认定所面临的法律困境

在现行制度框架下，虽然著作权法在一定程度上可为机器学习中的复制行为提供法律依据，但在人工智能技术快速迭代的背景下，现有法律已难以适应技术发展的需要。生成式人工智能训练使用作品的行为，难以适用我国《著作权法》中的法定许可与合理使用这两类侵权豁免事由。

（一）著作权合理使用准则难以适用生成式人工智能训练场景

著作权合理使用制度意味着“在符合法律规定的条件下，他人有权不经著作权人的同意，又不必向其支付报酬，基于正当目的而合法使用著作权人的作品”，其核心价值目标是平衡权利人利益与社会公共利益，促进科学、文化事业发展。

对于著作权合理使用问题，《伯尔尼公约》确立了著作权合理使用的“三步检验法”，即：不妨碍作品的正常使用；在特殊情况下使用作品；未对作者的合法利益造成不当影响。我国《著作权法》第二十四条所列举的具体合理使用没有明确提及文本数据挖掘。其中，《著作权法》第二十四条的第一项和第六项虽与生成式人工智能文本数据挖掘相关，但难以直接适用。这两种以科研为目的的合理使用情形都难以适用于涉及生成式人工智能的科学研究，原因有二：其一，我国现行《著作权法》第二十四条第一项的合理使用强调个人研究，而生成式人工智能因其技术的复杂性而导致无法由个人单独完成；个人研究语境中的作品复制是少量的，而生成式人工智能“阅读”作品必然伴随着大批量的作品复制。其二，我国现行《著作权法》第二十四条第六项中所强调的“合理使用主体”，一般被认定为经由国家设立的代表公共利益的教育科研机构，如经主管部门批准且由国家财政资助的高校、科研院所等，而大多生成式人工智能技术研发会因其商业性目的和私企主体性质不能适用该条规定。因此，为了促进生成式人工智能产业的健康、可持续发展，我国有必要在现行著作权法制度中借鉴美、日、欧盟等地的做法，将文本数据挖掘增设为合理使用情形，为生成式人工智能的技术开发提供明确的法律指引。

（二）著作权法定许可准则难以适用生成式人工智能训练场景

著作权法定许可是指法律直接授权他人在符合规定时使用作品，我国《著作权法》明确其适用情形，包括义务教育和国家教育规划教科书选用特定作品、报刊作品转载、录音制作者使用已合法录制的音乐作品、广播电台电视台播放已发表作品等。然而，生成式人工智能训练涉及的作品数量庞大，情形复杂，难以简单纳入法定许可范畴。

尽管法定许可制度能平衡各方权益，但目前缺乏明确的规范依据来解决生成式人工智能训练数据使用作品的合法性问题。一方面，生成式人工智能训练需大规模搜集数据以优化模型，若适用法定许可，生成式人工智能开发者需逐一核实并支付海量作品的报酬，理论上可行，实际上技术实施操作的难度极大；另一方面，法定许可一般要求支付报酬，但生成式人工智能训练中作品以数字化数据形式体现价值，其使用情况、权利主体、数量质量等均难以精准计量，定价机制成为难题。

此外，从技术发展角度看，生成式人工智能训练使用作品若是适用法定许可制度，虽能实现支付著作权人报酬的目标，但客观上提升了生成式人工智能开发的成本，阻碍了生成式人工智能技术的后续发展。且因使用他人著作权保护的作品而支付报酬的前提是必须解决向谁支付，以及如何根据所使用作品的程度进行区别性定价，显然，适用法定许可制度意味着生成式人工智能训练使用作品时，人们在支付作品许可使用报酬前的工作量和成本也很高。综上所述，适用著作权法定许可制度来解决生成式人工智能训练使用作品行为合法性困境的难度较大，且在实际运作中不具备可操作性。

三、明晰生成式人工智能训练使用作品行为合法性的路径探索

从法理上看，生成式人工智能为提升其输出质量，往往会在训练中使用受著作权保护的作品。此类复制行为通常不会对著作权人造成实质损害，亦不属于著作权法意义上的“表达性使用”，一般不损害作品的原有市场利益。若对此类复制行为加以限制或明确要求须经著作权人许可，将导致生成式人工智能训练数据的成本过高，阻碍技术发展。因此，结合我国著作权法律现状与技术发展需求，本文提出推动生成式人工智能训练使用作品合法化的路径。

（一）途径一：扩大合理使用的可适用性

我国2020年修订的《著作权法》第二十四条明确了合理使用的核心要件，列举了十二种具体情形并增设兜底条款，其开放性与灵活性为AI训练中使用作品的行为提供一定空间。若能借鉴境外经验对其进行适当扩大解释，将有助于适应当前技术发展，实现生成式人工智能训练合法性、权利人保护与技术创新的平衡。

具体而言，我们可将行为主体予以扩大解释，将生成式人工智能研发的相关主体纳入合理使用的范畴中。如果仅仅简单从《著作权法》所确立的合理使用的具体情形来判断，生成式人工智能训练难以被归类于这些法定情形之中。不仅如此，生成式人工智能训练具有明显的营利性，更多是商业主体为获取相应利益进行的研发行为。尽管早期的技术研发主要是依靠大学实验室等非营利机构，但当前大量计算机技术、互联网技术和人工智能技术的主要研发力量则是来自于各企业或者企业、研究机构合作。这些企业和研发机构作为主体参与现代科研活动中，已然是科研创新的重要力量。它们在人工智能技术领域取得大量具有市场价值和广阔前景的科研成果，其作用不可小觑。因此，对于相关主体施加过于严格的限制，会严重影响生成式人工智能技术的创新发展，还影响我国在生成式人工智能技术相关领域的竞争力，最终不利于社会发展。

为此，可借鉴日本《著作权法》中有关合理使用制度的相关内容，以消解商业性使用问题。2018年日本《著作权法》修订后以“概括—列举—兜底”的方式，形成了以第30-4条为主的人工智能技术著作权合理使用制度体系，这条与第47-5条一起，将数据分析行为纳入合理使用之中，以此来回应生成式人工智能技术发展中训练使用作品的合法性问题。日本未将著作权合理使用限制在非营利性的范围之内，并将作品的使用目的区分为欣赏性使用和非欣赏性使用，故此，具有商业使用目的的相关主体若是构成非欣赏性使用（如该类数据分析的目的是提高人工智能训练质量，以求输出优质内容），则在一定程度上对社会公众是有益的，且不会对著作权人的权利造成损害，那么该使用行为就可通过合理使用制度得到侵权豁免。这便能使得具有商业目的的相关主体能够通过法律保障其使用人工智能训练使用作品而不侵犯著作权人的权利，以此促进人工智能技术的创新发展。

需强调的是，在合理使用框架下，合法的GAI训练应仅限于复制行为。该复制行为旨在提升模型输出质量及新内容，不对外公开也不涉及作品传播，理论上不损害著作权人权益。若禁止对合法获取的作品进行此类复制，将严重限制GAI高质量训练及相关科研活动的开展。因此，适用合理使用的前提应是该行为属于合法获取且不对外公开的复制行为。

（二）途径二：技术中立视角下的非表达性使用

从技术中立的视角，利用作品训练生成式人工智能是推动数据技术和数字经济发展的关键要素，若是对人工智能服务提供者施加过于严苛的条件限制，无疑会阻碍生成式人工智能技术的发展和产业创新。在这里，技术中立并不意味着法律需要无条件退让，而是生成式人工智能技术作为一项新事物的出现，我们虽不能将现有的法律制度生搬硬套来证实其训练使用作品行为的合法性，但却需要法律能够在同等条件下给予生成式人工智能中肯的评价和公平的对待。

究其实质，生成式人工智能训练过程将作品作为训练数据，实质目的是优化生成式人工智能模型，提高输出内容质量，在该过程中并非再现或者传播某个作品的独创性表达。同时，作品作为训练数据是生成式人工智能内部训练，而未公开，不被人们获取或感知到，应当是属于“非表达性使用”的，而著作权法律制度本质是规制和保护“表达性使用”。因此，只要是生成式人工智能在数据训练中对其所使用的作品坚持保密，不公开，且在训练完成后及时予以删除，则可凭借其“非表达性使用”而被认定为对这些作品的合理使用。另外，技术中立要求在同等情况给予相同评价，针对网络上的搜索引擎爬虫、文本挖掘以及临时复制等已被认可的合理使用情况，与生成式人工智能训练所需的数据收集，训练学习等过程的“非表达性使用”的特点并无差别，故此应当给予相同评价，赋予其一定的合法性。

四、结语

生成式人工智能作为新兴技术，在为社会带来巨大价值的同时，也引发诸多亟待解决的法律问题。技术不断更新迭代，而法律本身具有滞后性，会导致生成式人工智能所带来的挑战难以简单套用现有法律予以应对。若从技术中立和合理使用的两个维度出发，探寻生成式人工智能训练使用作品的合法性路径，则能在兼顾权利人、开发者以及社会公众之间实现利益平衡，借助《著作权法》的激励功能促进人工智能技术的健康和可持续发展。

参考文献：

[1] 吴汉东.知识产权法学(第七版)[M].北京：北京大学出版社,2019.
[2] 吴汉东.著作权合理使用制度研究(第四版)[M].北京：中国人民大学出版社,2013.
[3] 陈栋.数据圈地运动背景下人工智能训练他人作品的合法性分析——以技术过程、创新激励和数据公平为视角[J].电子知识产权,2024(10):92-109.
[4] 魏远山.生成式人工智能训练数据的著作权法因应：确需设置合理使用规则吗？[J].图书情报知识,2025,42(01):78-88.
[5] 张梦洁.生成式人工智能训练数据的著作权风险及规制路径[C]//中国智慧工程研究会.2025数字时代的社会结构变迁与治理创新学术交流会论文集（下）.中国人民公安大学;,2025.
[6] 刘友华,魏远山.机器学习的著作权侵权问题及其解决[J].华东政法大学学报,2019,22(02):68-79.
[7] 黄绍坤.人工智能训练数据收集的合法性困境与制度建构[J].荆楚法学,2024(03):89-100.
[8] 徐小奔.技术中立视角下人工智能模型训练的著作权合理使用[J].法学评论,2024,42(04):86-99.
[9] 杜佳璐.行为解读与利益平衡：人工智能训练的著作权合理使用[J].电子知识产权,2024(06):27-39.
[10] 李可心,肖冬梅.日本生成式人工智能训练数据合理使用规则及其启示[J/OL].图书馆论坛,1-9[2025-06-28].
[11] 支雪婷.生成式人工智能训练数据合理使用的适用问题探析[J].传播与版权,2025(04):107-110.
[12] 刘云开.人工智能训练作品的著作权合理使用进路[J].东北大学学报(社会科学版),2025,27(01):117-126.

法学前沿

Frontiers of Law

相关文章

GAI训练使用作品的合法性困境与因应之道

The Legal Predicament and Coping Strategies of Using Copyrighted Works in Generative AI Training

引言

一、生成式人工智能训练使用作品行为的法律定性

二、现行制度框架下生成式人工智能训练使用作品行为的合法性认定所面临的法律困境

（一）著作权合理使用准则难以适用生成式人工智能训练场景

（二）著作权法定许可准则难以适用生成式人工智能训练场景

三、明晰生成式人工智能训练使用作品行为合法性的路径探索

（一）途径一：扩大合理使用的可适用性

（二）途径二：技术中立视角下的非表达性使用

四、结语

参考文献：