人工智能数据训练适用著作权合理使用研究

吴鑫宇

当前位置：首页 > 法学前沿 > 人工智能数据训练适用著作权合理使用研究

法学前沿

Frontiers of Law

主办单位:
未來中國國際出版集團有限公司
ISSN:
3079-7101（P）
ISSN:
3080-0684（O）
期刊分类:
人文社科
出版周期:
月刊
投稿量:
2
浏览量:
631

人工智能数据训练适用著作权合理使用研究

Research on the Application of Copyright Fair Use to Artificial Intelligence Data Training

发布时间：2025-05-19

作者: 吴鑫宇 :中国计量大学浙江杭州;

摘要: 随着人工智能大模型技术的迭代升级，数据训练成为人工智能生成内容的有力支撑，然而其合法性基础引发众多纷争。人工智能通过训练数据提升大模型专业程度的同时，面临着侵犯著作权人的复制权、信息网络传播权等风险。平衡著作权人利益与创新者技术发展需求成为关注焦点，既要保护创作者权利，也要为技术创新预留空间。因此，法律应灵活应对，将人工智能数据训练适用著作权合理使用制度，并通过“三步检验法”予以考察，维护著作权人与技术创新者的利益平衡，促进人工智能技术的健康发展与社会文化、科学事业的繁荣。

Abstract: With the iterative upgrading of artificial intelligence large model technologies, data training has become a powerful support for AI-generated content. However, its legal foundation has sparked numerous disputes. While AI enhances the professionalism of large models through training data, it faces risks of infringing on copyright holders' rights such as reproduction rights and information network communication rights. Balancing the interests of copyright holders with the technological development needs of innovators has become a focal point of attention, requiring both the protection of creators' rights and the reservation of space for technological innovation. Therefore, the law should respond flexibly by applying the copyright fair use system to AI data training and examining it through a "three-step test." This approach aims to maintain a balance between the interests of copyright holders and technological innovators, thereby promoting the healthy development of AI technologies and the prosperity of social culture, science, and related undertakings.

关键词: 人工智能；数据训练；著作权；合理使用

Keywords: artificial intelligence; data training; copyright; fair use

引言

随着大数据积累、算力设施建设、算法迭代升级，技术发展驱动着人工智能应用的革新。在此之中，规模庞大且海量的数据资源成为人工智能发展的重要支撑。通过文本挖掘技术与数据解析技术，人工智能大模型得以深度学习并掌握语言逻辑与规律。大模型在文本写作、图片生成、视频创作领域突飞猛进，显著提高了生产效能。然而，人工智能在使用数据进行训练的过程中存在着著作权侵权风险。数据训练过程中对受著作权保护的信息的抓取、复制、利用等行为，面临着侵犯著作权人复制权、信息网络传播权等风险。

一、数据训练面临的著作权侵权风险

（一）复制权侵权风险

数据是人工智能的养料，通过不断接收数据、整合数据、训练数据，人工智能的专业程度得以进一步提升。目前，人工智能模型训练数据包括“数据输入—训练数据—内容输出”三个部分，其在训练数据过程中，可能涉及对其他作品复制权、翻译权、汇编权、改编权和传播权等的侵权风险，而且在不同阶段和环节发生侵权风险的类型有所不同。人工智能数据训练需要海量的数据，但其难以对所有的数据逐一识别，导致在接收数据的过程中容易侵犯著作权人的复制权。在数据输入阶段，人工智能需要对数据资源进行复制以供后续的训练，其中可能包括享有著作权的作品。通过数字化方式将未经著作权人同意的作品制作或者固定物质载体中的行为，即人工智能通过自动化抓取技术将文本、图像等作品转化为数字化副本，便有可能构成侵犯复制权。复制权侵权的复杂性在于，人工智能数据训练技术往往涉及对大量数据的批量处理，这使得逐一获得著作权人许可变得不现实。在数据处理环节，人工智能对作品进行拆解并转换性使用，如将文字转换为图像，可能构成对改编权、汇编权的侵害。一方面，未经许可使用作品可能侵占著作权人授权作品传播、使用、衍生开发的收益；另一方面，人工智能生成模仿性内容的质量与准确性可能不达标，引发公众对著作权人专业能力的误解，从而对著作权人的声誉造成影响。

（二）信息网络传播权侵权风险

随着互联网的普及，信息网络传播权成为著作权保护的重要领域。在人工智能训练数据中，当受著作权保护的作品被纳入训练数据集后，通过公开平台传播或者共享，可能构成对信息网络传播权的侵犯。信息网络传播权侵权的认定相对复杂，因为它涉及对“传播行为”的界定。在人工智能数据训练技术的语境下，传播行为可能表现为数据的公开分享、在线访问或下载等。信息网络传播权侵权的认定核心在于对传播行为的界定。在人工智能数据训练中，传播行为与传统的模式不同，演变为复合内容、多平台传播的复杂行为。如将生成内容的公开共享构成对多个作品的传播，用户使用生成内容后的扩散性传播。此类行为是否侵权，需要与“交互式传播”“使公众获得”等方面结合认定。

二、规避或破坏技术措施侵权风险

在网络时代，著作权人为了控制作品的使用与传播，通常会设定技术措施予以保护。在数字时代，对作品的技术保护进一步升级，如数字水印、加密协议、访问控制、限定使用范围等。然而，人工智能在抓取、爬取数据的过程中可能会破坏著作权人设置的技术措施。人工智能本身就具有较强的技术性，为了获取大量的数据，开发者常常会部署具有深度挖掘能力的网络爬虫等技术工具。这些技术工具在抓取数据时，可能通过模拟人工操作、破解验证算法、伪造访问凭证等手段，规避并破坏技术措施。

三、适用著作权合理使用的适当性考量

（一）适用合理使用面临的困境

著作权合理使用制度为了平衡著作权人与社会公众利益，赋予行为人在特定情形下不经著作权人许可使用其作品的权利。然而，在人工智能数据训练技术领域，合理使用制度适用边界变得模糊。从数据处理特征来看，人工智能数据训练具有显著的规模性与批量性，接收海量的数据成为常态。传统合理使用制度中的“少量使用”标准，是基于常规的、小规模的作品使用场景而设定的。而在人工智能数据训练过程中，为了让大模型学习到足够丰富的信息，需要对海量数据进行处理和分析。这意味着训练过程极有可能涉及大量受著作权保护的作品片段。例如，在训练一个图像识别模型时，可能需要收集数以万计的图片，其中不乏受版权保护的图像。此时，“少量使用”的界限变得极为模糊，难以依据传统标准进行认定。从输出结果的特性分析，人工智能数据训练的输出结果具有不确定性和转换性。在数据挖掘过程中，受著作权保护的作品片段可能会经历复杂的转换和处理，其表现形式可能发生改变，甚至可能衍生出新的内容。比如，人工智能通过对大量文学作品的学习，生成一篇看似全新的文章，但其中包含某些作品片段的元素。此种情况下，判断是否构成合理使用变得异常复杂。人工智能数据训练的开发者动机多元，可能是为了开展科研活动，也可能是出于商业盈利的目的。科研活动通常被认为具有一定的公共利益属性，但也可能与商业利益存在千丝万缕的联系。因此，在判断“非营利性目的”时，需要对技术创新者的目的综合考量。

（二）适用合理使用的适当性考量

随着算法技术日新月异的突破，其带来的人工智能技术创新浪潮正以前所未有的速度重塑人们的生活方式与产业结构。人工智能技术的应用已经渗透到了社会的各个角落，在提升工作效率的同时也丰富了人们的娱乐方式。丰富的数据资源是人工智能技术的重要驱动力，人工智能技术的升级离不开数据训练。技术创新者为了让人工智能大模型具备强大的学习能力和专业水平，需要利用海量的数据进行训练。这些数据来源广泛，涵盖了网络上的各种文本、图像、视频等内容，其中不可避免地包含着受保护的作品。如开发者训练语言大模型时，通常会使用大量的文章、新闻期刊、学术论文等。然而，严格适用著作权保护制度可能会损害技术创新者的积极性，从而阻碍人工智能技术的发展。一方面，在训练海量的数据资源中逐一获取所有著作权人的许可，在实际操作中几乎是不可能完成的任务。逐一获取著作权人许可，不仅需要高额的成本付出，更需要技术创新者付出大量的时间与精力鉴别数据背后的权利人。另一方面，严格的著作权保护可能不利于数据的流通共享。如果含有作品的数据被严格限制使用，人工智能无法获取足够的数据进行训练，进而影响技术的发展空间。因此，实现著作权人权利保护与技术创新之间的平衡至关重要，著作权法应当为技术创新预留足够的空间。赋予作品著作权保护，目的不仅在于激励作者的创作热情，更兼具着公共福利的总体提升。合理使用制度并不会实质性损害著作权人的利益，反而能增强人工智能企业的实力，这符合合理使用制度最大化公共利益的初衷。在合理使用框架下，著作权人的权利依然可以通过多种方式得到保障，如规范使用端行为、分配注意义务以及建立共赢的合作机制等。通过完善合理使用制度，在符合特定条件下允许人工智能训练数据可不经过著作权人许可使用其作品。加强著作权集体管理组织的作用，通过集体授权的方式解决数据训练的授权问题。

（三）纳入著作权合理使用的具体路径

在信息爆炸的时代，作品的传播与使用方式发生了极大的变化，海量的数字化作品需要更高效、灵活、有序的利用机制。传统著作权许可模式难以满足数字化作品大规模利用的需要，基于繁荣文化事业、避免海量诉讼、防止市场无序竞争等考量，应当将人工智能“创作作品”的行为认定为合理使用。通过“三步检验法”检验数据训练行为的合理性，以层层递进的方式最大限度维护著作权人与技术创新者的利益平衡。具体而言，首先考量数据训练的目的能否归于合理使用制度的特定、特殊情形，其次考量数据训练的行为是否影响作品的正常使用，最后考量数据训练的结果是否损害著作权人的合法权益。综合考量数据训练的目的、行为、结果，进而判断是否满足合理使用。以人工智能发展相对领先的美国为例，合理使用的确立需考虑四要素：使用的目的和性质、版权作品性质、使用部分相较原作品的质与量、使用行为对作品价值及潜在市场的影响。

1. 特定、特殊情形的扩张解释

著作权的合理使用制度通常限定于某些特定、特殊的情形，如个人学习、研究、评论、新闻报道等。对于未在合理使用制度中明确规定的情形，则通过一般条款进行判断。其中，对特定、特殊情形进行扩张解释是重要一环。数据训练作为一种具有创新性的数据利用方法，其核心作用并非简单地复制或者传播作品本身。通过对海量数据的深度挖掘，提取其中的逻辑结构，整合蕴含的信息与知识，从而为科学研究或决策提供支持。可将人工智能数据训练类比为学习、科学研究等特殊情形。当然，如果人工智能开发者数据训练的目的只是获取商业利益，滥用权利未经许可大量获取包含作品的数据，则不属于特定、特殊情形。

2. 作品正常使用的影响

在判断数据训练是否构成特殊、特定情形后，对作品正常使用的影响是另一关键判断要素。作品的正常使用涵盖了多个方面，包括复制、发行、展览、改编等。这些使用方式是著作权人实现作品价值获取利益的重要途径，数据训练应当避免影响著作权人对作品的正常利用。人工智能通过自动化分析数据中包含的语言逻辑与规律，而非简单复制数据。在多数情况下，数据训练对作品的正常使用影响是有限的。然而，在某些情况下，数据训练可能会间接影响作品的正常使用。当经过数据训练后的人工智能生成内容被广泛传播后，其中又包含着作品的要素构成，可能会导致公众对原作品的关注度降低。除此之外，当人工智能在训练数据的过程中，未经许可复制了作品并以数字化形式留存，可能对作品的市场秩序造成影响，从而损害著作权人的利益。只有在确保数据训练不会对作品的正常使用造成不合理的干扰或影响时，才能认定为符合“三步检验法”的第二步。

3. 著作权人合法权益影响

评估数据训练对作品的正常使用的影响之后，需要进一步考量是否对著作权人的合法权益造成损害。在数据训练完成并成功形成生成程序且投入市场后，生成实质性相似的内容也只是一种潜在可能，是否生成相似内容仍取决于使用者是否输入指令，因此，输入阶段的作品利用并不存在对原作品市场的侵犯。在人工智能数据训练的输入与分析阶段，数据训练是为了让大模型学习而非传播作品。从市场角度来看，这一阶段的作品利用并没有对原作品的市场造成实质性的侵害。原作品的市场价值主要体现在授权、传播、知名度等方面。所以关键在于数据训练后的输出阶段，用户使用人工智能生成内容后其中可能就包含着作品。当大量用户下载、使用、传播后，可能对原作品的关注度极大下降，甚至不会意识到这是著作权人的作品。当作品在数据训练中被拆散改编后，其生成的内容可能会导致用户的误解，从而影响原作品的声誉。因此，在判断人工智能数据训练是否符合合理使用时，必须结合著作权人合法权益的受影响程度。如数据训练虽然使用了作品，但经过分析处理后生成的内容与原作品并不相同或者实质相同，只是利用了原作品的一些逻辑结构，则可以认为数据训练并未损害著作权人的合法权益。“三步检验法”需要逐一考量，只有同时符合的数据训练行为才能适用著作权合理使用。

四、结语

在人工智能数据训练中，对著作权人利益的影响程度需要仔细考量。一方面，人工智能数据训练本身并不直接产生经济利益，其目的在于提取信息或进行研究。从经济角度来看，人工智能数据训练对著作权人的损害程度可能是有限的。另一方面，如果人工智能数据训练分析过程中未遵守著作权法的规定，如未经许可复制了受保护的作品片段或歪曲了作品的原意，则可能对著作权人的精神权益造成损害。因此，在评估人工智能数据训练能否归于著作权合理使用时，需要综合考虑训练的目的、方式、结果以及可能产生的直接或间接影响。

参考文献：

[1] 郭德忠,张云蔚.生成式人工智能训练数据侵权风险与法律应对[J].湘潭大学学报(哲学社会科学版),2024,48(05):78-86.
[2] 刘水美.人工智能数据训练著作权合理使用法律规则路径探究[J].暨南学报(哲学社会科学版),2024,46(11):60-73.
[3] 焦和平.人工智能创作中数据获取与利用的著作权风险及化解路径[J].当代法学,2022,36(04):128-140.
[4] 孙嘉宇.数据产权：生成式人工智能训练行为版权争议的规制路径[J].中国编辑,2024(08):63-71.
[5] 韩荣.生成式人工智能作品利用的“合理使用单纯获酬权”模式探析[J].出版广角,2024(19):75-80.

法学前沿

Frontiers of Law

相关文章

人工智能数据训练适用著作权合理使用研究

Research on the Application of Copyright Fair Use to Artificial Intelligence Data Training

引言

一、数据训练面临的著作权侵权风险

（一）复制权侵权风险

（二）信息网络传播权侵权风险

二、规避或破坏技术措施侵权风险

三、适用著作权合理使用的适当性考量

（一）适用合理使用面临的困境

（二）适用合理使用的适当性考量

（三）纳入著作权合理使用的具体路径

1. 特定、特殊情形的扩张解释

2. 作品正常使用的影响

3. 著作权人合法权益影响

四、结语

参考文献：