
亚太科研论坛
Asia-Pacific Research Forum
- 主办单位:未來中國國際出版集團有限公司
- ISSN:3079-3645(P)
- ISSN:3079-9945(O)
- 期刊分类:人文社科
- 出版周期:月刊
- 投稿量:2
- 浏览量:402
相关文章
暂无数据
生成式人工智能合理使用制度研究
A Study on the Rational Use System of Generative Artificial Intelligence
引言
在数字经济时代,人工智能已成为引领新一轮科技革命和产业变革的核心驱动力。从早期的判别式人工智能(Discriminative AI)到如今的生成式人工智能(Generative AI),技术范式的转换不仅提升了机器处理信息的效率,更赋予了机器“创造”内容的能力。生成式AI通过深度学习算法,能够根据用户的指令生成文本、图像、音频、视频等高质量内容。然而,生成式AI的“进化”依赖于对海量数据的学习和训练,这些数据中不可避免地包含了大量受著作权保护的作品。这种大规模、自动化的作品利用行为,在现行著作权法框架下引发了严重的合法性危机。研究生成式人工智能合理使用制度具有重要的理论和现实意义。首先,在理论层面,它挑战了传统著作权法中关于“利用行为”的界定。传统的合理使用多针对人类个体的阅读、引用或教学使用,而AI的“阅读”是机器层面的数据处理。这促使我们重新思考著作权保护的边界,即著作权是否应当延伸至作品被作为“机器训练素材”的层面。其次,在现实层面,明确AI训练数据的法律属性,能够为人工智能企业提供清晰的合规指引。目前,全球范围内针对AI巨头的版权诉讼频发,法律的不确定性已成为产业发展的巨大风险。构建合理的制度,既能保护创作者的合法权益,防止技术滥用对内容产业造成毁灭性打击,又能促进AI技术的普惠应用。
1.研究综述
1.1国内外研究现状
在就业推荐系统的国际研究前沿中,基于协同过滤的方法已成为学界广泛探讨的热点议题,并已取得突破性研究成果。众多跨国招聘平台与职业社交网络已成功部署该技术,实现了高度个性化的职位推荐服务。当前研究重点聚焦于多源数据融合策略,包括用户行为特征、岗位需求描述及相关元数据的深度整合,以此优化协同过滤算法的效能指标。值得注意的是,学术界正积极探索混合建模框架与深度学习架构的创新应用,旨在同步提升推荐结果的精确度与可解释性。研究范畴还延伸至推荐多样性机制的设计,以拓展用户的职业选择空间。与此同时,针对数据隐私保护的关键问题,部分学者致力于开发具有隐私保护特性的协同过滤新算法。总体而言,国际研究表明,协同过滤技术在优化招聘流程、增强用户体验及提升人岗匹配精准度等方面展现出显著成效,为后续研究奠定了坚实的理论与应用基础。
随着协同过滤技术在就业推荐领域的深入应用,我国相关研究呈现出蓬勃发展的态势。为应对日益增长的就业市场需求,国内学者普遍采用协同过滤算法构建推荐系统。值得注意的是,深度学习技术的快速发展为该系统注入了新的活力,通过引入神经网络等先进方法显著提升了系统的智能化程度。然而,当前基于协同过滤的就业推荐系统仍存在若干亟待解决的问题,包括数据质量控制、用户隐私保护以及算法性能优化等方面,这些关键问题的突破将成为未来研究的主要方向,以期实现系统效能与用户体验的持续提升。国内的研究将继续推动就业推荐系统的发展,为求职者和雇主提供更好的匹配和支持。
1.2研究目的及意义
目前,国内外学者针对AIGC的著作权问题进行了广泛讨论。
在国外,研究主要集中在“变革性使用”(Transformative Use)的适用性上。美国学者如Pamela Samuelson认为,AI训练属于非表达性利用,应受合理使用保护;而部分版权法专家则担心这会掏空版权人的核心市场。欧盟则通过《数字单一场所著作权指令》(CDSM)确立了文本与数据挖掘(TDM)的例外规则,试图通过立法手段解决争议。
国内学者如王迁教授认为,AI训练涉及的复制行为在现行法下难以构成合理使用,应探索法定许可路径。冯晓青教授则强调利益平衡原则,主张通过解释《著作权法》第24条的“其他情形”来容纳AI训练。然而,如何结合我国“人工智能强国”的战略目标,构建一套既能促进AI创新又能保障版权人利益的本土化制度,仍需深入探讨。
1.3研究方法与思路
本文采用以下研究方法:
文献研究法:通过搜集国内外关于人工智能、著作权法、合理使用制度的学术论文、法律法规及司法判例,夯实理论基础。
比较分析法: 对比美国、欧盟、日本等国家和地区在处理AI版权争议时的不同路径,总结其对我国的借鉴意义。
规范分析法:立足我国《著作权法》第24条,分析其在AI时代的适用困境,并提出具体的修法建议。
2生成式人工智能引发的著作权挑战
2.1生成式人工智能的技术原理与数据依赖
生成式人工智能的核心在于深度神经网络模型,如Transformer架构。其运行过程通常分为预训练(Pre-training)、微调(Fine-tuning)和推理生成(Inference)三个阶段。
在预训练阶段,模型需要“吞噬”数以亿计的文本、图片或代码。例如,GPT-3的训练集包含了数千亿个Token,涵盖了维基百科、书籍、期刊及海量的网页内容。模型通过概率统计规律学习语言的语法结构、艺术风格或逻辑联系。这种对数据的极度依赖,使得AI开发者必须从互联网上大规模抓取数据。这些数据并非单纯的“事实”,而是包含了人类创作者独特表达的作品。
2.2 输入端:海量训练数据的著作权侵权风险
在AI训练过程中,涉及多个可能侵权的环节:
抓取与存储: 爬虫程序将网络上的作品下载并存储在本地服务器,这构成了对作品的“复制”。
预处理与格式转换: 为了让模型能够识别,往往需要对图片进行缩放、对文本进行清洗,这些行为可能涉及“改编”或进一步的“复制”。
中间性复制:虽然这些复制件并不直接面向公众传播,但在现行法律框架下,未经许可的复制行为本身即涉嫌侵权。如果每一项数据的利用都需要获得授权,面对数以亿计的作品,高昂的谈判成本和许可费用将使任何AI研发都变得不可行。
2.3 输出端:生成内容的著作权属性争议
虽然本文重点讨论合理使用制度(主要涉及输入端),但输出端的属性也反向影响合理使用的判定。
如果AI生成内容被认定为作品并受到保护,那么AI开发者在利用他人作品进行训练时,其“获利”属性就更加明显,从而降低了被认定为“合理使用”的可能性。目前,我国司法实践(如“李某诉刘某案”)倾向于在特定条件下承认AI生成内容的独创性。这种“输入端免费使用,输出端收费保护”的逻辑,引发了版权人的强烈不满,认为这是对人类创作成果的“掠夺”。
2.4现行合理使用制度的适用困境
我国《著作权法》第24条采取了“穷举式”的立法模式,列举了12种具体情形。
主体不符:现有的“个人学习”“科学研究”例外多限定为非营利主体。而主流AI开发商(如百度、阿里、OpenAI)均为营利性商业公司。
目的不符: AI训练虽然包含“研究”成分,但其最终目的是开发商业产品,不符合传统意义上的纯学术研究。
规模失控:传统合理使用强调“少量引用”,而AI训练是“全量吞噬”。
以上仅列举了其中三种典型困境。这种法律的滞后性导致了AI产业在“灰色地带”运行,既不利于产业合规,也无法有效保护版权人。
3生成式人工智能合理使用的国际比较与借鉴
3.1 美国:开放式“合理使用”与“变革性使用”标准
美国《版权法》第107条规定了灵活的“四要素”测试法。
变革性使用(Transformative Use):这是美国司法判定的核心。如果利用行为并非为了替代原作品的表达,而是为了创造新的功能或目的,则更有可能被认定为合理使用。
司法案例,在Authors Guild v. Google案中,法院认定谷歌大规模扫描图书建立索引属于合理使用,因为其目的是提供搜索功能,而非替代阅读。然而,在2023年的Goldsmith案中,最高法院强调,如果商业目的过强且利用行为与原作品的用途高度重合,变革性使用的空间将被压缩。
当前诉讼:New York Times v. OpenAI案将是里程碑式的。OpenAI主张其训练属于变革性使用,而纽时则认为AI生成的内容直接替代了其新闻订阅市场。
3.2 欧盟:文本与数据挖掘(TDM)的法定例外
欧盟采取了更为明确的立法路径。2019年《数字单一场所著作权指令》(CDSM)确立了双轨制:
科研机构例外(第3条):允许科研机构和文化遗产机构为科学研究目的进行无限制的TDM。
商业性TDM与“选择退出”机制(第4条):允许商业主体进行TDM,但著作权人可以通过机器可读的方式(如robots.txt)声明“保留权利”(Opt-out)。如果版权人已声明退出,AI企业必须获得授权。这一机制在保护版权人控制权的同时,也为AI训练提供了合法的路径。
3.3 日本:灵活的著作权限制制度
日本在2018年修订《著作权法》时,引入了第30条之4,被公认为全球最利好AI的条款。
该条款规定,只要利用行为不是为了“享受作品所表达的思想或情感”,就可以在不经授权的情况下利用作品。这意味着,只要AI训练是为了提取数据特征而非欣赏艺术美感,无论是营利还是非营利,原则上都是合法的。这为日本AI产业的发展提供了极大的法律确定性。
3.4 国际经验对我国的启示
灵活性与确定性的平衡: 美国模式灵活但不可预测,欧盟模式明确但可能增加合规成本。
非表达性利用的共识: 无论是美、欧还是日,都逐渐意识到,机器对作品的“非表达性利用”不应等同于人类的“表达性消费”。
4 我国生成式人工智能合理使用制度的重构
4.1 我国著作权法第24条的局限性分析
虽然2020年修订增加了第13项“法律、行政法规规定的其他情形”,但由于缺乏具体的行政法规支撑,司法实践中法官仍倾向于保守。对于生成式AI这种具有高度商业性、大规模性的利用行为,现行条款显得捉襟见肘。
4.2 引入“非表达性使用”理论的必要性
“非表达性使用”是指对作品的利用并非为了向受众传递作品的艺术表达,而是将其作为原始数据进行统计、分析或机器学习。
逻辑基础:著作权法保护的是表达而非思想或事实。AI训练提取的是作品中的统计规律,这在本质上属于对思想的利用。
功能定位:将AI训练界定为非表达性使用,可以从根本上解决大规模授权难的问题。
4.3 利益平衡原则下的制度设计
在重构制度时,应考虑以下三个维度:
开发者维度: 降低数据获取成本,提供合规预期。
版权人维度: 建立“选择退出”机制,并探索补偿金制度。
社会维度: 确保AI技术不被少数掌握数据的巨头垄断。
4.4具体完善建议
完善概括性条款: 建议在《著作权法实施条例》中明确“三步检验法”的适用标准,赋予法官在特定情况下认定新类型合理使用的裁量权。
增设“数据挖掘”专项例外: 明确规定为开发人工智能模型而对作品进行的信息分析和数据处理行为属于合理使用。
建立“选择退出”机制: 借鉴欧盟经验,允许版权人通过技术手段声明拒绝被用于AI训练。
探索法定许可与集体管理: 对于无法通过合理使用涵盖的商业利用,可以建立法定许可制度,由AI企业向著作权集体管理组织支付费用,实现利益共享。
5结论
生成式人工智能的兴起是内容生产领域的工业革命。传统的著作权合理使用制度在面对AI训练的大规模数据需求时,表现出了明显的不适应性。本文认为,我国应在坚持著作权保护初衷的基础上,通过立法或司法解释,确立“非表达性使用”的合法地位,并结合“选择退出”机制和法定许可制度,构建一套动态平衡的合理使用体系。这不仅能为我国人工智能产业在全球竞争中赢得先机,也能在算法时代继续守护人类创造力的火种。
参考文献:
- [1] 王迁.再论人工智能生成的内容在著作权法中的定性[J].政法论坛,2023,41(04):16-33.
- [2] 徐凯燕.人工智能浪潮下知识产权法面临的挑战与应对策略[J].中阿科技论坛(中英文),2025(02):148-152.
- [3] 谢星辰,宋尧,李可心.生成式人工智能训练数据使用的著作权困境及其破解[J].高校图书馆工作,2025,45(02):6-12.
