刘晓春：生成式人工智能数据训练中的“非作品性使用”及其合法性证成

发布日期：2024-05-22　　　点击量：

作者简介：刘晓春，中国社会科学院大学法学院副教授、互联网法治研究中心主任。

文章来源：《法学论坛》2024年第3期“特别策划·中国人工智能立法专论”栏目

摘要：生成式人工智能数据训练中的作品使用行为是否应当纳入著作权权利范围，关涉到产业发展的重要利益关系。数据训练中的作品使用，具有“非特定性”，不指向具体而特定的单个作品，从功能阶段上看，属于生产过程性的中间使用；从后续效果上看，对于生成式人工智能这一基础工具具有增强效应。因此，应当将其界定为“非作品使用行为”而排除在著作权权利范围之外。生成式人工智能应用对著作权人并未造成整体激励的削弱，只是导致了激励行为的结构性调整，因而不需要将著作权保护延伸至数据训练来予以补偿。著作权法下排除保护训练数据“非作品性使用”的具体方案选择中，从权利范围“直接排除”保护的方案总体上优于“先进后出”的合理使用方案。

关键词：生成式人工智能；数据训练；著作权；合理使用

《法学论坛》2024年第3期（第39卷，总第213期）

一、问题的提出

二、生成式人工智能数据训练中作品使用的“非特定性”

三、数据训练的过程性与工具性：“非作品性使用”判断的功能性视角

四、“非作品性使用”界定对著作权法激励效果的影响

五、著作权法下排除保护数据训练行为的规则方案选择

结语

一、问题的提出

ChatGPT为代表的生成式人工智能行业历经技术跃迁和快速迭代，近年来迅速成为全球高度关注的重点前沿产业，也成为新质生产力的典型代表。数据、算力、算法作为其核心要素，是否能通过法律制度的保障和促进得到高效利用，决定一国产业发展与国际竞争的成败。产业的竞争很大程度上也体现为规则的竞争。其中，生成式人工智能训练数据中对巨量作品的使用，在著作权法下是否具备合法性、是否需要经过著作权人许可这一问题，在理论和制度层面存在较大争议。随着全球范围内一系列广受关注的司法诉讼、行政处罚、立法举措的涌现，共识的缺乏和规则的缺失，为产业发展带来高度的不确定性，成为人工智能产业发展面临的制度瓶颈。

生成式人工智能在其开发和使用阶段，都可能涉及著作权问题。其中，使用生成式人工智能工具输出的内容，面临两个著作权争议问题：一是确权问题，即人工智能生成物是否可获著作权保护的问题；二是侵权认定问题，即如果人工智能生成物构成与在先作品相同或者实质性相似，应当如何认定其侵权责任以及由谁来承担责任。这两个问题都已经出现在司法案例和理论探讨中。本文探讨的训练数据中使用作品的合法性问题，则属于生成式人工智能开发阶段的问题，即在训练数据中使用作品，是否纳入著作权人权利范围，是否需要事先获得著作权人的许可。

生成式人工智能带来巨大产业发展前景的同时，也令著作权人群体产生担忧。2023年12月，纽约时报以著作权侵权起诉微软和OpenAI，主张ChatGPT训练数据中使用其作品的行为构成侵权，OpenAI在其公开回应中反驳了这一主张，认为数据训练行为构成美国法下的合理使用。这一纠纷促使训练数据在著作权法下的合法性问题成为全球关注的焦点。2024年3月，法国竞争管理局宣布对谷歌处以2.5亿欧元罚款，原因是谷歌的人工智能服务对受著作权保护内容的使用未能按其承诺与权利人进行谈判并支付费用。这些事件体现了世界范围内利益各方对训练数据著作权法定位和规则的诉求与博弈。

在立法规则方面，日本在其著作权法中明确将包含了人工智能数据训练的“计算机信息处理”行为列为合理使用，被认为是其大力发展人工智能产业决心的鲜明信号。新加坡在其著作权法中也有类似的除外规定。在欧盟，版权指令中对文本和数据挖掘行为规定了专门的例外条款，但是例外适用范围较窄，适用条件也比较严格，整体上还是倾向于保护著作权人利益，并未完全解决数据训练行为的合法性。在美国，数据训练行为被放在合理使用四要素的框架下来进行讨论，法律上的确定回答还有待司法裁决的后续定夺。

关于生成式人工智能数据训练行为的著作权法定性，在我国也尚未形成共识。2023年7月出台的《生成式人工智能服务管理暂行办法》要求数据训练过程中，“涉及知识产权的，不得侵害他人依法享有的知识产权”，实际上也是将问题留给了知识产权领域来解决。在《中华人民共和国人工智能法（学者建议稿）》中，也回应了对于知识产权问题的关切，例如，第23条第1款规定：“国家建立完善训练数据、算法、人工智能生成内容等知识产权保护规则”。由于著作权合法性问题直接影响到人工智能产业的基础要素和发展进程，从中央到地方政府层面，都在积极探索针对高质量数据版权争议的解决路径，意在建构为产业实现政策解绑和护航的制度基础。在人工智能数据挖掘和训练领域，近年来学者们也展开持续研究，提出不同观点。有观点认为数据挖掘和训练中的作品使用行为应当列为合理使用；有观点认为应当区分使用场景，将部分行为认定为不落入保护范围，部分行为列为合理使用；也有观点认为，数据训练中使用作品构成侵犯复制权的风险依然较大，需要建立更为顺畅的多元授权体系来寻求解决。

本文围绕生成式人工智能训练数据中作品使用的合法性证成问题展开，提出数据训练中的使用行为因其具有明显的“非特定性”，应当界定为“非作品性使用”，从而不应纳入著作权保护范围，并从功能视角对其过程性、工具性的特征和效果展开论证。在此基础上，进一步论证训练数据以及生成式人工智能工具的应用，并不会在整体上削弱制度上为著作权人提供的激励，不需要以补偿激励为由将著作权延伸至训练数据行为。最后，通过讨论“复制”概念在著作权法上过度泛化以及对其进行限缩的必要性，提出将“非作品性使用”作为一类行为直接排除出著作权保护范围，是比通过增加设置为合理使用行为的“先进后出”方案更优的选择。

二、生成式人工智能数据训练中作品使用的“非特定性”

生成式人工智能数据训练中对于作品的使用，属于通过计算机进行信息处理的范畴，与典型的人类使用存在明显的差异，因此在不同国家和地区的著作权法实践上，对于计算机的数据处理行为存在特殊规则的设定。但是，相较于一般的计算机信息处理如广义的文本挖掘等行为，生成式人工智能所使用的大语言模型具有更加明显的“非特定性”特征，亦即对于作品的使用并非基于对其独立、特定表达的使用，作品并非作为训练数据的可区别的独立对象而使用。通过比较著作权法下典型的作品使用行为，可以识别出“非特定性”作为生成式人工智能数据训练过程构成“非作品性使用”的基础要件。

1.著作权权利范围内的受控行为与作品使用的特定性。著作权法为作品的生产提供了一套激励机制。作品使用的非竞争性特征所导致的外部性，会造成作品生产的激励不足进而导致供应不足。著作权法通过赋予著作权人针对特定作品方式的排他性控制，人为创造稀缺，著作权人可以通过控制或许可特定的作品使用来获取利益，从而保证在创作和传播端形成足够的激励引导相应的资源配置。

在这个激励机制中，为了避免对于生产过程的过度激励从而导致对于后续创新的抑制，著作权法也设立了一系列限定激励范围的举措。例如，明确著作权的保护只针对具有独创性的表达，而不延及对于思想和事实的控制。在著作权发展和演化历史上，从在先作品获取借鉴并进行模仿的各种形态的行为模式，引发了大量关于“思想-表达两分法”的理论争议和实践裁判。

著作权人对于作品使用的控制，通过针对复制、传播、演绎等多种行为的排他性权利来实现，但是归根结底，指向最底层的作品使用，主要还是人们对特定作品的阅读、欣赏和理解。这类作品使用，具备特定性和表达性两个特征。例如，在文学领域，对于文字作品，读者通过作者的个性化表达获得阅读体验；在艺术领域，对于美术和视听作品，观众通过静态或者动态画面的个性化表达获得审美体验。在这些针对作品个性化表达的使用和体验中，作品具有独立性、独特性和不可替代性，不同的作品会产生不同的使用体验，作者的独创性表达也在通过使用作品而创造价值的过程中做出关键性贡献。

当然，人们在阅读、欣赏作品的表达同时，也可以提取作品包含的客观信息和事实。例如，在阅读基于历史创作的文学作品时，可以了解特定历史事件发生的时间和顺序；在欣赏关于足球运动的纪录片时，可以了解足球比赛的赛制和规则，等等。在基于此类目的的使用行为中，单个作品具有了一定的可替代性，同样的信息可以从具有不同个性化表达的作品中获得，无论是奥斯卡获奖作品，还是简易速成的短视频，尽管在独创性表达上相去甚远，但有可能在传递某个特定信息和事实上，显现出的价值并无二致。并且，这些客观信息也通常并非来自作者独特的个性化贡献，而是外在于创作过程、构成创作的在先要素。这种情况下，信息和作品表达尽管未必存在一一对应关系，但是人们通过对于作品表达的接触和理解而获取信息，还是以存在作品的独立和完整表达形式为前提的，故信息获取和作品表达之间还是存在着对应关系。

表达性使用的一个例外是计算机软件作品的使用。作为功能性作品，人们对计算机软件的使用并非通过阅读和理解计算机代码，而是通过代码的执行来实现预设的功能。计算机软件纳入到著作权法的保护，是法律演进并回应现实产业需求的体现。计算机软件尽管可以被认为构成一种“非典型”作品，介于著作权保护和专利保护之间，但是著作权为其提供的是一种同样区分思想和表达的保护，只保护区别特征更丰富、更具体的软件代码层面，不延及设计思想、结构等抽象技术方案。因此，作为非典型作品，计算机软件的使用体现出来的是“功能性”特征，但依然针对特定的一套软件代码，具有“特定性”。

由此，著作权权利范围下受控行为指向的作品使用，不管是典型的具有表达性的使用，还是作为例外的功能性使用，都将特定的作品作为使用对象，著作权人通过对作品特定表达的使用控制而行使权利、获得激励。

2.计算机处理作品中的特定性和非特定性。把上述人类使用作品的情况，对比针对作品的计算机处理和分析行为，可以大致对应到两种情况。第一种是针对单个作品作为独立表达形式的使用，典型的是建立可供检索、阅读甚至下载的作品数据库，例如中国知网论文数据库、谷歌数字图书馆、微信读书等。尽管计算机对作品的处理行为与人类通过作品使用获得体验的具体过程有所不同，但是在特定性和表达性使用上具有共同之处。因此，这种情况也是计算机使用作品最为接近典型的作品使用的情形。此类使用行为如未获得授权，有可能构成侵犯著作权的行为，也可能会被认定为合理使用，需要根据数据库所提供的服务功能相对于著作权人的市场替代程度而定。例如，知网论文数据库、微信读书等复制行为，被认定为纳入复制权和信息网络传播权范围应无疑义。而谷歌数字图书馆处理书籍的行为，则因其存在较高的转换性和较低的替代性，在司法实践中被认定为很有可能构成合理使用。

第二种情况可以大致对应到以获取特定信息为目标的文本和数据挖掘行为。这类行为通过针对文本的自动化处理和分析获取预设的信息，例如，通过针对判决书的大数据分析，了解和判断裁判现状、规则和态势；通过对特定时期历史文献的挖掘和分析，了解和总结历史事件及其特点等。欧盟《数字单一市场版权指令》中针对文本和数据挖掘设立了两条例外规则，其中第3条所规定的“为科学研究目的，研究组织和文化遗产机构”对其合法获取的作品进行文本和数据挖掘构成著作权保护例外情形之一，文化遗产相关的数据挖掘行为很可能包含此类情形。由于此类行为还是以获取特定信息为目标，因此，尽管针对作品的表达性使用属性有所减弱，但是选取特定的作品和内容组合依然重要。换言之，虽然表达不同的A作品和B作品由于包含了相同信息，可以被互相替换，但是并不能替换成其他任意作品，因而作品使用具有相对的特定性。并且，一旦A作品被选定，则成为独立的使用对象。

在以上计算机对于作品的处理过程中，对比人类使用作品的特点，基本体现了“特定性”和“表达性”这两个特征，亦即机器通过对于特定作品个性化表达的复制或分析来实现对于作品的使用。在生成式人工智能大语言模型训练中，作品被作为训练数据的使用方式，则完全打破了这两个特征，体现出鲜明的“非特定性”。在大语言模型应用深度神经网络的数据训练过程中，既不关心作品的特定表达，也不关心作品通过表达所传递的特定信息或者思想，而是将作品的表达全面打碎之后，从中计算和分析人类语言的规律，基于深度神经网络的参数分析，依据给定的输入上文，判断接下来每个词的出现和语序概率，亦即所谓的“词语接龙”游戏。

在这个过程中，作品被打碎和分解为碎片化的“语料”，不再是独立使用的对象，即使勉强认为对于语言规律的分析和计算，需要依据语词的具体呈现方式，但这种碎片化的“表达”也完全不是作者创作作品过程中的独创性表达。在总结人类语言规律的巨量分析和计算过程中，单个作品提供的价值并非独立的整体表达及其蕴含的信息和思想，而是一批运用人类语言规律的随机统计样本。在这种使用过程中，作品不具有独立价值，人工智能提炼和总结的语言规律，既不源于特定作者及其作品，也不源于特定的作品组合，单个作品在数据训练中存在高度的可替代性。在人类历史数据可能即将被耗尽的担忧之下，大语言模型开始使用人工智能生成的内容继续进行数据训练，亦具有可行性，就是这种高度可替代性的明显例证。

3.“非特定性”特征构成“非作品性使用”的基础要件。生成式人工智能训练数据过程中对作品的使用行为，具有“非特定性”的特征，并非针对特定作品的表达或者功能进行使用，不同于著作权法下典型的作品使用行为，有必要界定为“非作品性使用”行为，不纳入著作权人可以排他控制的行为范围。

“非特定性”使用之所以应当构成“非作品性使用”，并非只是因为具有现象层面的明显区别，而是因为这一使用方式与典型的作品性使用相比，对著作权人和使用方之间的利益关系、分配模式、确权成本等都具有深层次的不同意义。如前文所分析的，生成式人工智能数据训练中计算机习得并加以运用的结论和规律，并非特定作品个性化表达的特有贡献，很难归功于或对应到特定作品和作者。从知识产权确权模式理论看，数据训练所依据的并非作品特定的丰富“区别特征”，而是通过区别特征提炼“一般规律”，此类一般规律甚至很可能无法获得专利权的保护。在作品价值衡量层面，因其非特定性，单个作品在数据训练的巨量语料集合里面不是独立使用对象，因此很难判断其独立价值。由于其在边际上极高的可替代性，其独立的边际价值几乎接近于零。这与著作权法基于单个作品设立的激励机制也很难兼容，边际保护成本极容易超过边际价值，这一点与将临时复制排除出复制范围的讨论存在相似性。

需要指出的是，生成式人工智能作为内容生产工具，可以用来分析和处理特定作品。例如，在文本分析功能下，可以输入特定的作品要求人工智能进行内容的总结和提炼，或者要求生成类似风格的文件内容。此种情况属于训练完成之后的工具使用阶段，不属于数据训练阶段的“非特定性使用”。另外，根据数据训练阶段的不同，作品使用“非特定性”的程度可能也会有所不同。例如，在垂直、专业领域的数据训练，有可能涉及特定领域知识、规律的学习和提炼，而不一定是人类语言一般规律，这与大语言模型的不同应用层级相关。但是，即使是集中在某一专业领域，对于具体单个作品而言，对其使用也依然体现出“非特定性”，从而应当构成“非作品性使用”。

三、数据训练的过程性与工具性：“非作品性使用”判断的功能性视角

生成式人工智能训练数据中的作品使用行为，除具有“非特定性”这一特征之外，从训练数据这一行为在生成式人工智能工具开发和内容生产过程中的功能定位来看，也可以证成将其界定为“非作品性使用”的合法性和合理性，从而排除在著作权权利保护范围之外。

1.生产过程性：数据训练的功能阶段。生成式人工智能技术正在经历快速发展迭代，长远来看，它不仅仅会作为一种内容生产的工具而发挥作用，而极有可能成为一种内容生产的组织形式，需要把训练数据放在这个内容生产组织过程的整个阶段中来理解其功能。回顾生成式人工智能出现前的内容生产模式，可以分为个人生产和组织生产两种基本模式，随着平台在生产和经济组织中的作用凸显，也出现了基于个人和组织之间的平台生产模式。根据社会知识汇集的强弱程度、个人和组织整合的强弱程度，在不同模式下，对著作权保护的需求各有不同，著作权制度发挥不同角色。在个人创作者与组织的关系相对独立的情况下，创作者更需要作品的交易来实现激励，而不主要通过组织内部的激励或者流量变现等非著作权方式来获取利益，因此，著作权变得有意义。

本文认为，在这些生产过程中，著作权人控制的使用行为，都是针对内容生产的“成品”，即在生产环节结束后输出的内容，如果与著作权人的作品相同（如盗版）或者实质性相似（如改编、二创后构成侵权），其特定使用和传播行为就应当受到著作权人控制。但是，对于输出之前的生产过程中的使用，著作权人一直以来都无权干预或较少干预。

（1）内容生产模式下的生产过程“黑箱”。首先，在个人进行内容生产的模式下，不能仅将孤立的创作行为看做生产的全部，实际上应当包括个人多年的学习和知识积累过程。因此，用“机器学习”来描述人工智能的数据训练过程，实际上形象而贴切。如同数据训练一样，个人的学习积累也是内容生产的准备阶段。个人在学习积累、构思、创作、修改这一生产过程中对于作品的使用行为，有的不纳入著作权人的权利范围，例如阅读文章、观看视频等不涉及复制或传播的行为；有的则构成合理使用，例如“为个人学习、研究或者欣赏目的”的复制和演绎等行为，包括我国在内大部分国家，都认定属于合理使用而不构成侵权。整体上，在个人内容生产模式下，包括学习积累和创作过程在内的生产过程以及在私人领域输出“成品”，都不构成侵权，只有在内容进入公开传播，才会被认为构成对于著作权人的市场替代和利益侵害，从而受到著作权人的管控。

再者，组织控制的内容生产模式下，需要多个个人的分工合作，协同完成。组织控制的方式，有可能是在某个单位内部员工之间的协同，例如法人作品、职务作品的情形；也可能是多个组织彼此协调、共同创作，例如委托作品、共同创作的情形；还可能是在一个临时组织内部的分工协作，例如电影剧组。在这种生产模式下，对于他人作品的使用依然可以区分为生产过程性阶段的使用和输出成品之后的阶段的使用。尽管不会落入私人使用的情形，但是生产过程阶段中的使用，通常不会成为著作权人关注的对象。例如，如果某个剧组在酝酿、构思、修改剧本的过程中，借鉴了琼瑶的小说，可能剧本几易其稿，中间的过程稿使用到了琼瑶小说的个性化表达，但在最后完成的电影中并没有使用，若琼瑶因此而主张侵权，恐难以成立。

由此可见，在无论何种作品生产模式中，对于内容生产环节的流程（如图1所示），著作权人关心和主张控制的，是从输出端开始的作品特定使用和传播行为，考察的是生产过程输出的作品是否构成相同或者实质性相似从而产生市场替代。内容生产过程可以视为一个“黑箱”，著作权法只需要关心黑箱输出了什么，而在黑箱内部发生了什么，作品是否被使用和如何被使用，既无“打破”的必要，也缺乏“打破”的可操作性。

生成式人工智能的数据训练行为，无疑属于生产过程性的阶段，如果对照个人内容生产模式，生产过程可以大体划分为“学习积累+投入创作”两个阶段的话，训练数据过程属于生产过程中的前一个阶段，还处于学习积累形成能力的环节。只有在大模型“学有所成”，开始有能力对外提供内容生成服务的时候，才涉及到根据用户指令“输出”内容并进而传播的问题。在学习和积累能力的过程中，无法预测大模型日后的输出情况，有可能输出完全不同于在先作品的内容，也可能输出构成实质性相似的内容。但无论如何，与前述两种内容生产模式同理，只有在输出端才有可能出现相对于著作权人产生市场替代效果的内容，才符合著作权原本的激励范围。

（2）打破“黑箱”的过高行权成本。生产过程这一“黑箱”为何既无必要，亦难以打破呢？概因打破“黑箱”的权利行使和保护成本，可能远高于基于权利可以获取的受益，亦即此时设定或者主张权利成本较高。权利行使和保护成本可以分为三个层次。

第一层是作品使用行为的监测和核验成本，即发现作品被使用的成本，这层成本可以直接用“黑箱”这一比喻来形象解释，即内部生产过程难以被发现和证实。事实上，著作权侵权行为无论是否产生在生产过程内部，都面临被发现的成本难题，集体管理组织机制很大程度上就是为了解决过度分散化而难以发现的潜在侵权行为而生。不管是个人、组织在生产过程中的学习和使用，还是生成式人工智能学习的训练数据，在无法从输出端直接倒推的情况下，著作权人很难证明具体作品的使用情况。在纽约时报诉Open AI这一著名案件中，纽约时报应如何证明哪些作品被训练数据过程所使用，尚无定论。

第二层成本是生产过程中使用作品的估值问题，其难点在于，作品使用方式并非标准化使用，而且很难事先设定特定使用方式，尤其是在学习积累阶段的使用，很难将输出的内容成果与学习阶段的作品使用建立对应关系，因而难以确定作品使用的独立价值，也无法形成此类作品使用的定价机制。这一点在人工智能训练数据的场景下更为明显。

第三层成本是定位交易对象的成本，在生产过程涉及作品数量较大且尚未形成低成本集体授权机制的情况下，高度离散化的权利人分布，使得识别和定位交易谈判对象成本过高。这种情况在纽约时报等专业组织作为权利人时可能稍有缓解，但是考虑到训练数据集中可能涉及大量个人作品，交易成本实有可能高到阻碍交易，即使假以时日有可能形成相对稳定和成型的交易市场，时间成本也可能构成高速发展产业的实质性成本。此类主体过度分散化导致的过高交易成本和市场失灵，实际上也是现有著作权合理使用规则中很多场景的经济学理由。

生产过程中这一“黑箱”中对作品的使用行为，在至少三层成本的叠加下，使得此种情形下赋予著作权的做法，并非经济合理的选择。这在单个作品边际价值极低的人工智能训练数据场景下尤为明显。如同经济学家德姆塞茨所论证的，在决定是否需要设定财产权时，要考虑农场主限制牛群过度放牧带来的收益（防止“公地悲剧”）与修筑围栏的成本之间的动态权衡，即为同理。

2.工具增强性：数据训练的后续效果。生成式人工智能训练数据中对作品的使用，因其缺乏特定指向，并且属于生产过程性的使用，因而区别于著作权法下典型的作品使用。需要强调的是，这种特定的生产过程，指向的并非特定的内容生产，例如一部电影或者一部书籍，而是旨在增强内容生产工具的能力。与人类学习可以增强个体的知识积累和创作能力不同，在大语言模型的情况下，通过巨量数据的训练，产生和增强的生产工具有可能构成未来整体经济生产和社会运转的底层基础设施；从功能上而言，这一基础工具将远远超出内容生产领域，而在基础设施上将孕育生成为各行各业赋能的广泛应用。

生成式人工智能数据训练的后续效果，即对全面、复杂、难以预测的巨大应用可能性的开启，可以反过来影响对于在先作品著作权范围的判定。在关于专利权范围的讨论中，“前景理论”认为，赋予专利权人对于技术较强的排他性权利，一方面可以降低发明过程中专利“军备竞赛”导致的无谓成本损失，另一方面，对于针对专利技术的后续开发，也可以通过由专利权人来集中统一协调资源配置，消除后续开发中的无序竞争带来的成本，从而取得更优的创新资源配置效果。对该理论的批评观点认为，由专利权人集中协调导致资源配置更优的情况，仅适用于后续技术开发和创新较为容易预测且可能性不多的情况。而在后续技术开发和创新存在众多可能性方案且难以预测的情况下，即后续创新极有可能十分活跃之时，专利权人集中控制资源协调会造成的众多的创新机会损失，此时应当允许后来者可以自由基于技术展开创新竞争，有利于社会福利的最大化。

上述针对专利权范围取舍的理论论证，对于在先著作权是否应当控制训练数据行为的讨论，也颇具启发意义。在后续应用场景可能数量惊人且极难预测的情况下，通过扩张著作权保护，将人工智能工具的开发可能性置于著作权人控制之下，权利人是否有足够的信息和能力，判断出最有利于后续创新、应用开发的资源配置方式，很难得出肯定的结论。实际上，著作权法上关于“实质性非侵权用途”以及“避风港”规则的确立，亦在一定程度源于这一经济学机理。著作权的权能所排除的，是与在先作品的独创性表达相同或者实质性相似的“小概率”呈现方式，而不应该延及基础生产工具的训练和生产。

“转换性使用”概念在著作权法理论和实践中被广泛应用，也是基于同样考虑。在关于戏仿作品合理使用的众多讨论中，戏仿行为呈现的丰富创新可能性，使其成为合理使用制度意图保护的一个典型领域。在谷歌数字图书馆的争议中，尽管谷歌在复制作品后提供的查询等功能并没有体现过高的转换性和创造性，但因其在客观上带来的公众福利，在美国依然被认定为合理使用，在中国法院也被认为具有较高的构成合理使用的可能性。与这些案件类型所认可的“转换性”相比，训练数据中的作品使用行为在后续效果上可以认为具有更加明显的“高度转换性”。但是，由于这一过程并不直接基于原有作品生成转换性成果，而只是增强内容生产工具的抽象能力，因此，用“高度转换性”直接描述这一工具性效果，可能并不准确。

因此，考虑到数据训练行为在功能上的过程性和工具性特征，在控制和开放之间，为人工智能训练数据和后续开发提供一个自由竞争的市场环境，将训练数据中的作品使用排除在著作权保护之外，应是整体效益最大化的选择方案。

四、“非作品性使用”界定对著作权法激励效果的影响

生成式人工智能数据训练过程中对作品的使用，从其行为特征、在生产过程中的阶段性功能、对于增强基础工具能力的后续效果来看，应当是不纳入著作权权能控制的行为。在生成式人工智能之前，并未出现与其数据训练行为类似的作品使用方式，对其数据训练行为本身排除著作权控制，客观上并没有限缩著作权的范围，因此，不会削弱著作权制度提供的激励程度。但是，有部分著作权人对于生成式人工智能的发展和前景提出质疑和担忧，认为生成式人工智能生成内容很大程度上将会构成对于人类创作者的实质替代，在文字、音乐、影视剧等领域都有一定的反对声音。因此，有必要考察，从动态和长远来看，生成式人工智能作为一种重要的内容生产工具、以及将来的内容生产组织方式，是否会削弱著作权人的创作激励，从而造成著作权法上激励机制的失衡。

1.人工智能生成物对作品构成市场替代的三种可能性。生成式人工智能通过数据训练“学有所成”，能够生成外观上具有人类创作高度的作品，已成现实。但是直接基于这一现象就断言，人工智能能够取代人类创作者，则明显为时过早。且不论人工智能目前的生成物还存在创作高度的局限性，即使日后随着技术发展，人工智能具有更加高超的创作技巧，依然无法断言人工智能能够在创作上完全取代人类，就像具有极高自动化性能的相机依然无法取代人类摄影师群体的创作。在考虑这种替代效应时，需要区分三种情况来考察替代是否真的存在、存在的程度以及这种替代效果对于激励均衡的影响。

（1）表达相同或者实质性相似。第一种情况是人工智能生成物与著作权人在先作品构成表达上的相同或者实质性相似，亦即符合著作权法上认定侵权的传统标准。这种情况下，生成物构成作品的市场替代应无疑义，著作权应有权对此类生成物的传播和使用行为实施控制。但是，与此同时，著作权人针对“输出端”的此种控制就已经足够保证维持其原有激励，并不需要由此延伸到针对生产过程中数据训练行为的控制。此外，著作权人是否应当有权禁止此类内容生成——内容生成可能落入私人领域，还是仅能控制此类内容公开传播，以及承担侵权责任的应当是生成式人工智能服务提供者，还是发出生成指令的用户，尚可进一步探讨。

（2）风格相似。第二种情况是人工智能生成与作者在先作品风格相似的作品，作者主张，风格类似的内容会挤占自己潜在的作品市场，从而削弱其创作激励。对此，首先比较简单的回应是，个人风格很可能不属于表达的范畴，并非著作权保护的对象，即使没有人工智能，个人风格也可能被其他人类创作者进行模仿，而不需要经过作者许可。第二，作者可能主张，人工智能在生成成本和数量上的优势，会形成比人类模仿者更加严重的市场挤压，因此应当适用更加严格的保护，例如对训练数据进行管控。但是，一方面，与相同或者相似表达属于小概率事件不同，在创作风格的意义上，作者很难证明其专属性，人工智能生成内容的风格亦有可能来自其他在先作品，甚至是人工智能独立“创作”；另一方面，作者基于自身风格继续创作具有个性化表达的作品，依然存在差异化的表达空间，并不能够被完全替代，亦有可能因其“原汁原味”而获得与人工智能生成物的竞争优势。当然，部分作者的作品市场，的确可能被低成本、同风格的人工智能生成物替代，例如简单的海报设计等。此时需要问的问题是，对于这类创作，是否依然存在激励的必要，而作者可能获得了转而尝试不同创作风格的激励。

（3）整体替代。生成式人工智能代表的人工智能生产方式，将带来对于相当大规模作者群体的整体替代，而不论具体生成内容是否针对作品存在表达意义上的替代性，这的确是正在发生的现实，而且是人工智能技术变革带来的更为宽泛的就业和生产替代的组成部分，就如同自动相机取代摄影师群体，自动驾驶取代司机群体，拥有具身智能的机器人取代工人和家务劳动群体，等等。

可以从两个方面来理解整体替代导致的激励效果变化。一方面，作品市场上如果存在大量人工智能生成物，究竟是会更多替代人类作者的作品，还是增加人类作者作品的吸引力，尚未可知。就如同大量模仿梵高的作品恰恰反而突显了梵高原作的稀缺性价值，人工智能生成物和人类创作作品并不一定是在同一个市场上展开竞争。另一方面，在与人工智能竞争中败下阵来的人类作者失去了创作激励，选择退出市场，但是这并不是故事的全部，其他作者获得了不同种类的激励，或者独立创作差异化而更难被人工智能替代的作品，或者通过使用人工智能工具进行创作，以及随着技术发展可能产生激励其他新型行为的可能性。因此在整体替代的情况下，与其说是激励可能被削弱，不如说是所激励的行为可能发生结构性调整，以适应人工智能时代的来临。

2.著作权激励结构的变化。在上述三种可能的替代情形下，第一种情况构成作品的表达性替代，著作权人可以通过对于输出的成果传播进行控制，而无需将控制延伸至训练数据，第二种和第三种情况下，存在激励结构的变化，而不一定导致激励总量的削弱，不需要通过将著作权延伸到针对数据训练行为的控制而进行补偿。那么，接下来的问题是，在人工智能时代，著作权法上的激励结构将会发生何种变化，以及应当如何对其进行优化调整。

（1）面向增量而非存量的激励机制。著作权法上的激励机制，意在通过指导和调整人们的预期，影响其针对作品创作的智力劳动投入程度和资源分配，促进符合要求的内容生产，实现社会福利的较优配置。因此，这一机制虽然处理的是作品价值的分配问题，但指向的却是面向未来的行为激励，亦即，激励机制是面向增量增长而非存量分配而设。目前关于人工智能训练数据包含大量作品，因而应当分配收益的主张，主要还是一种存量思维。真正重要的问题是，容易被人工智能生成物所替代的人类作品，是否依然还是人工智能时代需要激励的内容产出，答案很可能是否定的。这部分因风格被模仿或者整体被替代的作者群体，他们总体上被削弱的创作激励，并没有必要通过对其权利的扩张进行补偿。随着生成式人工智能日益成为创作的基础工具，著作权制度需要提供的激励方向是，鼓励人们更多创作出能够与人工智能生成物展开差异化竞争的智力成果，这种创作过程可以由人类作者独立做出，也可以通过使用人工智能创作工具来实现。

（2）新型生产方式下的新型激励和补偿机制。生成式人工智能正在并将继续带来内容生产方式的变革，并推动内容生产组织形式的迭代，形成内容生产领域人工智能驱动的新质生产力。在新型生产力和生产关系的快速变化中，著作权的激励结构也需要进行相应的调整，激励的方向是促使内容产业的参与者能够加入到人工智能驱动的新型生产模式中，促进高效的生产模式快速整合成形。

在这一过程中，假以时日，人类创作者和人工智能生产工具不会保持在早期简单的利益对立和割裂状态，而是会迅速在人工智能新型生产组织模式中找到合适的生态位和参与方式。在平台经济下，通过平台组织的内容生产过程中，大量个体创作者实际上并不总是需要著作权提供的创作激励，他们通过流量变现、礼物经济等模式获取激励。同样的道理，在人工智能驱动和整合的新型内容生产模式下，个人创作者可以从人工智能工具能力增强中获得收益，这类收益很有可能远远超过其作品对于数据训练过程的边际价值，因而不需要将其著作权延伸到数据训练行为来补偿。

对于拥有高质量作品库的商业权利人来说，比如纽约时报为代表的媒体、期刊、出版社、数据库出版商，由于他们相对集中，更有可能克服过高交易成本导致的市场失灵，提出相应的补偿主张。但是，基于前文的分析，通过著作权的财产规则并非最佳方案。基于对于高质量作品数据库的控制优势，他们可以通过提供高质量的合法训练数据库来参与到人工智能生产过程的利益分配，基于数据收集、处理、加工等投入——而非基于著作权——获取责任规则意义上的受益。因为，尽管数据训练行为不应属于著作权控制的范围，但是向人工智能开发商提供作品数据库，依然是著作权人可以禁止的行为。商业权利人在数据产品建设上存在质量、成本以及合法性上的优势，可以通过成为优质的数据提供方，参与到生产过程并获得收益分配。

五、著作权法下排除保护数据训练行为的规则方案选择

生成式人工智能数据训练中的作品使用，属于生产过程中具有非特定性的使用，从可能导致的后续创新可能性、以及对于著作权人激励影响的分析来看，都应当排除在著作权法的排他保护范围之外。确定这一判断之后，接下来的问题就是，在著作权法上通过具体何种规则安排，来实现对于数据训练行为的排除保护。

1.两种方案。第一种方案是将数据训练直接从著作权权能中排除，这也是本文建议的方案，即通过将该种行为界定为“非作品性使用”，即使存在形式上的复制等现象，但透过现象看本质，数据训练不应纳入著作权法上“复制权”控制的范围。第二种方案是承认数据训练落入“复制权”控制的范围，但通过在合理使用中将其设置为不构成侵权的例外情形，排除对其的保护。

就排除对于特定数据训练行为的保护而言，两种方案很可能不存在实质上的差别。但是，就规则的应用扩展性而言，第一种“直接排除”方案的体系扩展可能性更高，可以适用于其他“非作品性使用”的情形，而第二种“先进后出”方案则更多局限于数据训练行为问题的精准解决。此外，在我国现实背景下，规则现实落地也面临着不同的可能途径和相关成本。因此，具体采取哪种方案，关系到对于“复制”这一概念限缩必要性的总体判断，以及规则落地的现实考量。

2.过度泛化的“复制”还是一个好的中介概念吗？抽象的法律需要针对复杂的现实利益冲突进行高度概括，做出大概率合理的价值判断，并据此确立广泛适用的规则，协调行为和资源配置，这一功能很大程度上是通过设定概念这一中介（proxy）来实现的。因此，一方面，中介概念的设定反映了特定利益关系的抽象和提炼；另一方面，一旦相关利益关系产生了实质性的变化，就需要针对概念进行反思和重构。

“复制”作为著作权法上的基础概念，无疑是工业时代的产物。在印刷技术发明并被广泛应用之前，信息和知识的传播主要靠口口相传或者手动抄录，复制成本过高，此时并没有设立著作权控制复制的社会需求。印刷技术发明后，复制只能由有实力购置专业印刷设备的商业组织如出版行业从事，此时复制与发行天然绑定，用复制作为著作权的核心权能，针对的是规模复制发行的出版行为。复印技术普及之后，私人复制日益普及，复制作为中介概念的范围大大扩张。等到进入互联网时代，数字化复制被纳入复制的范畴，复制不仅是信息网络传播的基础行为，也构成作品几乎所有使用方式的基础行为。相对于工业时代与出版发行紧密相连的“复制”，数字时代的复制已经极大泛化，几乎嵌入到作品使用和传播的所有环节。法律上通过将私人使用界定为合理使用，很大程度上将私人复制行为排除在外，避免过度影响信息流动和知识积累。但是实际上，没有被列为合理使用的复制行为依然存在大量的社会需求，比如，数字环境下真正被著作权人追究责任的，主要还是公开传播行为，而极少针对不附加传播属性的“私域”复制。此外，即使是传播行为，互联网上对作品的大量复制、转载，实际上是未经许可的“被容忍的使用（tolerated use）”，可以认为，被容忍的使用在数量上远远超过著作权人进行维权试图控制的复制行为。也就是说，复制这一中介概念在数字时代的泛化，之所以尚未导致利益失衡，很大程度上通过大量事实上而非法定的合理使用（即“被容忍的使用”）来维系信息流动和著作权之间的平衡。

进入人工智能时代，情况又有不同，在生成式人工智能模式下，大量的知识学习和积累是通过机器学习来实现，这一过程必然伴随数字化的复制，不能落入私人复制的例外。如果依然保持复制这个已经过度泛化的中介概念，那所有的机器使用、包括机器学习都会被复制权覆盖，大大扩展了复制这一中介概念可能包括的作用使用场景，极有可能造成新生产模式下的利益失衡。因此，有必要对于复制这一中介概念做出更加系统化的反思和限缩，将“非作品性使用”等可以界定出来的新型中介概念从“复制”里面直接排除，而如果采用“先进后出”的合理使用方案，只能逐个排除具体使用场景，则无法解决复制概念过度泛化带来的系统性问题。

3.规则落地的现实途径及其可能成本。“直接排除”方案和“先进后出”方案，在规则落地上都有两种途径。一是直接设立一般性规则，具体而言有立法规定和通过司法解释规定两种具体途径；二是通过司法机关在个案裁判中进行解释性适用。

先来看“先进后出”的合理使用方案，就目前我国著作权法对于合理使用的立法选择而言，创设新型合理使用行为的权限需要交由法律或者行政法规的立法者来行使，因此通过司法机关个案裁判或者颁布司法解释的形式，面临合法性难题。另一方面，即使司法实践有可能参照美国模式，可以根据具体案件的要素衡量创设新型合理使用行为，形成著作权法的“宽进宽出”模式，是否能够实现较优的“宽出”还要依赖个案事实的判断，短期内不易形成相对客观、统一的裁判标准，合理使用在司法裁判中的不确定性，比如“转换性使用”标准不清，也是美国司法裁判长期被质疑的问题所在。

相比之下，“直接排除”方案，涉及到的是对于“复制”概念在特定时代和产业条件下的解释和应用，既可以通过立法规则或司法解释予以明确，也可以由法官在个案中确立裁判规则，同时，通过对于“非作品性使用”特征的清晰描述和界定，可以使得规则适用具有更强的一致性和确定性，而不需要受限于合理使用分析指向的具体场景。

具体而言，可以通过在著作权法或其实施条例中明确：人工智能产品开发中将作品作为训练数据使用，仅用于训练过程且不针对特定作品独立使用的，构成非作品性使用，不受著作权法保护。亦可通过在人工智能行业相关立法中给出相应的规则或者原则，确立明确的发展导向。

结语

生成式人工智能作为新质生产力的代表，为内容生产提供了强大的技术工具的同时，也在深刻改变着内容生产的相关利益关系，推动内容生产模式的纵深变革。生成式人工智能数据训练中对作品的使用，一方面呈现出完全不同于著作权法视野下原有作品使用行为的特征、功能和效果，但另一方面，对于数据训练行为的著作权法定性，也深入牵动着各方主体的利益分配变动格局。

生成式人工智能训练数据中对作品的使用，具有“非特定性”，属于生产过程性使用，具有增强人工智能基础工具能力的效果，应当界定为“非作品性使用”。通过数据训练产生的生成式人工智能工具，其生成物对于作品的市场替代效应和激励削弱，不需要通过将著作权延伸到训练数据行为来弥补。整体上，生成式人工智能对于人类创作者的影响，并非体现在总体激励的削弱，而是在于激励结构上的调整。面向人工智能时代，著作权法提供的激励结构，目标应为促进人们积极面对、适应、拥抱人工智能工具革新及其带来的新型生产方式，快速融入新质生产力的创新和发展。

从法律和治理视角关注人工智能的产业发展，需要有能力跳出原有的概念和范式，在国际竞争的视野下，从促进发展的鲜明立场来进行规则选择和设计。一方面，国际上人工智能的产业竞争方兴未艾，另一方面，法律和治理规则的竞争，会对产业发展和资源转移，产生立竿见影的影响。著作权法上的制度演变，从来都和生产力和生产方式的变革紧密相关。站在国际竞争和促进国内人工智能产业发展的立场来反观训练数据的著作权法定性判断，所得结论更加清晰。

论文文章

刘晓春：生成式人工智能数据训练中的“非作品性使用”及其合法性证成

友情链接