生成式人工智能实现突破创新需要良法善治——以数据训练合法性为例

0

张 平

面对全新的技术和商业模式,法律需要保持包容审慎的立场。2023年7月,国家互联网信息办公室等七部门联合发布《生成式人工智能服务管理暂行办法》。在2023年4月《生成式人工智能服务管理暂行办法(征求意见稿)》公布后,该文件对数据来源的合法性和知识产权方面作出相对比较严格的规定,社会各界也对此给予高度关注,特别是技术界。在人工智能数据训练期间,通过运用大量数据训练人工智能模型让它更聪明、更有智慧,但是我们发现很多数据要么涉及个人信息或隐私,要么具有知识产权,特别是有品质的数据大多具有在线知识产权。因此,要求它具有合法性是比较严苛的,在《生成式人工智能服务管理暂行办法》正式发布的时候,有关条款做了一些调整,对于生成式人工智能给予包容审慎的监管立场。

人工智能技术在整个开发过程中面临诸多法律问题,其中最突出的就是数据来源的合法性问题,而在数据来源合法性问题中更加突出的则是知识产权问题。《生成式人工智能服务管理暂行办法》第七条规定,生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动。在进行数据训练和优化训练过程中,首先要确保使用具有合法来源的数据和基础模型,不得侵害他人依法享有的知识产权。其次,涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形,同时还要采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性。如何保障训练数据的真实性、准确性、客观性和多样性是一项重要议题。实现多样性是比较容易达到的,比如,可从文本、音频、视频、图像以及抖音、Facebook等公开的交互式平台上获取一些开放式信息。另外,一些高品质的科学文献、科研报告等都是大数据学习的样本。因此,数据训练的多样性要求容易得到满足,但是数据的真实性、准确性、客观性、得到合法授权是不太容易做到的。

人工智能进行数据训练的来源主要有三个方面。第一方面来自开放平台的公共数据,尽管它可能不成体系,不构成完整的作品,但是其中可能包含着大量的个人信息和隐私。还有一些其他公共数据,这一类数据看似在开放平台公布了,但好像并不是通过爬虫技术就可以获取。现在大数据学习大部分是通过爬虫技术来获取数据,但是爬虫技术一般会受到爬虫协议的约束,如黑名单或者白名单,如何采取技术手段获取数据同样需要合规。 

第二个方面来自具有知识产权的作品或数据,如享有著作权的作品、著作、文献、科学期刊、研究报告,甚至包括成体系的发言、专家讨论的数据等,这类数据学习首先要获得授权。如果是用优质的科学文献,必须获得相关期刊和作者的授权,这是非常难以实现的事情,就像在互联网平台发布所有的信息都要获得合法授权一样,这几乎是不太现实的。特别是在一些具有P2P性质的平台,比如,用户个人下载的信息如何确保其均获得授权?用户认为这是以个人合理使用为目的的,没有必要获得授权,这些信息应该是平台已经获得授权的,但是平台面对海量的信息要全部获得授权也是非常难以实现的。

因此,对于大数据深度学习,其数据如果是来源于作品,就必须先获得授权才能使用,可是事先获得授权既不现实也不可能,怎么办呢?为此,业界提出了一些思考和建议,首先在计算机软件领域,诞生了所谓的自由软件、开源软件,它是一种开放授权模式。后来出现了一些知识共享许可协议(Creative Commons license,简称CC协议),就像维基百科这类平台就是通过开放授权来宣示其仅保留大量作品著作权的使用权,其他权利暂时放弃,可允许他人免费复制、修改、发行,所以人工智能数据训练学习要么需要通过授权,要么获取的是开放社区的数据。

当前,进行学习的数据来源即使全部尽量做到合法合规,依然还会有一些属于未经过授权就获得的数据。比如,数字图书馆的出现,虽然是为了社会和公众学习目的,但如果要使用他人的在线文献和数字化服务都必须经过授权。因此,人工智能大数据学习类似早期的互联网搜索引擎和数字图书馆的建设。实践中已经发生过类似案例,ChatGPT出现之后,美国有一些著作权人或著作权代表机构提起集体诉讼,对生成式人工智能使用的数据提出版权主张。他们认为,当进行大模型训练时,使用未经过授权的作品,也没有支付任何费用,这样的生成式人工智能产品是不合法的。当产品一旦进入商业使用阶段,就会有著作权人来主张权利,他们认为这种从他人作品中拿来数据或内容进行简单拼接或融合的行为,是违背现行著作权保护法规定的。因此,生成式人工智能服务或者技术本身就变成了帮助侵权的工具,这跟早期美国很多判例思路是一样的。这些判例认为,类似P2P这种平台的软件,尽管平台本身没有储存、下载、发行等行为,但是由于平台上存在“点对点”的个体用户传播行为,这个平台就相当于提供了一个帮助侵权的工具。

此外,我们使用一些人工智能音乐创作软件,比如,用AI模拟孙燕姿的声音去翻唱周杰伦的歌,这个行为会遇到哪些问题?首先是通过AI模拟一个人的声音是否应该受到保护?实际上这个行为应该得到本人的授权,尽管他可能没有著作权,但是歌手本身具有人身权。再比如,翻唱周杰伦的歌,还要得到词曲作者、表演者等权利主体的全部授权。因此,这类AI软件平台一般会发布一个警告或声明,需要用户自行解决数据的授权问题,或者由用户签署如发生侵权问题时由用户承担责任等免责声明。但如果在法律诉讼时,可能提供工具的平台机构也要承担共同侵权的责任。这些都是当前知识产权保护问题的现状和背景。

如何解决此类问题?既能给AI发展提供良好的空间,同时也能遵循现行法律。笔者建议,应多元化解决生成式人工智能数据训练来源的合法性问题。第一,要坚持包容审慎监管的立场。对于生成式人工智能进行预训练、优化训练数据,应当建立一个事前自律守正、事后公正处罚的机制,鼓励创新的同时坚持守正创新。科技创新要坚持善意,不能恶意侵犯他人权利,对于恶意侵犯他人权利的行为要严格监管并给予责令赔偿等惩罚。

第二,可借鉴早期互联网搜索引擎建设时应用的“安全港”制度,即使用人不知道数据来源是否合法,但是可以利用数据进行研发或应用,日后有人来提出相应权利主张,要按照法律的规定付费或补偿。网络服务提供者对网络侵权行为负有“通知—删除”义务。同时,可通过集体管理机构来解决授权的问题,即数据使用者可以把著作权的许可费支付给文字、图像、影像、电影等著作权集体管理机构,如果有人来主张权利,集体管理机构可以给权利人支付许可使用费。另外,可利用开放授权的数据资源,这类资源由权利人主动上传到维基百科等平台或其明确遵循CC协议,像在计算机软件领域,大部分人工智能使用的软件是遵循开源软件许可证的,这一类平台或开源社区的数据是可以直接拿去用的,但是要遵循它的许可规则。

实际上,美国对于生成式人工智能数据训练的合法性没有太多成文法的规定,都是采取事后监管的态度或者事后通过判例去引导,美国秉持企业产业发展优先的态度,其数据治理和保护更多是依赖社会舆论和企业自律。而欧盟对于生成式人工智能数据训练的合法性要求则相对严格。

当前,我国也出台了相关法律法规,比如《网络安全法》《数据安全法》和《个人信息保护法》等,这一系列法律都对个人信息、数据来源、数据合规性作出严格要求,某些方面的规定与欧盟比较接近。在当前鼓励技术创新的环境下,笔者认为,在法律的监管和执行中还应考虑到企业的自律和企业的善意,在事先初步合规审查之后,生成式人工智能研发机构要表明自己的立场和态度,日后一旦发生侵权或监管问题,相关机构可以进行相对善意或包容的处理。

自从互联网诞生之后,人类就面临着许多法律挑战,特别是在知识产权保护方面。进入人工智能时代,我们依然面临一系列知识产权保护问题,期待在保护知识产权的同时,也要推动技术发展与监管同时进行。

(作者系北京大学法学院教授、中国科学技术法学会常务副会长兼秘书长。本文根据作者在2023世界机器人大会主论坛第六单元:融合发展——机器人产业健康生态论坛上所做的演讲整理,发表时略有删减。)

评论被关闭。