数字经济国际竞合:数据和大模型

0

戎 珂

当下,人工智能技术已成为人们议论的热点话题,大模型的发展蔚然成风,为科学技术、生产生活带来革命性变化。在科技革命浪潮中,应如何面对数字经济的国际竞合?使用“国际竞合”,是因为目前数据和大模型属于新兴行业,在这个行业里没有一个国家能够独领风骚,也没有一个国家可以置身事外。因此,数字经济是一场国际竞合游戏——竞争与合作并存。

在数字经济国际竞合的主战场上,已经有170多个国家参与竞争与协作。其中,最关键的竞合要素有两个:数据和大模型。数据是生产要素,大模型是生产力,只要掌握了生产要素和生产力,就可以在未来数字经济的国际竞合中占据主导地位。如何占据主导地位?我们首先要分析数据和大模型这两个最核心的要素,分析之前需要先解构数字经济。

一、数字经济生态

数字经济用字母表示为“IBCDE”。对于数字经济,宏观经济学者更加侧重数据,微观企业管理者更加侧重企业。本文从中观层面探讨和分析“IBCDE”。“I”代表Infrastructure,即数字基础设施,也就是云网——你所在世界的基础设施。在这个基础设施上有两大平台,其中一个平台众所周知,就是类似BAT(中国互联网公司三巨头的首字母缩写:百度公司Baidu、阿里巴巴集团Alibaba和腾讯公司Tencent)、脸书(Facebook)、谷歌(Google)等,这些平台是To C(Consumer Internet,消费互联网)的;另一个平台是工业互联网或物联网所需要的平台,即生产端,生产端的数字化和网络化相对落后,既不存在标准化,也无法统一整合各行各业的差异,所以很难称其为“数字化”,人们习惯将其统称为产业互联网(To B,Business/ Industrial Internet)——这是未来数字化转型的下半场。搭建上述两个平台之后,就会产生数据要素。数据要素的最大特征是流动性,其中最关键的就是流动的市场。2023年3月7日,中共中央、国务院印发的《党和国家机构改革方案》对外公布。方案明确,组建国家数据局。10月25日,国家数据局正式揭牌,初期的组织架构按照综合、数据要素、数字经济、基础设施和公共数据等工作划分为五个组,从国家层面统筹协调数字中国、数字经济、数字社会的规划和建设。在此过程中,我们团队参与了“数据二十条” 的编写。IBCDE中的“D”和“E”,分别为数据要素(Data factor)以及数字技术赋能万千场景(Empowering)。具体而言,该方案的内部逻辑可概括为:以数字基础设施(I)为发展基石,由数据要素(D)为第一要素驱动力量,衍生出消费互联网(C)和产业互联网(B)两大组织生态,推动产业数字化发展、赋能万千场景(E),为推动中国式现代化打下坚实基础。在评价“IBCDE”五个方面时,最关键的要素就是数据和大模型,在赋能千行万业的过程中,大模型将发挥巨大的威力。

就人工智能(Artificial Intelligence,AI)技术而言,AI是离不开数据的,所以在解构AI价值链的时候,大多数谈的其实是数据问题,而并非AI本身的问题。事实上,与其说讨论AI,不如说讨论数据是怎么来的、如何交易、如何分析、用什么模型分析、该分析模型是否可靠及是否安全可信等。研究AI数据要素涉及多个大的方面,比如国家利益冲突、安全与共识,国家、地区之间经济发展不平衡等。在大的方面之下还有更深入的层面,比如数字鸿沟、数据担忧、隐私保护等一系列问题。

目前AI发展遇到很大挑战,其中最难的挑战是标准化问题。评估数据最难的就是标准的制定,各国各领域的数据产生都不一样,拿集装箱来做一个比喻——我们需要研究能否把世界的数据物流变成像集装箱一样方便,集中装箱,之后通过船舶、铁路、公路进行运输。AI发展中面临另一个挑战是商业困境问题,大模型构建需要大量资金投入,如果最后无法商业化,就会产生巨大的浪费。商业化问题自20世纪50年代就已出现,当时的核心问题就是探索大模型可以在哪些方面进行大规模、低成本的应用。因此,标准化和商业化问题,是AI和数据领域所遇到的挑战和难题,亟须出台措施和解决方案。

二、数据要素生态

(一)数据要素的现状

在数字经济生态中,数据要素究竟有多少?我们团队在《中国社会科学》上发表了《数据资本估算及对中国经济增长的贡献——基于数据价值链的视角》,研究数据要素占GDP的比重。我们在研究中采用了增值法,沿着整个数据的清洗、加工等价值链,加入算法进行AI提升。结果发现中国2020年数据资本的存量约占当年GDP的27%,这个数据量是惊人的,然而在这27%中有多少比重能够得到很好的使用是考验功底的。很明显,相较于土地、资本、劳动力对中国GDP的贡献,数据对中国GDP的贡献一直在逐年增加,这也侧面解释了全世界都在大力投入数据要素研究和开采的原因。

数据市场存在诸多问题。笔者在人民网发表了《构建多层次多样化数据市场体系》一文,提出构建多层次、多样化数字市场体系的必要性。具体而言,多层次数据市场具体包括三级:第一级市场指数据资源市场,主要解决原始数据授权、数据资源流通等问题;第二级市场指数据要素市场,提供数据要素交易流通的场所,数据要素指的是参与到社会生产经营活动、产生经济效益,并以电子方式记录的数据;第三级市场指数据产品和服务市场,提供数据产品和服务流通的场所。数据确权是数据后续流通的基础,因此,在第一级市场,针对公开数据以及在授权程度较低的宽松条件下可商用的数据,应采取自主经营、鼓励共享的原则,用户公开一般个人信息、企业联系信息、产品价目表、政务公开信息等,应鼓励其跨平台、跨公共和商业领域共享,促进全社会的数据要素资源流通和价值倍增。通过数据分类分级授权,让数字平台直接通过用户自主授权或市场化授权协议,合理合法地收集使用数据,从而降低数据确权和流通中的交易成本。

搭建这个市场面临的挑战巨大,大家都在摸着石头过河。其中,三级市场是数据的主要市场,也就是数据在真正应用中与AI结合以后所形成的产品,这里会产生制度问题、技术问题和市场问题,这三个问题实际上都是很大的数据问题。但是我们一旦有了三级市场,便容易“对症下药”,因地制宜做针对性安排。按照改革的一般路径,要素市场化改革也应该遵循先试点后推广的路径。应加快进行多层次多样化的数据市场体系的试点,比如第二级市场的交易中心模式以及第三级数据平台模式等试点。特别是,应鼓励大型企业以及中小企业践行多层次市场规则,积极参与场内场外交易,丰富实践案例。

(二)数据要素的全球治理

数据要素的全球治理问题非常关键。众所周知,美国的数据非常自由,美国起先不讲数据主权,而讲数据跨境流动,因为美国拥有全世界的“四大金刚”,因此对于全世界数据的流动非常了解。彼时数据跨境流动的第一“受害者”是欧洲,因为欧洲提倡强化数据保护理念,但是最新的欧美政策变了,他们趋向融为一体。中国是世界第二大数字经济体,数据跨境流动对中国而言非常重要。目前,中国针对数据要素已经出台相关法律,比如《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等,我们团队也有幸参与其中并贡献力量。这些相关法律法规的出台,旨在大力发展数据要素。目前面临的挑战是,欧洲自成圈子、美国成立圈子、欧美之间在谈判、欧洲和美国分别建立了亚太地区的“数据要素盟友”,比如与日本、韩国等。这个态势对我国非常不利,因此我国一定要更加开放地看待数据要素,把数据的全球治理纳入中国经济高质量发展、中国科技自立自强的核心议题当中。在这个进程里,政府要承担更大的责任。

三、大模型生态

关于AI中的大模型问题,笔者认为“技术主义导向性”存在一定的弊端。AI技术并非现在才出现的,在自动化时代,我们就开始进行机器学习,为什么到现在才强调AI技术?因为当年机器学习不温不火,这不是技术的原因,而是应用的原因——大概率由于当时找不到机器学习的合适应用场景。这给予我们很大启发,即不但需要拥有技术,更需要考虑应用场景。中华优秀传统文化讲“天时、地利、人和”,放在AI和大模型领域同样适用,比如有时候缺算法算力,有时候缺算据,有时候缺知识和场景,或许在大模型阶段上述什么都不缺,但是缺伦理、缺安全、缺人才,等等。AI和大模型的成功也需要“天时、地利、人和”,这些因素缺一不可。这一系列问题,要求我国在发展AI的时候动员全社会的力量,而不仅仅是计算机的力量,这是大家需要达成的一个共识。

未来,将会是什么景象?如何面对?目前来看,已形成这样的发展模式:传统产业→信息化→数字化转型→云→数据→大模型→云原生→智能世界等,这里有七个“算”要考虑,笔者将其称为“i7算框架”,即算法、算力、算据、算知、算景、算者、算理,“i7算框架”的发展需要全社会的力量。不得不指出,中国在发展这七个“算”的过程中遇到很多问题,一方面我们要面对现实的困难,另一方面我们也要有信心——我们有很强的大模型公司。大模型公司应该是多层次的,单单开发基础模型(Foundation model)远远不够,也要开发场景模型(Scene model)。大家各有千秋,各有各的生态位,要谨慎乐观选择。

四、对策建议

对于数字经济的国际竞合,尤其对于数据和大模型的发展,笔者提出以下对策建议。

首先,关于AI价值链,从初始阶段、中间阶段到终极阶段,仅凭市场力量是很难解决的。标准化问题和效率问题更多可以依靠市场力量,安全问题和隐私问题更需要依靠跨国多边机构协同解决,而现在这种类型的多边机构是缺失的。可喜的是,中美两国元首同意推动和加强中美各领域对话合作,包括建立人工智能政府间对话,这是个良好的雏形和开端。西方国家也在发力,比如英国建立了AI安全论坛,全世界范围内都在进行AI对话。原因是什么?原因是在未来,AI将像核能、电能一样,不仅拥有巨大的发展潜能,同时也具有巨大的安全隐患,所以在这种情况下,全世界必须围绕关键核心问题进行谈判——AI模型到底怎么做、伦理问题有哪些、安全隐患有哪些,等等;同时不能因为存在安全问题,就忽视了市场的力量,事实上有时候市场的力量往往有助于解决安全问题。因此,“多边机构+市场力量”,可能会是AI数据全球治理结构的基本逻辑。

我在《中国式现代化视阈下的数字中国建设》中提到,在安全高效利用数据要素的基础上搭建起“通用能力+专业能力”生态互补关系,最终赋能万行万业。笔者认为,大模型整体而言应多层次发展,比如华为、百度的通用大模型能做到L2,但大多数企业只能做到L4或L3。大模型的另外一个表述是“AI+”,它更聪明一点。笔者称之为“生态型商业模式”,比如,虽然大模型不可能解决所有问题,但是要帮助所有行业解决制造问题的时候,就需要具备通用能力和专用能力,通用能力是大模型本身,专用能力就是大模型生态,因此,“生态型商业模式”应是一个大企业或者多个大企业和成千上万的小企业进行合作的商业模式。这也可以用来解决工业互联网和物联网面临的大问题。为什么以前工业互联网和物联网很难实现商业化?原因是无法实现场景端落地,场景端落地需要各行各业共同合作来实现。现在,由于大模型出现,便捷高效地把这些接口做好,将场景和数据完美结合,工业互联网和物联网将迎来一个春天。未来,制造业将成为最大的共享经济,是随时随地可以接入的大网络和共享经济生态。

从治理结构方面看,未来需要建立几个“信任”,即需要有善意的信任去完成这样的治理,要有关系的信任形成非常稳固的结构。因此,第一步要有完善的数据和AI流通规则,第二步要有数字基础设施,第三步要有数据和AI治理组织。这个过程也是逐步建立和积累数字世界治理的生态信任的过程,让彼此充满信任:信任彼此的数据、彼此的模型、彼此的治理规则,这非常重要。目前,西方国家之间、世界各国之间,最大的不信任就是对彼此治理的不信任,对彼此的数据、彼此的AI大模型的不信任——这是一个巨大的鸿沟,我们必须尽快去弥补这个鸿沟。

《“十四五”规划和2035年远景目标纲要》提出,“构建数字规则体系,营造开放、健康、安全的数字生态”,为营造良好数字生态提供了指引。营造开放、健康、安全的数字生态,需大力支持技术攻坚,推动数字产业链协同,实现安全可控、健康发展。为此,应在我国安全、自主、可控的基础上向全球数字创新主体开放,与全球数字生态发展融合。这绝非是单打独斗、孤立的过程,而要加快推动我国数字经济国际化,实现全球共创,共同构建数字命运共同体。未来,营造开放、健康、安全的数字生态十分关键,需要大家共担责任,构建相互信任的数字生态。

(作者系清华大学全球产业研究院副院长、社会学院经济所副所长。本文根据作者在2023第八届世界物联网大会上所做的演讲整理。) 

评论被关闭。