从大模型视角重新看金融科技

0

刘曙峰

摘 要:大模型推动了第三次数字信息化浪潮。第一浪是信息化过程,科技代替体力劳动;第二浪是网络化过程,传统行业实现互联网+改造的模式重塑;第三浪是数智化过程,科技替代脑力工作。中国金融科技发展也同样有“三浪”的变化。大模型和传统的AI模型有本质上的巨大差别,是从“可用”到“好用”的差异。大模型下的金融科技产业范式,可能有几个逻辑上的变化值得关注:一是语控万物(NL2X);二是大才能强;三是大模型的部署通常有两种形态,一种是连横的模式,另一种是合纵模式。经过场景不断延伸、做深、做广之后,大模型会逐渐从嵌入到现有的工作逻辑和场景,慢慢成长为新的生态,形成新的逻辑。

关键词:金融科技;大模型;产业范式;落地应用 

大模型推动了第三次数字信息化浪潮。中国金融科技发展也同样有“三浪”的变化:第一轮是信息化,在零售业务上取得突破性发展;第二轮是互联网,第三方支付工具等金融服务产品出现;第三浪是数据集业务,AI带来量化投资方面的创新。金融科技的范式从场景流量为王或逐渐转变为从算法、算力和数据三角元素支撑的,以数据为核心要素的新的产业形态,出现了语控万物、大才能强、行业大模型等逻辑上的变化。未来可以通过选模型、估规模、建场景等途径来落地金融机构或企业自己的大模型应用。

一、大模型推动第三次信息化浪潮

近期最新的有关大模型的事件是Meta发布开源Llama2模型,从测试数据结果来看,各种指标基本可以与GPT3.5追平。ChatGPT的爆火引发了大模型热潮,令几乎所有的企业都站在了同一个起跑线上,这也从侧面展示了这一轮的大模型带来的影响还在持续进展。大模型研究、产品和资本投入每周都在发生巨大变化,ChatGPT在刷新机器智能方面的新进展以及可能对社会经济发展带来的影响都是前所未有的,历史上从未出现如此盛况(如图1所示)。

将这样的变化放在更大的宏观背景中来看,实际上推动了数字信息化浪潮的第三浪。第一浪是信息化过程,科技代替体力劳动,人工操作电子化,通过计算机和IT技术解决了信息处理的问题,提升了工作效率,解决了信息孤岛问题,使得业务流程标准化。第二浪是网络化过程,数字化转型进入全面展开的阶段,科技延伸了人类触角,发挥媒介作用,通过互联网和移动互联网解决了信息传输的问题,大幅降低信息差,传统行业实现了互联网+改造的模式重塑。第三浪是数智化过程,科技替代脑力工作,通过物联网、云计算、大数据、AI大模型和数据解决了信息感知、模型知识、行动实现的问题,使得万物互联,实现生产智能化、决策智能化、管理科学化(如图2所示)。

在每一次信息化浪潮中都会出现一些伟大的企业(如图3所示)。第一浪中,IBM实现了从硬件厂商向服务型转型的大策略,微软信息化成为了巨头。第二浪中,互联网企业谷歌、苹果迅速发展。今天的第三浪中,增速最快的英伟达市值最快到了万亿美元。

如果我们把目光缩小到金融领域,中国金融科技的发展也同样有三浪的变化。第一浪信息化的过程中,从招商银行一卡通开始,从电子报单到订单电子化,边际成本大大降低,效率提升,逐渐在零售业务上取得突破性发展。第二浪网络化的过程中,第三方支付工具的金融服务产品出现,用户体验提升,金融普惠化、社交化、开放互联,深入生活场景。而在今天的第三浪数智化的过程中,数据集业务出现,大模型彻底改变了金融服务生态,加速产品推广,实现精准营销,全面提升用户体验,大模型互动AI建设成本由边际成本向固定成本转变,成本越来越低,金融信创成为数智生态和行业建设的基础(如图4所示)。近几年成长最快的资产部门是量化投资,短短几年,投资基金从零发展到千亿规模,表现最好的基金实际上是使用了机器深度学习带来的交易增强策略,规模的增长和收益的增强,其背后核心就是AI和超算力量。AI带来的效果已经初步显现出来,大模型推动的数字化浪潮全面展开,将会给行业带来新的变化和新的体验,以及哪些金融机构能够借助科技力量实现超越发展,这些都是值得期待的事情。

大模型和传统的AI模型有本质上的巨大差别,是从“可用”到“好用”的差异(如图5所示)。传统的AI模型是“可用”,能处理简单、小规模的问题,有更快的推理速度,在低功耗设备上运行,成本低,结果精准可控,但是在通用性和适用场景以及持续表现还达不到完全满意的效果。大模型是“好用”,在自然语言处理、计算机视觉等方面表现良好,需高性能计算资源支持,成本高,幻觉可能。大模型开创性地提出预训练模式,可以一次性解决多个问题,提出精调模式,可以实现“场景+任务”,培养0样本泛化和场景学习能力,实现多模态发展。

二、大模型下的金融科技产业范式初探

大模型技术突破是一次大的技术进步,是范式发生了变化,不仅仅要看到它带来的现象变化,更需要理解背后逻辑的变化。相对应地,金融科技的范式从场景流量为王,逐渐地可能会转变为从模型算法、算力和数据三角元素支撑的、以新的数据为核心要素的产业形态(如图6所示)。

在这样的范式下,可能有几个逻辑上的变化观察:

一是语控万物(NL2X)。原来用户习惯的是传统的菜单甚至是图形界面,现在语言会成为一个新的入口,语言不仅仅指讲话、对话框,代码也是一种语言。因为大模型本身是大语言的模型,是基于语言逻辑的学习。语言成为入口,这个变化可能会带来流量关注度、流量体系的重构(如图7所示)。

二是大才能强。一些创新、驱动力的建设进步很多时候是由大型的企业创源推动的,“大才能强”就是要集中一定的资源,在一个充分竞争的环境下不断地创新,具体到大模型则需要大算力、大数据、大投入。这些都需要有大型平台的支撑,同时要有充分竞争从而变化演化的环境,才能够产生“涌现”现象。大模型超过300亿参数的时候出现了“涌现”现象,在现实中,有一定的复杂度后才会出现突变(如图8所示)。“大才能强”这一范式,对科创投资的各方面也会带来逻辑上的变化。

三是大模型的部署。大模型的部署有两种形态,一种是连横的模式,因为大模型的通用性,各行各业都可以通过插件的方式,与基础模型的平台实现行业的应用。另外一种是合纵模式,在基础大模型的基础上训练一个专门针对行业的模型,并且进行部署(如图9所示)。

目前这两种形态都存在,尤其是连横模式的通用性使得它在多行业中得到普遍应用,同时随着模型逐步逼近自身能力天花板时,在开源的行业共享和普惠性的推动下,在行业大模型的边界、行业数据的边界、行业应用的场景、行业应用的黏性等方面越来越成为重要因素时,垂直领域生态建设、应用场景建设和模型能力的不断提升和训练就成为了更加重要的因素。从长期看,垂直领域可能会有它自己的合纵模式。

以上是大模型对格局范式变化的基本逻辑。

三、落地大模型应用的步骤

一是选模型。金融大模型的五大能力为金融专业问答、超长文本处理能力、代码能力、逻辑推理和多模态交互能力,要考虑落地效果、部署成本、安全合规、开放程度。目前仍然处在“百模大战”甚至“千模大战”的状态下,各种大模型层出不穷,但基本上可以分为三个梯队,第一梯队是国际大公司,第二梯队、第三梯队的能力则参差不齐,但是可能在一两年之内会逐步逼近语言、多模态的天花板(如图10所示)。

二是估规模。算力的限制与数据规模要达到的程度有关,比如自己训练一个公域数据的大模型,需要超过1,000块的A100显卡才能从头预训练,这时可能就需要几亿元甚至几十亿元的投资规模;如果是做行业模型精调,那实际上可以将投入控制在几千万元之内;如果是专属应用,投资规模也很小;如果只是调用,可以不用投资,直接进行使用。所以投入规模最终还是取决于模型想要达到的程度(如图11所示)。

三是建场景。场景建设分为两个部分,一部分是对业务的场景,另一部分是内部的场景,相较于业务场景,内部场景落地会更有效(如图12、13所示)。举一个例子,将一个80亿参数模型调出来的效果用在金融机构的运营业务上,比如用在简单的TA这样的业务场景中,基本上模型训练简单搭建一个应用场景,可以减少大约80%的工作量。所以在一些小的应用场景上,与传统的AI相比,大模型确实能够极大地提高效能,这也就是它的力量所在。

在这样的场景不断延伸、做深、做广之后,大模型会逐渐地从嵌入到现有的工作逻辑和场景,慢慢成长为新的生态,形成新的逻辑,改变我们的时代。

(作者系恒生电子股份有限公司董事长。中国财富管理50人论坛(CWM50)供稿)

评论被关闭。