融合认知计算的方法与原理

张智祥王楚涵张耀龙

摘要：在数据智能技术产业化的过程中，一个重要的发展趋势是由计算智能、感知智能向认知智能技术升级。作为这一趋势在日常生活工作场景中的实际呈现，由美国人工智能研究公司OpenAI推出的产品ChatGPT在近日广受追捧。这项技术的本质是将海量数据与表达能力极强的Transformer模型结合，从而对自然语言进行深度建模，最终呈现为ChatGPT在上述模型参数的作用下对输入指令生成回复。然而，理想的认知智能技术远比现有的ChatGPT更加强大，该技术需要对信息化社会中由互联网、移动互联网和移动智能设备所产生的数据进行解读，这些数据包含语音、图像、视频、文本以及情绪等各类纷繁复杂的内容。本文所介绍的多源多模态融合认知计算（以下简称融合认知计算），就是我国自主研发的已场景化应用的认知智能技术，该技术以分词矩阵构建中文语义的技术核心，探索像人脑一样分析“机器大脑”无法理解的数据。本文将详细介绍融合认知计算的技术和特征，揭示其技术本质和核心逻辑，对促进认知智能技术进步，完成人工智能从“量变”到“智变”的跨越具有深刻意义。

关键词：融合认知计算；认知智能；人工智能

一、融合认知计算的技术内涵

（一）融合认知计算的背景

人工智能发展之初，得益于大数据的红利。大数据的海量标注样本以及超强计算能力为人工智能的发展提供了强大支撑，从而出现了人工智能的热潮。人工智能的进化依赖于大量数据“喂养”，因而，首先需要大数据爆发性的增长，人工智能才能够实现真正的突破，人工智能在得到大量且广泛应用的同时，能够反哺大数据平台，使其获得更多“新鲜”数据，人工智能再通过对这些“新鲜”数据进行深度学习和反复训练，就可以实现其智慧程度持续提高及应用赋能发展。

然而，以深度学习为代表的人工智能由于严重依赖大数据大样本，导致其尽管从表面效果看已具备极高智能，但于内在逻辑而言，这种所谓的智能仍然只是单一场景内数据量堆砌的最优算法。以深度学习算法为例，其基本思想是分层模式识别，如若改变其擅长领域内的任何一个因子，就会导致整个系统发生崩溃。凭借感知智能，机器只能具备感知世界和简单的预设逻辑交互能力，而不能像人脑一样理解、推理和决策，且无法帮助或替代人处理较为复杂的工作。因此，人工智能的发展仍需寻求新的思路和方向进行突破。

探索一种新的技术范式，将精力投入具有真正智能的AI设计，同时引入知识特别是符号化知识，是人工智能发展的必要条件。实现AI推理及其背后的识别逻辑，必须是在大数据的基础上，开展全新的数据、知识与语义的构建，也就是将感知智能与认知智能打通，完成大数据与认知计算的融合，形成真正的认知智能生产力和服务力。融合认知计算，就是在大数据红利消失殆尽和以深度学习为代表的感知智能水平日益接近其“天花板”的大背景下形成的。

（二）融合认知计算的本质

由于互联网、移动互联网、移动智能设备的不断繁荣，数据的爆发已势不可挡。数据的类型也发生了巨大变化，原来机器可以理解的数据，变成了包含语音、图像、视频以及其他各类纷繁复杂的内容，甚至包括情绪和体征等计算技术无法解读的数据，并且这部分数据占据了80%的份额。机器需要像人的大脑一样来分析这些全新的数字技术，从而实现对这些数据的解读，由此产生的计算技术就是认知计算。认知计算采用与人类相同的方式处理自然语言和非结构化数据，并从经验中进行学习，根据最佳的可用数据，帮助人类做出更有效的决策。

人类的思维过程，可以被理解为符号处理的计算过程；人类的语言理解过程，可以被理解为一种在知识表示上的计算过程。让计算机理解自然语言，在技术理论层面是可能且可行的。在大数据时代，由于数据来自不同的源头、不同的领域，因此数据呈现出不同的模态。把这些数据背后隐藏的知识挖掘出来，实现数据智能被认知，从而赋能业务，实现智能化生活服务，这种将多源多模态数据进行融合，并通过认知计算技术实现的类脑智能，就是融合认知计算，其本质既是一种技术也是一种方法。

（三）融合认知计算的基本技术特征

语言信息处理已经成为信息科学技术长期发展的新战略制高点，语言是信息最重要的载体，计算机只有具备处理自然语言的能力，才可能产生认知，实现人工智能。自然语言处理技术和知识符号化表示，才是认知计算技术的真正基石。例如，语音识别与语义分析在人工智能技术层次上是不同的，语义分析在智商上比语音识别高出若干层次，领先一大步。此外，以人体器官为例，可以更直观地感受语义识别和语音识别的区别：语音技术相当于人的嘴巴和耳朵，负责表达和获取，而语义技术相当于人的大脑，负责思考和信息处理。通过对语义识别和语音识别的差异探究，可以更加清晰地反映出融合认知计算的技术特征，即人工知识点编辑+分词+关键词匹配。其中，分词是实现大数据信息挖掘认知计算的另一个关键技术。因为，语言（特别是汉语）一般是以字为基本书写单位，词语之间没有明显的区分标记。自然语言处理通常是先将文本中的字符串切分成合理的词语序列，然后进行归一化和标准化处理，继而转化成一种空间向量或者符号，并进行计算。因此，把语言特别是汉语语言作为一种符号，把多源多模态数据转化成一种计算机能够理解和转换的文本知识（分词）矩阵（就像人留下记忆痕迹一样），再通过研制表示汉语能力和应用的模型，建立语言分词（语义）计算框架，才是实现大数据（多源多模态）新的认知和洞察的最佳途径之一，并能更好地赋能大数据应用。北京中润普达和武汉东湖大数据研究团队独创并发布了中文分词矩阵式认知计算技术，其研发具体步骤包括：第一，将不同行业、不同领域且清洗干净的高质量数据连接起来，线上线下数据打通，不断完善数据维度；第二，利用知识与语言计算技术，把数据连接到一起，包括语音、图像、文本、结构化数据等多源异构数据融合，并对这些数据进行分析、挖掘、研判，完成逻辑推理及复杂运算；第三，把人类大脑里的核心知识、算法部署到计算引擎里去，并让计算机自动做决策，完成向行业大脑的认知智能输出，从而形成闭环，实现人工智能。综上所述，融合认知和分词技术是融合认知计算的基本技术特征。

二、融合认知计算的核心逻辑

（一）融合认知计算的技术原理和实现方法

1.分词矩阵模型

从语言（汉语、短句）语义入手，通过融合通用本体分词（意群、短句）矩阵、行业本体分词（意群、短句）矩阵和领域知识文本分词（意群、短句）矩阵，加上具体业务（场景）分词（意群、短句）矩阵，构建一个支持分词矩阵技术的知识发现、理解、交互、搜索智能类脑系统。该模型能够为各机器、设备、终端装上一个在专属场景中进行语言交流、沟通的大脑系统。

2.多模态话语识别技术

通过自主研发的多模态话语识别模型和技术，可以发现不同模态的话语之间相互关联的方式，共同实现讲话者要表达的意义。因为一种模态不足以表达清楚交际者的意义，从而利用另一者来进行强化、补充、调节、协同，实现尽可能充分地表达意义，让听众理解话语的目的。基于此项技术，用户可以制定拟人化的话语交互模型和对话策略。

3.机器学习融合人类知识

可通过机器类脑系统，自主学习用户喜好和习惯，为人类提供行程规划、酒店预定等在内的 30多项功能与服务，打造一个能读懂、看懂、听懂、有记忆、自学习、真正懂人类需求的人工智能伴侣。同时，支持快速接入手机、App、网站、IoT、智能设备等终端，从而将人类与全世界紧密相连。

4.扩展场景小知识，获得行业大知识

基于分词矩阵相乘技术，类似于语义的量子纠缠，可以生成新的句子和知识，由此来扩展场景小知识，从而得到行业大知识，乃至未知新知识。同时，通过大知识语音交互引擎，可以弥补和扩展人工智能的不足，使类脑智能成为一种可解释的人工智能（如图1所示）。

5.语义类脑计算方法

知识表示。将业务场景中积累的人类知识和经验，以可梳理可计算的形式化方式进行描述、表示和存储，用语义本体作为基本单元来进行知识计算。

知识获取。从业务场景中海量的非结构化文本中抽取成千上万的知识点，形成分词（意群）矩阵，开展深度语义理解，结合深度学习来获得高效率、高精度的知识库，以此作为机器智能交流和沟通的语言基础（如图2所示）。

知识推理。基于不同场景的知识关联、业务关联、逻辑关联等，形成事实要素和结果要素间的逻辑推理，打造高级人工智能伴侣。

在上述技术实现方法中，分词矩阵认知计算是融合认知计算的核心。分词矩阵的核心思想是将汉语NLP处理的基本单元“分词”（意群或叫短文本）看作实体，并将一组相互关联的分词（意群）组织为矩阵形式，形成分词矩阵，分词矩阵之间又可以用关系矩阵建立连接，从而组成更大的矩阵。这样从分词到分词矩阵，再到更大规模的分词矩阵，逐渐包罗万象，并在整体上表现为智能特征，就构成了基于分词计算技术的类脑认知计算系统的核心。

（二）融合认知计算的步骤

融合认知计算的一般步骤为：加载多源数据集>把数据转换成文本集>分词与去停词>生成词汇表>生成word_index>加载预训练词向量模型>生成词向量矩阵>矩阵分解>分词矩阵式计算>深度学习+自学习模型。

具体实现方法包括以下步骤：一是把多源多模态数据转化成一种计算机能够理解和转换的知识（认知）矩阵（就像人留下记忆痕迹一样）；二是通过知识（认知）矩阵找出场景的基本规律，构建出一套适合本场景的语义计算模型，再通过强化训练，让其成为长期记忆的过程，从而形成一个有用的“知识大脑”（就像人记忆痕迹强化过程一样）；三是通过自我检测，不断“倒逼”机器把矩阵知识联系形成一个“检索链”（标记记忆痕迹）；四是使用深度学习技术，把数据背后的知识挖掘出来，从而赋能业务，实现智能化的生活服务（如图3和图4所示）。

（三）多源多模态数据融合认知计算的技术突破

多源多模态数据融合认知计算技术可为各类场景业务赋能，在实际应用中，至少实现了以下六个方面的突破：

1.突破知识图谱的局限性

知识图谱是有局限性的，而分词矩阵是无限的。以金融知识图谱为例，一般常识中，银行、股票、期货、黄金、白银、上市公司等与金融均有密切的关系，但是，这并不代表其他因素——比如自然灾害或者人类的某些活动，与金融就没有密切关系。在实际生活和生产应用中，几乎万事万物在某种意义下都与金融知识和金融业务有关系。比如某地发生了一起龙卷风事件，它不仅会影响到农作物产量，且会影响农业机械销售量和农机发动机产量，甚至会影响到发动机上市公司的股价。知识是普遍关联的，按照传统的金融知识图谱无法解决类似龙卷风事件的问题，因为它已经超出了任何专家系统预先设定的知识图谱边界。

2.实现数据智能可解释性

即使是最先进的人工智能系统，仍然难以掌握常识。现有的机器学习和机器判别方法常常只给出预测和判别结果，而不提供解释与判别依据，因而人们往往对机器的判决无法完全信服。如果将知识驱动和数据驱动结合起来，通过分词矩阵这个桥梁，建立语义的向量空间，把符号变成向量，把特征变成分词或者语义，那么通过认知计算，完全可以解决这个问题。而且这一范式可以使用所有数学工具，例如回答“刘翔为什么那么牛？”这一问题，可以通过知识库中的“刘翔是中国体育田径史上也是亚洲田径史上第一个集奥运会冠军、室内室外世锦赛冠军、国际田联大奖赛总决赛冠军、世界纪录保持者多项荣誉于一身的运动员”这几条关系来解释这一问题，这一过程的本质就是将知识库中的知识或者数据加以关联。显而易见，机器完全可以通过分词矩阵重现我们的这种理解与解释的过程。

3.与人工智能深度学习方法不排斥

机器学习、深度学习能够让感知智能不断突破，但却不擅长使用逻辑。因为深度学习是基于数学与数据的方法，属于归纳的范畴，并不具有认知推理和可解释性，特别是在发展到一定阶段后具有明显的瓶颈所以，从感知智能走向认知智能，仅仅依靠深度学习是远远不够的，还需要有更多突破，而中文分词矩阵式认知计算技术，就是一种典型的突破性技术。在处理如何基于病因认知模型来解决颈椎病中医辨证论治的问题时，中文分词矩阵式认知计算技术按如下步骤进行：首先，获取多个颈椎病患者中医症状进行预处理，并提取颈椎病患者样本症状的特征信息以及辨证施治的中药配方和方剂；其次，对上述患者样本症状的特征信息进行筛选和病因（病机）分类，构建颈椎病病因样本特征信息分类以及辨证施治的中药配方和方剂数据集；然后，利用AdaBoost算法分别对上述样本数据集进行训练，组建基于病因的颈椎病辨证论治认知系统模型；最后，通过颈椎病认知系统模型，对待识别的颈椎病患者症状进行病因和病机分析，提供辨证施治的中药配方和方剂。这类实践，不仅运用了分词矩阵及语义计算技术，同时还应用了深度学习的算法——AdaBoost算法（如图5所示）。

4.实现数据认知推理

倘若采用传统方法或深度学习如BIDAF、BERT、XLNet等算法，则需要构建一个冗长的预训练上下文，然后进行推理匹配。这样做具有很多弊端：一方面，它是一个黑盒子，缺乏可解释性；另一方面，缺乏在知识层面的推理能力，所以未必会得出最终结果。多源多模态融合认知计算，致力通过知识表示、推理和决策，包括人的认知来解决上述问题。可以使用具体场景多源数据为原始数据，通过从中提取具体场景业务特征和知识特征作为构建具体场景知识和业务库的基础数据，随后进行特征与知识的融合，使人们能够更好地从海量、复杂的多源数据中获得更多洞察，从而实现在具体场景下多源数据的智能认知和自动分析，并且为各类场景业务赋能。

5.解决多源多模态数据融合的盲目性

认知是与需求和条件相关联的，而不是漫无目的胡乱联想。多源多模态数据融合认知计算，是以具体场景下多源多模态数据为原始数据，通过集成不同类型数据的语义特征（包括知识和规则），并把它们投影到一个共享的语义子空间中，建立起目标任务认知语义网络模型，再进行有条件的认知计算。

6.实现小算力计算

分词矩阵式认知计算是一种交叉科学，类似于量子认知计算。通过对认知科学中的现象进行建模，并应用语言计算理论的计算方法来研究和描述人的认知及其决策。在传统的常规认知计算中，信息的存储和计算基于传统电脑的比特单位1和0，而分词矩阵式认知计算不使用这种逻辑，它使用的是被称为分词比特的东西来存储和计算信息，每个分词比特可以被设置为1或0。无论在日常生活里，还是在政治、经济、军事等活动中，总要面对各种认知与抉择，而在决策的背后，往往又存在着众多需要考量的因素。而利用分词矩阵式认知计算来解决问题，分词比特的设置类似于创建了多个并行世界，其中每个分词比特代表着不同的值，每个并行世界则代表着一个潜在的解决方案。由此，在应用过程中，分词矩阵式认知计算是同时在所有并行世界中进行计算，而不是按顺序遍历每一种可能的解决方案。通过这种方法，分词矩阵式认知计算可以在几毫秒内找到许多复杂计算的最佳解决方案，从而实现小算力计算。

三、融合认知计算发展的意义

（一）融合认知计算对下一代人工智能研究方法提出了新的探索，是一种方法论创新。该方法以人类认知过程为基础，利用多模态数据进行语义理解和推理，将语言、视觉、听觉等多个感知通道进行融合，从而实现智能化的人机交互，为人工智能的进一步深入研究提供了新的路径。

（二）融合认知计算从语言语义入手，通过融合通用本体分词矩阵、行业本体分词矩阵和领域知识文本分词矩阵，再加上具体业务场景的分词矩阵，构建出一个支持分词矩阵技术的知识发现、理解、交互、搜索智能类脑系统。这一技术的突破，大大促进了认知智能技术的进步，对完成人工智能从“量变”到“智变”的技术性跨越具有深刻的意义。

（三）融合认知计算已经在智能驾驶、智能诊疗、健康管理、产业链招商等多个场景中得到验证和应用。展望未来，融合认知计算将对新型产业的智能化发展、传统产业的数字化转型、跨界融合、国际竞争甚至人类社会转型发展，均有重大意义。

参考文献

[1]刘奕群,王小川,张敏,陈炜鹏,马少平,许静芳,毛佳昕,王蟒,马为.中国中文信息学会2020年“钱伟长中文信息处理科学技术奖”之——认知计算模型驱动的互联网搜索技术及其应用[J].中文信息学报,2021,35(06):141.

[2]吴丽华,龙海侠,冯建平.智能机器的认知学习机理及计算模型研究[J].电子技术与软件工程,2021(21):106-109.

[3]刘爰媛,郭顺利,房旭辉.国内外认知计算研究现状及其在图情领域应用研究[J].情报科学,2022,40(09):137-146.DOI:10.13833/j.issn.1007-7634.2022.09.019.

[4]陈浩,李嘉祥,黄健,王菖,刘权,张中杰.融合认知行为模型的深度强化学习框架及算法[J/OL].控制与决策:1-9[2022-11-17].DOI:10.13195/j.kzyjc.2022.0281.

[5]徐翔宇.基于空间表示学习的多源数据分类算法研究[D].南京航空航天大学,2021. DOI:10.27239/d.cnki.gnhhu.2021.001754.

[6]王国胤,于洪.多粒度认知计算——一种大数据智能计算的新模型[J].数据与计算发展前沿,2019,1(06):75-85.

[7]魏秀卓,赵慧南.基于Mapreduce的多源多模态大数据检索方法研究[J].计算机仿真,2021,38(04):422-426.

[8]梁如娥.认知语言学发展的交叉与融合——《劳特里奇认知语言学手册》述评[J].语言、翻译与认知,2021(02):124-134+138.

（作者单位：全国科技振兴城市经济研究会，北京师范大学-香港浸会大学联合国际学院，亚马逊公司）

相关文章

深度技术产业促进消费的战略意义与发展路径

让智能在制造行业生根——以华为深耕制造业场景为例

加快形成新质生产力构筑国家竞争新优势