大语言模型的科学挑战

0

邱锡鹏

在人工智能领域,大模型已经成为当今技术发展的一个重要趋势。大模型通常是指,参数数量超过千万甚至亿级别的深度学习模型,这些模型通过对海量数据的训练,能够具备强大的预测和生成能力,被广泛应用于如自然语言处理、图像识别、语音合成等方面。

其中,语言模型是大模型的一个重要分支,它通过对人类语言数据的训练,能够理解和生成自然语言文本。大模型的核心能力在于其能够通过预测下一个词的概率来生成文本。尽管大语言模型取得了显著的进步,但就技术角度而言,科研人员在开发与完善该模型时仍然面临许多挑战,而对于这些现存问题的深入探讨有助于总结其未来的发展与研究方向。

一、大语言模型的不足

目前,大语言模型还存在以下几点不足。第一是无法实时获取最新信息。大语言模型需要训练大量的文本数据,而这些数据往往都是过去的语料库,无法实时获取最新的信息。第二是无法进行多步推理和反向推理。目前的语言模型仍然无法进行多步推理,这意味着它们无法根据一系列前提或条件推理出结论,这也恰好是人类思维的一项重要能力。第三是无法进行长运算。由于大语言模型是基于概率进行预测的,因此,它们给出的答案并不一定百分百准确,较长的运算容易出错。第四是无法处理复杂计算和逻辑推理。大语言模型主要是针对自然语言处理任务进行训练的,它们并没有接受过数学运算、逻辑推理等任务的训练。因此,对于一些复杂的计算和逻辑推理任务,大语言模型往往无法胜任。第五是无法承载较长的输入。如果将近千页的文档利用大语言模型进行分析,这是没有办法得出结果的。

二、国内大语言模型的发展原则

从目前来看,我们还不太能解决上述这些问题,但是不妨碍以后通过工程技术的发展来解决。例如,可以通过接入搜索引擎来解决无法实时获取最新信息的问题,让它学会使用各种各样的插件,学会使用搜索引擎。

此外,还有一个非常重要的问题,即如何让大模型对齐人类的价值观,这就需要人类对其进行点赞,对其回答质量打分,识别哪些是更安全、更无害的社会行为规范。通过训练某个模型,让模型不停地迭代,然后给出更好的答案。在训练模型的过程中,需要遵循三个基本原则:有用性、诚实性和无害性,通过对齐人类的价值观使得这个模型更加安全。 

三、大语言模型面临的科学挑战

过去,研究领域的多样化是语言模型的一个研究特点,其研究方法可以细分为对话、翻译、问答等方式。大模型出现后,语言模型的研究领域就变得相对狭窄,因为一个大模型就能将所有功能整合到一起。在内部分工做预训练、指令微调或对齐(人类标准)工作方面,大模型的研究均出现同质性的问题。此外,特征工程上的困难、安全性和可靠性问题、模型训练成本问题和对模型的评价问题都是大语言模型面临的挑战。这些挑战穿插在大模型开发的各个阶段,包括预训练、对齐、部署、发展、评价以及应用方面。因此,从大模型开发阶段看,我们总结出以下十个挑战:

一是模型架构。现在大模型的基础架构非常复杂,这限制了模型规模的进一步扩大。二是思维链。大模型的多步推理仍然较弱,无法将一个复杂问题拆分成几个简单问题,目前的人工智能无法生成思维链。三是数据的训练。现在的大语言模型是多阶段训练和测试的,无法根据其在训练集上的表现推测出它在测试集上的表现。四是幻觉问题。生成式模型会生成一些现实世界不存在的,或者和事实相违背的结果。五是多模态扩展。现在的语言模型还不能接受语言以外的其他模态信息,如音频、视频、图像等。六是持续学习。当人类产生的知识和数据来源不足以支撑模型训练时,该如何继续提高模型呢?七是实时学习。人工智能在和人交互的时候,其是否能通过与人类的交互反馈去学习。八是智能代理。如何将“对话式”的大模型转变成类智能体,增加其使用工具的能力和规划能力。九是自动化评价。现在还没有找到一个客观指标评价人工智能的能力,反映人类对此的真实感受。十是大模型的平民化。大模型的算力成本非常高,如何让大众在消费级显卡上使用大模型也变得非常重要。

大模型的研发过程涉及诸多科学问题,这些科学问题目前也依然充满诸多挑战,它们影响着AI或通用人工智能的最终实现,阐明这些挑战并将其逐个攻克是未来人工智能的发展方向。

(作者系复旦大学计算机学院教授、中国中文信息学会理事。本文根据作者在“天津论坛2023分论坛·人工智能和科技创新范式变革”上所作的演讲整理。)

评论被关闭。