大语言模型的安全风险与应对措施

0

黄民烈

从目前的大语言模型发展来看,国外成熟的大语言模型产品共有OpenAI、FaceBook、LLaMa、DeepMind四个分支,其发展多是由商业性机构驱动的。同时,国内大语言模型领域也已经呈现蓬勃发展态势,包括华为、百度、商汤科技、科大讯飞、知乎、阿里巴巴在内的企业和清华大学、复旦大学、中国人民大学在内的高校,在大语言模型的典型模型研发上取得了一定的开创性成果。

一、大语言模型的安全性

大语言模型是人机交互的基座模型。目前,各类人工智能AI大模型的组合应用已基本能实现实时语音语言的自然交互和超语言的多模态交互,但其在文本图像生成领域的效果仍然有待提升。大语言模型已经趋于智能化,甚至在部分研究领域中已经出现高于人类平均智力水平的强人工智能。但全球许多专家对其安全性已产生忧虑,如何合理运用与妥善治理大语言模型是当下亟须解决的关键问题。AI的安全性分为认知安全、社会安全、政治安全等类型,其安全性风险主要表现为不公平性、滥用、误导、有害建议、隐私泄露、伦理和社会道德风险等形式,可以通过模型回答量表问题、外部评估模型检测、“学习—评价”互馈机制等手段对AI安全性及其与人类正确三观的对齐情况进行检测和监督。

目前,人工智能安全已成为科技领域的重要议题。从宏观的角度看,人工智能安全主要可以分为三大类:一是认知安全问题,主要聚焦于AI是否会与西方国家及其他特定团体的价值观进行对齐;二是社会安全问题,着重探索AI对人类社会行为与社会公共安全的潜在影响;三是政治安全问题,主要涉及AI可能产生或传播的涉政“假新闻”。

当前,关于大语言模型研究的快速发展是否应该放缓,社会上存在不同的看法。随着技术的进步,我们正迅速步入AGI强人工智能时代,这意味着AI可能会超越人类的智慧。从而可能会引发一系列问题:超级智能如何确保其安全性;AI如何与正确价值观保持对齐,而不是挑战或超越人类的社会行为规范;如何确保AI系统在运行中的安全性。

二、大语言模型的安全风险问题

伴随着AI的迅猛发展,生成式AI表现出不确定性、动态性和多样性的特点。与早期的简单匹配型智能程序相比,生成式AI更接近真正的“智能”。但这也给人类社会带来了众多挑战,例如AI的误导、有害建议、伦理和社会道德问题、隐私泄露以及潜在的滥用等几类典型问题。因此,构建更为可信的AI系统成为研究的关键。 

当然,人工智能的安全问题并不仅仅局限于这些。例如,AI在某些角色扮演中可能会出错,它们在面对指令攻击时表现出脆弱的一面,简单的关键词过滤并不能有效地防御网络入侵。评估大型AI模型的安全性也是一大难题,特别是在学习与评估协同互馈的机制下,大型模型是否能通过“作弊”行为规避监管?此外,如何使用开源数据、人工收集的数据或是通过其他大模型衍生生成的模型进行迭代也是一个需要相关领域从业者考虑的问题。

三、大语言模型安全风险的应对措施

面对这些挑战,有人提出一些可行性的解决方案,如使用专门的评估模型来评价其他大模型,这种形式类似于以特定AI来担任AI领域的“裁判”。同时,专门的评估模型还能确保模型具备高阶的安全性,即使面对指令攻击也能有所防备而不出现错误。但在评估人工智能的过程中,应如何充分发挥人的作用?是否应该允许模型进行自我学习和自我评估?如果允许,那么需要人在何时进行干预和监管?诸如此类的问题还需要相关从业者进一步探究。

与大语言模型安全问题相关的另一个重要议题是监管的时机。过早的监管介入可能会阻碍AI的发展,我们在保证安全的前提下需要避免其发展受阻。从目前的趋势看,我国对AI研发的监管是相对宽松的,这方面的实践主要呈现为“边发展边治理”的模式。为了实现这一目标,我们需要构建标准模型,开发特定的数据集,并确立基本的安全标准。此外,社会科学与AI的深度融合也是AI发展进程中不可或缺的关键环节,尤其是涉及监管相关的科目。

不可否认,AI在许多专业领域都表现得十分出色,这可能会对传统的研究范式和学科体系产生冲击。但在某些特定的专业研究领域,AI的能力仍然有很大提升空间,同时也伴随着一些特殊的安全问题的产生。

总的来说,人工智能的安全和监管是一个复杂而又重要的议题,需要科技界、政府和社会的合作与共同努力来解决。 

(作者系清华大学长聘教授、清华计算机系基础模型中心副主任。本文根据作者在“天津论坛2023分论坛·人工智能和科技创新范式变革”上所作的演讲整理。)

评论被关闭。