迈向具身通用人工智能

0

姚期智 

最近出现的ChatGPT是人工智能发展在学术上的一个突破,同时它也在各行各业中创造了许多新的价值,未来人工智能的发展方向是我们需要思考的问题。众所周知,ChatGPT是人工智能技术驱动的自然语言处理工具,具有强大的自然语言处理能力,被视为“缸中之脑”。(“缸中之脑”是希拉里·普特南1981年在他的《理性,真理与历史》一书中提出的假想。)然而,要想让通用人工智能充分发挥出力量,未来的AGI(通用人工智能)需要有具身的实体,让它能够和真实的物理世界相交互来完成各项任务,这样才能创造出更大的价值。

具身智能体应该是什么样子的?其实人类本身就是一个理想的具身智能体。其主要具备三个方面,第一方面是身体,第二方面是小脑,第三方面是大脑。身体部分必须要有足够的硬件,具有传感器和执行器。小脑会主导视觉、触觉等各种感知,以控制身体,完成复杂的任务。大脑主导上层的逻辑推理、决策以及长期规划,通过自然语言和其他智能体交流。

第一,关于具身AGI的身体。人形机器人是具身AGI最理想的身体形式,不仅是因为人形能够适应各种环境,更重要的是人类的社会环境是专为人类定制的,比如楼梯的结构、门把手的高度、被子的形状等,这些都是根据人类特有的生理结构定制的。因此,要打造一个通用机器人,人形是最理想、最适合的形态。目前,清华大学陈建宇老师团队已经研发出两种形式的机器人,其中一个是在世界人工智能大会上亮相的“小星”,高度为1.2米,而在本届世界机器人大会上展出的“小星MAX”,其身高已达到1.6米。最新款的机器人采用了新一代本体感知驱动技术方案,使用集电机、减速器和驱动器于一体的关键模组,在算法方面则采用动态的双足行走方式。

第二,关于具身AGI的小脑。搭建在“小星”机器人实体上的是一套机器人运动控制算法,该控制系统分为两层,上一层是固态规划层,下一层是基于动力学的实时全身运动控制。运动控制主要负责计算并向电机关节发出精确指令,它需要配备一个状态固定器,这样可以确保机器人在室内无障碍地活动。在室外环境中,机器人不仅可以在水泥地上灵活地快速行走,还可以在路况比较复杂的树林里行走,甚至在草地和石子路上也表现出较好的稳定性,具有一定的抗干扰能力。

在构建小脑的算法端,为了实现更多功能,使机器人得到更好的控制,我们正积极探索灵活度更高,利用人工智能强化学习的方法。运用强化学习这个框架可以避免模型的限制,能在复杂的环境或不确定的环境下展现出更强的适应能力。同时,把人体运动的实际数据放到强化学习的框架中,可以更好地引导我们学习。通过强化学习,机器人能够用一种自然的方式来模拟人的行走,这样能够实现更低的能耗。但目前强化学习应用面临两个难题和挑战。第一个难题是有关样本的收集效率,它需要收集大量的样本。另一个是泛化性问题,即对于机器人在执行任务过程及其环境中的不确定性和干扰因素,能不能够泛化得更好。

除了控制行走以外,小脑还有两个显著的感知功能。一个是视觉,例如,四足机器人基于视觉信号能够识别路障、匍匐前进、跳高台。当机器人跳跃失败时,它会不停地来回尝试直到成功,未来有望让人形机器人实现跑酷功能。另一个比较高端的感知是触觉,由于人的皮肤吸收了很多触觉信号,所以才能够完成非常精细的物体抓取动作,同时能够回避危险。有专家团队运用一些性能良好的材料,设计出低成本、易操作的触觉传感器Touch。它不仅能够精确感知并接触到物体的三维几何,还能捕捉到物体细小的纹理,将触觉传感器和人工算法相结合,实现分割物体的最终效果。不过,要让机器人做一些判断经纬的动作仍然非常困难,因为感知物件的空间位置和接触动作非常复杂,这对双手的灵活度和自由度提出了非常高的要求。目前,我们团队的老师提出了一个新颖的算法,能够用自动的方式生成一种场景和建模仿真,使机器人在仿真里面学到这些技术。

第三,关于具身AGI的大脑。目前,谷歌在这方面做了大量的工作,特别是开发了paLM-E多模态大语言模型。它能够规划机器人的任务,把任务调用到下沉的控制器,并按照顺序来执行,这是谷歌在具身大模型方面的一个重要技术路线。不过,这个框架存在一个问题,它的下一层不一定能够很好地执行上一层的规划,尤其是在中间发生一些意外干扰的情况下。为此,陈建宇老师团队提出一个新的方案和框架,能够在执行任务的过程中自动识别并解除异常,这些都是由一个语言模型和视觉模型自动完成的。把这个方法应用到人形机器人上,需要像大语言模型一样先向机器人描述要执行的任务,机器人就会按照指令来执行。例如,机器人在执行搬箱子的任务时,它的视觉语言模型就可以通过搭载的摄像头检测是否有意外情况发生并及时纠正,如果看到箱子掉到地上,机器人能够想方设法把它捡起来,最后完成任务。

大语言模型还可以做一些其他更精细的控制操作。由专家团队提出了一个根据语言实时生成机器人具体动作的框架,具体而言,通过强化学习使机器人根据动作语言生成具体的动作。例如,向机器人发出踢左腿的指令,或者让机器狗扔一个球,它们就会想办法执行指令,但只要把人类的关节动作通过强化学习赋能在它们身上,它们就会做得更好。

当前,在具身机器人的开发方面主要面临四大挑战。第一个挑战是具身大模型的研发,具身机器人是否应该像大语言模型一样拥有自己的模型,使其一步到位,控制最低层的效率,这个问题值得深思。第二个挑战是关于计算能力的挑战,目前谷歌的Robotic Transformer做第一个到下沉的统一的模型,只能达到3赫兹的水平,这和我们需要的500赫兹的水平相距甚远,要缩短这个差距仍需克服很多困难。第三个挑战是如何把多模式的感官融合起来,让机器人更加流畅地执行发出的动作指令。第四个挑战是如何做好数据收集,这将会涉及数据安全等一系列问题。因此,要迈向具身通用人工智能,我们仍有很多工作要做。 

(作者系2000年图灵奖获得者、中国科学院院士、清华大学交叉信息研究院院长。本文根据作者在2023世界机器人大会主论坛第四单元:智创未来——人形机器人技术与产业发展论坛上所做的演讲整理。)

评论被关闭。