计算驱动科技创新发展

0

王 坚

在今天的计算语境中,在人工智能发展史上有三件值得大家铭记的事情。第一件事是深蓝与国际象棋,第二件事是AlphaGo与围棋,第三件事是ChatGPT与Chat。 

20世纪90年代,世界上只有一台机器和一家公司可以生产深蓝这样的产品。AlphaGo刚上线时,大家以为只有Google一家公司有能力做出来,但事实上AlphaGo是Google收购的DeepMind公司开发的。Google把AlphaGo的程序运行在自己的芯片TPU(张量处理单元芯片)上。那时候云计算已经发展起来了,所有人都可以获得开发AlphaGo这样产品的计算资源。但在ChatGPT出现时,出现了更有意思的事情,因为有了云计算,一家更小的公司把ChatGPT开发出来了,其背后的真正原因是计算改变了创新环境。 

许多具有重大意义的成就都不是凭空而来的。当年的GeForce7800其实是一块非常普通的显卡,它甚至算不上是我们今天所说的GPU,几乎所有的中国网吧都曾使用过这块显卡,后来有个人在这个显卡的基础上写了第一个CNN算法,这是人类第一次把一个神经网络算法部署在一个我们今天称之为GPU的显卡上,这是人工智能领域发生的一个大事件。2007年,英伟达(NVIDIA)首次推出CUDA平台,它是一款GPU操作系统。直到2009年,才有人第一次通过发表文章向世界证明在GPU上运行神经网络算法可以比在传统意义的CPU上快70倍。运行神经网络算法的速度是衡量芯片计算能力、算力的关键指标。2012年是人工智能发展的一个重要转折点。多伦多大学两个学生第一次只用两块GTX580显卡成功运行了AlexNet程序。虽然那时这种显卡并不是一种稀缺资源,但他们却凭借这两块普通的显卡开启了使用GPU进行深度学习的先例,同时也使GPU进入工业界。 

GPU的出现不是凭空的。2004年,NVIDIA开始为GPU命名,其GPU架构是以科学家的名字来命名,当时的架构叫居里(Curie),2012年是开普勒(Kepler)。此后,NVIDIA每年都会发布一个新的架构,但并不是每年都发布一个新的产品。NVIDIA在2020年发布安培(Ampere)架构时,诞生了至今依然炙手可热的显卡——A100。2022年,NVIDIA又发布了赫伯(Hopper)架构,与此同时也诞生了H100。没有2004年的Curie,就不会有2021年的Ampere,因此所有的创新一定是通过积累的,一定是站在以前基础之上的。 

前文提到的多伦多大学生就包括伊尔亚·苏茨克维(Ilya Sutskever),后来成为了OpenAI公司的联合创始人兼首席科学家。很难想象一个没有在显卡上做过基础创新工作的人,竟然可以在另一个领域做出令人意想不到的成绩。从这个角度看,人的主观能动性是非常关键的,而由人开展的基础性工作也非常重要。尤其是在今天的时代背景下,真正的算力不是简单地找到10000张架构清楚的A100卡,而是能否真正有能力把创造力和思想第一次在人类史上“写到硅里面”。这才是我们在接下来五到十年里真正要超越的东西。 

在人工智能领域还有很多大家不熟知的事情。众所周知,AlphaGo实际上是谷歌有意基于它的TPU进行开发的。但当ChatGPT火热起来的时候,谷歌TPU的两家下游公司Claude和Midjourney恰恰以ChatGPT同样的方式,研发生成式人工智能,它们用的不是GPU而是TPU。所以创新行为不应该简单地被主流环境所影响。在ChatGPT发布以后,微软也在开发一款叫雅典娜(Athena)的芯片。可见,在创新链的每一个环节上都有很多非常有意思的事情,创新是一个完整的系统,甚至不是靠一个层次结构就可以描述得清楚的。 

此前NVIDIA发布消息称,今后所有生成式人工智能的算力都会用云的方式提供,其认为云计算是让GPU最终成功的最重要的技术之一。这表明这个时代又发生了一次巨大的变化。 

AlphaGo最厉害的地方不是算力,而是开发者找到了一个应用场景——下围棋。他们知道对于下围棋这样一个应用场景,以当时的算力和模型是可以解决的,并不代表下围棋是最有意思的问题。就像ChatGPT最有意思的方面不是“GPT”,而是“Chat”。众所周知,GPT不是OpenAI开发的,按照今天的标准,它是Google的原创。事实上,在使用ChatGPT进行交谈时,不见得一定要追求准确的回答。但他们清楚只有在Chat这个应用场景下,算力和模型的配合才可以得到最好的结果。例如,梅西在赛场上如何把球射进球门是需要感觉的,而不是简单地完全依靠逻辑就可以。 

因此,围棋和Chat对于AlphaGo和ChatGPT同等重要。城市大脑是下一个十年的“登月计划”,可能城市大脑比“Chat”这样一个应用场景还要重要,可能会把人工智能发展推进到下一个阶段。还有一个重要的问题是资源问题。过去的技术需要通过大量的资源消耗来提高工作效率,我们的城市发展也是如此。今天和未来,我们要以一个资源利用效率高、资源消耗低的方式来推动城市的发展。因此,我认为城市大脑是未来十年人工智能的“登月计划”,如何开发城市大脑将是一个非常重要的议题。 

(作者系中国工程院院士、阿里云创始人。本文根据作者在2023年第七届世界智能大会发表的演讲整理,发表时略有删减。)

评论被关闭。