每经记者 可杨 每经编辑 张海妮
结束圆桌对谈后,人墙迅速围拢,以月之暗面CEO杨植麟为核心,把会场前排的空白处填补得严严实实,人们举着手机,寄望于伸出的胳膊能碰巧扫到杨植麟的微信。杨植麟至少被现场参会人员簇拥围堵了三次,才在工作人员的协助下成功离开会场。
2024年6月14日至15日,备受瞩目的AI领域盛会“2024北京智源大会”在中关村(000931)展示中心盛大召开。《每日经济新闻》记者现场注意到,这场被誉为“AI界春晚”的大会,在近年来大模型浪潮的推动下,呈现出愈发浓厚的氛围,国产大模型明星公司也成为参会者关注的焦点。
不同于上届以国外技术人员、从业者为主,围绕技术探索展开的大会,今年百度、月之暗面、智谱AI、零一万物、面壁智能等国产大模型公司成为论坛主角。与此同时,随着大模型从技术竞速逐步迈向落地应用,一些新的变化正在发生。
新主角:国产大模型站在舞台中央
在今年的“AI界春晚”上,国产大模型企业成为主角。
“进入到2023年,大模型从研究机构的科研成果开始向产业界逐步发展,我们也看到,百花齐放,有越来越多的大模型在过去的这一年发布。”智源研究院院长王仲远在发言中提到。
王仲远认为,以2023年为界,人工智能基本上可以分为两个大的阶段:2023年之前都属于弱人工智能时代,即人工智能的模型是针对特定的场景、特定的任务,需要去收集特定的数据,训练特定的模型。比如说,战胜人类世界围棋冠军的AlphaGO在围棋上表现得非常好,但是却无法用来直接解决医疗问题,虽然方法可以借鉴,但是针对不同的场景任务需要重新进行数据和模型的收集和训练。进入2023年,随着大模型的发展,人工智能逐步进入通用人工智能时代,而通用人工智能最大的特点就是它的规模非常大,模型具备涌现性,能够跨领域通用。
2023年和2024年的北京智源大会,如同两个对比鲜明的画面,尤其是在大模型技术的发展和应用上,两届大会的嘉宾构成和议题变化,成为大模型时代飞速发展的注脚。
2024年的智源大会,嘉宾阵容发生了显著的变化。更引人瞩目的是国内大模型公司,如百度、月之暗面、零一万物、智谱AI、面壁智能等大模型明星公司的CEO(首席执行官)与CTO(首席技术官),以及来自国内顶尖院校和研究机构的代表。此次会议更加聚焦于人工智能关键技术路径和应用场景,从理论探讨向实际应用迈进了一大步。
在2023年的大会上,ChatGPT刚刚推出半年,国内大模型启动跟进,“百模大战”刚刚迎来开端。彼时,大会的主角是来自全球的顶尖学者和科技巨擘,国内则更多以学界为主。在彼时的主论坛环节,两组对谈嘉宾分别是:Meta首席AI科学家、纽约大学教授杨立昆与清华大学计算机系教授朱军;未来生命研究所创始人Max Tegmark与清华大学智能产业研究院(AIR)院长张亚勤,对谈内容围绕AI技术层面的探索展开。
如今,变化已经非常明显。“百模大战”愈演愈烈,折射出国内大模型市场的快速崛起和自主创新能力的显著提升。
随着大模型由科研走向产业,人们对AGI(人工通用智能)有了更多想象。王仲远也提到,当多模态大模型能够理解和感知、决策这个世界的时候,它就有可能进入到物理世界。如果进入到宏观世界跟硬件结合,这就是具身大模型的发展方向。如果它进入到了微观世界,去理解和生成生命分子,那么这就是AI For Science。无论是具身模型还是AI For Science,抑或是多模型模态,都会促进整个世界模型的发展,最终推动人工智能技术向AGI方向发展。
一个共识:落地!落地!落地!
尽管面临挑战,但技术的普及与落地已经显著加速,预示着人工智能正迈向一个全新的发展阶段。一个重要的共识是,在将AGI的理想带入现实世界的路上,落地应用是重要的必答题。
“零一万物坚决做to C(面向个人),不做‘赔钱的to B(面向企业)’,找到能赚钱的to B,我们就做,不赚钱就不做。”李开复表示。
对于大模型的落地应用,李开复认为,在中国to C短期更有机会,国外两者都有机会。在to C端,大模型就如同互联网时代或PC时代的新技术、新平台,将会带来新应用,这是巨大的机会。他判断,AI时代,第一个阶段突围的应该是生产力工具;第二个阶段可能会是娱乐、音乐、游戏;第三个阶段可能会是搜索;再下一个阶段可能会是电商;然后可能会有社交、短视频、O2O(线上到线下),这是不变的定律。
张亚勤则认为,再分层来看,目前真正赚钱的是to B,是在硬件、在芯片、在基础设施层,这个是目前已经发生的,但是从应用来讲,是先to C再to B。对于当前的AI分层,张亚勤将其划分为信息智能、物理智能(也称为具身智能)以及生物智能。在具身智能阶段,面向企业的应用可能会发展得更为迅速。而到生物智能阶段,情况可能恰好相反,面向个人的应用会超过面向企业的应用。各个领域的情况可能不尽相同,但总体来看,面向企业和面向个人的应用,包括开源模型、商业闭源模型、基础大模型、垂直行业大模型以及边缘模型,都会存在。
而对于B端的落地应用,李开复认为,to B是大模型带来的更大的价值,而且应该更快实现,但是可惜的是在to B这个领域面临几个巨大的挑战。
一方面部分大公司、传统公司看不懂大模型技术,不敢进行颠覆式应用。与此同时,对企业来说这一年(大模型)带来的最大的价值是降本,而不是创造价值。而降本说实在的就是取代人类的工作,大公司会有很多高管或者中层管理人员不愿意做这个事情,因为做了这个,可能团队就要被砍掉了,他在公司的资本就没有了,他的权力就变小了,甚至他自己的工作都没有了。所以大公司有时CEO是很想做,但是下面会有阻力,这些理由造成to B理论上应该马上可以落地的,但实际上没有那么快。
另一个在中国比较严重的问题是,很多大公司没有认识到软件的价值,不愿意为软件付费,而且有这么多大模型公司来竞标,结果价格越竞越低,做到最后是做一单赔一单,都没有利润。“我们在AI1.0时代看到这个现象,现在很不幸在AI2.0时代(它)又重现了。”李开复感叹道。
百度CTO王海峰的观点是,在人类历史上,每次工业革命的核心技术,不论是机械、电气还是信息技术,均具备一些共同特性:首先,核心技术具有强烈的通用性,能够广泛应用于各个领域。其次,当这些技术具备了标准化、模块化和自动化的工业大生产特征时,这些技术就会进入到工业大生产阶段,从而更快地改变人们的生产生活方式,并为人们带来巨大的价值。当前,人工智能基于深度学习和大模型工程平台已经具备了极强的通用性,以及良好的标准化、自动化和模块化特性。因此,王海峰认为,深度学习和大模型工程平台的结合,正在推动人工智能步入工业大生产阶段,从而加速通用人工智能的来临。
一个分歧:是否仍坚信Scaling Law
围绕“Scaling Law”(规模定律)的讨论开始出现分歧,对于Scaling Law会否失效、何时失效,明星大模型公司的掌舵者们,也给出了不同的判断。
杨植麟依旧是坚定的Scaling Law信仰派。“Scaling Law没有本质的问题,而且接下来3~4个数量级,我觉得是非常确定的事情。这里面更重要的问题是你怎么能够很高效地去scale(扩展)?”
杨植麟指出,如今仅仅像现在这样,依赖一些web text(网页文本)进行scale,未必是正确的方向。因为在这个过程中可能会面临诸多挑战,如推理能力等问题,未必能够得到有效解决。因此关键在于如何界定Scaling Law以及其实质是什么。如果仅按照现有方法,进行next token prediction(下一标记预测),然后在此基础上扩展多个数量级,用当前的数据分布,其上限是显而易见的。
然而,Scaling Law本身并不受此限制,其核心是,只要具备更多的算力和数据模型,扩大参数规模,就能持续产生更多的智能。但在此过程中,它并没有定义模型的具体形态,例如模型的模态数量、数据的特性和来源等。因此,杨植麟认为Scaling law是一种会持续演进的第一性原理(first principle)。只是在这一过程中,scale的方法可能发生很大变化。
百川智能CEO王小川则认为,Scaling Law到目前没有看到边界,依旧在持续地发挥作用,“我们看到美国埃隆・马斯克号称要买30万片B100、B200来做”。
在他看来,我们需要在Scaling Law之外,去寻找范式上新的转化,而在Scaling Law上,很明确,就是在美国后面跟进。从战略上看,在Scaling Law之外都还存在范式的变化,走出这样的体系,才有机会走向AGI,才有机会跟最前沿的技术较量。
智谱AI公司CEO张鹏与面壁智能CEO李大海,则持相对谨慎乐观的态度。张鹏认为,包括Scaling Law在内,目前为止人类认识到的所有的规律都有可能被推翻,只是看它的有效期是多长。但目前为止还没有看到Scaling Law会失效的预兆,未来的相当一段时间之内它仍然会有效。“随着大家对规律的认知越来越深,规律的本质越来越(被)揭示,掌握本质就能掌握通往未来的钥匙。基于现在大家对本质认识的深浅,至少在我们看来,(Scaling Law)仍然还会起效,会是未来我们主力想要推进的方向”。张鹏说。
李大海同样表示,Scaling Law是一个经验公式,是行业对大模型这样一个复杂系统观察以后的经验总结,随着训练过程中实验越来越多、认知越来越清晰,会有更细颗粒度的认知。比如模型训练中的训练方法本身对于Scaling Law、对于智能的影响是比较显著的。在将模型参数控制在一定规模后,这种显著影响变得尤为重要,在确保终端芯片能够支持该规模模型的同时,实现优质智能,数据质量和训练方法等因素亦至关重要。
毫无疑问的是,Scaling Law在当前阶段仍然是驱动大模型发展的重要理论基础,但其在未来的应用和扩展方式可能会面临更多挑战和变化。随着技术的进步和对规律本质认识的深化,行业也可能需要进一步优化模型训练方法,才能应对智能推理等更高级别的挑战。