2024年,“人工智能+”首次写入《政府工作报告》。“人工智能+”强调以人工智能为引擎形成新质生产力,其中以大模型为代表的人工智能技术与传统行业的“数转智改”将成为新质生产力发展的重要方向。2024年7月24日,由中国通信标准化协会主办,中国信息通信研究院承办的“2024可信云大会·云原生与大模型云服务分论坛”在京成功召开。会上,阿里云技术服务的工具平台负责人程哲桥带来了《阿里云在技术服务与运维领域的大模型探索与实践》主题分享。
在企业上云用云、数智化转型过程中,存在资源体量大、规模种类复杂、企业组织架构庞大等问题,导致企业云运营运维效率低下,且带来较高的人工成本。在此背景下,产业界出现了基于人工智能大模型的云运营运维相关概念。相应地,一系列大模型云运营运维知识库、运维助手、运维问答等产品或工具初具雏形。通过AI大模型驱动自动化运维能够更好地适配复杂多变的云环境,满足企业对IT服务高效可靠的运行诉求,因此基于大模型能力的智慧运维方式将逐渐成为业界主流。
当前,云计算厂商、IT运维服务商及科技型公司通常聚焦于为用户提供智能运维管理服务,采用自动化部署、资源优化与配置更新等手段来支撑云业务的稳定发展。程哲桥作为阿里云技术服务的工具平台负责人,负责阿里云大型客户上云用云的工具建设与技术服务,拥有十余年运维架构及产品研发经验。本次他以智能化角度切入,从智能化运维服务发展历程、大模型技术常见应用选型、运维大模型技术服务方案以及大模型赋能的云上运维相关实践经验四个方面分享了阿里云在技术服务与运维领域的大模型探索与实践。
智能化运维服务发展历程方面,程哲桥分享了近十年以机器学为核心的智能运维场景,包括异常检测、故障分类、因果分析、水位预测等。其中,异常检测和故障分类作为典型应用场景,能够基于历史故障特性快速定位异常类型,但由于存在数据质量与运维场景复杂度问题,当前只能起到辅助作用。他提到,随着智能化程度越来越高,需要人工不断梳理匹配场景和管控流程,从而导致当前各类场景化方案普遍出现“人工越多,智能越多”的新难题。
大模型技术常见应用选型方面,程哲桥解释了提示词工程、RAG和微调的概念区别,并从知识更新、外部知识、模型定制等多个维度对比分析了各类方案的优化效果。他表示,在当前运维技术服务化场景下,RAG方案的可解释性和外挂知识及时性表现较好,体现在知识更新快、整个过程透明,但实战应用过程中面临搜索回答效果较差、解决问题类型单一、文档数据与质量要求高等问题。
运维大模型技术服务方案方面,程哲桥从问答机器人场景进行拆解,将云上客户的提问和响应过程拆解为模糊问答、事实咨询、诊断问题、操作请求四大场景。基于此过程,他讲解了运维领域大模型的主体技术方案,包括如何构建和运营知识工程、优化和改造搜索增强链路以及搭建大模型智能体并整合大量运维工具。他提到,知识工程作为整个大模型应用建设最关键、最基础的环节,需要持续新增和优化知识内容、不断迭代数据飞轮。
大模型赋能的云上运维相关实践经验方面,程哲桥以第三方云上用户视角,提到云上运维的实际工作内容包括软件生命周期的维护和云上架构的优化,并以此出发将大模型应用场景划分为总结和翻译、查询和分析、管理和操作三大阶段。他强调,大模型技术虽然更新了传统运维的开发、集成模式,但其无法成为解决运维问题的全部途径,我们要合理发挥大模型的自然语言处理和逻辑推理能力,让大模型成为云上运维决策的大脑,而不是手脚。