人工智能产业链热度持续升温,各细分方向频受关注。ChatGPT的横空出世引爆新一轮AI热潮,AIGC行业应用落地场景百花齐放,又因为高算力的需求,激发了共封装光学(CPO)的火热。而在人工智能工程实践的研发管理体系中,以新兴赛道MLOps 为代表的自动运维技术,近期也开始受到更多关注,并有望助力AI大模型落地生花。

MLOps行业概览

AI大规模生产中存在由于流程、管理不当造成的效率低、周期长等问题影响实际落地,MLOps是为解决上述问题、完成AI模型开发和落地的一套工具包。
MLOps从数据采集和处理-模型接入-模型开发-模型部署和应用-监控和运维,提供一整套对应AI全生命周期的工具和服务,赋能AI模型全生命周期的各个流程,其主要作用是构建可通用、可复用的模型生产流水线。
机器学习的生命周期全流程复杂且耗时,只有在部署的模型与现有业务充分整合后,各业务 线才能从模型中获得效用与价值,而实际情况是业务开发与模型部署常常脱节,包 括工具的碎片化、数据样本匮乏、集成开发环境缺失、模型可解释性差、行业知识 短板等等。
为改善这些现实障碍,MLOps 可更好的衔接模型开发运维的全流程,通过自动化、可重复的工作流与可复用的数据和模型技术资产来提升开发运行效率, 从而加速机器学习周期和提升模型的可解释性。
MLOps将推动AI资产安全有序管理,促进持续高效运营,保证模型及其生产过程更稳定、更安全可靠。
近三年来,国内各行业开始探索契合自身特点的MLOps落地解决方案。目前MLOps厂商主要分为专项工具和平台型产品两类,海外MLOps生态庞杂,细分赛道参与者众多。
国内MLOps产业链各环节参与布局的厂商包括绿盟科技、星环科技、启明信息、万达信息、科大国创、传音控股、宇信科技、光环新网、东方国信、商汤科技等。
同时,头部云计算和人工智能厂商也在不断对包括人工智能在内的数字化产品进行丰富和升级,MLOps均有望与当前的云原生开发平台进行深度集成,进一步提升企业进行人工智能开发和应用效率。
IDC此前曾预测,到2024年60%的中国企业将通过MLOps来运作其机器学习工作流程。[url=]#人工智能#[/url]
5268d2290be2477d9266574bc4e5d150~noop.image?_iz=58558&from=article.jpg



人工智能研发运营体系(MLOps)实践指南
中国信通院发布的《人工智能研发运营体系(MLOps)实践指南(2023年)》中指出,人工智能研发运营体系(MLOps)作为AI工程化重要组成部分,呈现出方法论逐渐成熟、落地应用持续推进的态势。
《指南》为组织高效构建 MLOps 框架体系和关键能力提供方法论和实践案例的参考与借鉴,并研判 MLOps 未来发展趋势。

一、MLOps 概述
MLOps 是通过构建和运行机器学习流水线(Pipeline),统一机器学习(ML)项目研发(Dev)和运营(Ops)过程的一种方法,目的是为了提高 AI 模型生产质效,推动 AI 从满足基本需求的“能用”变为满足高效率、高性能的“好用”。
本章首先阐述组织在 AI 大规模生产过程中凸显的管理问题,然后梳理 MLOps 概念和意义,并分析落地MLOps 所遵循的原则。
(一)AI 生产过程管理问题凸显
Gartner 调查发现,只有 53%的项目能够从 AI 原型转化为生产。
AI 生产转化率低的主要原因在于模型全链路生命周期管理存在问题,包括跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等。
第一,跨团队协作难度大。
机器学习项目生命周期中涉及业务、数据、算法、研发、运维等多团队,团队间缺乏相同的技术和业务背景知识作为协作基础,从而带来沟通屏障。同时每个团队的协作工具不尽相同,从数据和算法转化为推理服务的整个过程漫长而复杂,从而增大协作难度。
第二,过程和资产管理欠缺。
模型生产过程无标准化管理,导致AI 资产的价值无法有效发挥。原因在于以下几方面:
一是生产过程冗长难管理,AI 模型生产过程涉及的环境、流程复杂,各部门习惯于小作坊的生产模式,重复造轮子现象普遍;
二是 AI 资产无集中共享机制,组织内数据、特征、模型等碎片化 AI 资产无法共享使用,优
秀实践经验难以沉淀。
第三,生产和交付周期长。
机器学习模型生产和交付是一个漫长、复杂又易出错的过程,且耗费的时间成本较高。
据 Algorithmia 报告显示,38%的企业花费超过 50%的时间在模型部署上。
这一现象的主要原因有三:
一是模型文件的生产需要经过不断重复的实验和评估;
二是模型服务需要通过编写服务代码和配置参数,并达到业务需求后,方可部署上线;
三是业务效果的保证需通过在线模型开展服务验证和结果对比。
(二)MLOps 概念与意义
MLOps 通过连接模型构建团队、业务团队及运维团队,为机器学习模型全生命周期建设标准化、自动化、可持续改进的过程管理体系,使组织规模化、高质量、高效率、可持续地生产机器学习模型。
MLOps 能有效缓解 AI 生产过程的各种管理问题,提升 AI 生产的转化效率。
61c05e3c311a4d4488e4f98be341a0e1~noop.image?_iz=58558&from=article.jpg

MLOps 理念源于面向软件工程的管理方法论 DevOps,起初希望可以参考传统软件生产过程的管理方法,以应对提质增效的挑战。
然而 DevOps 并不完全适用,因为机器学习项目是以数据、算法、代码、模型为核心的动态模式,整个过程充满探索性、实验性和不确定性。
若要迎合动态模式的需求,需要一种融合了机器学习特性的 DevOps方法或体系,MLOps 应运而生。
MLOps 意义和价值主要体现在以下几方面。
第一,建立团队协作机制。通过在组织级明确各流程中各角色(例如业务人员、数据工程师、数据科学家、运维工程师等)和职责,并以流水线的方式连接各团队成员的工作,使团队协作机制得以建立,打破沟通屏障,让不同角色各司其职(例如,使数据科学家不用再沦
陷于处理繁琐的模型更新和维护等工作),降低团队间整体合作成本。
第二,实现敏捷交付过程。通过自动化流水线等方式实现敏捷交付,从而提高模型交付效率,加快模型迭代速度,提高模型效果,提供更丰富、更优质的产品体验。

第三,构建全链路反馈闭环。通过贯通需求、开发、交付、部署、运营多环节的全链路,嵌入合规、监管、道德、安全等要求,形成完整的全链路流水线。同时,持续改进和简化原有运营和治理流程,高效率、低风险地实现持续集成、部署、训练和监控,形成有效的反馈
闭环。
第四,统一管理 AI 资产。机器学习项目中数据、算法、特征和模型等资产是一个有机体,通过对 AI 资产的高效统一管理,并加以风险防控和安全管理等手段,实现有效治理。
(三)MLOps 实施原则
作为 AI 基础设施之一,MLOps 促进各团队高效协作,提升业务价值产出。
一般来说,实施 MLOps 需要遵循的原则包括自动化、持续性、版本化、可监控、可测试、可追溯、可复现、可协作等。
626e519edc81438a96fb0bd54cc9c1a0~noop.image?_iz=58558&from=article.jpg



二、MLOps 发展现状与挑战
MLOps 在国内外得到了广泛应用,并在多个行业取得了实质性效果。
本章首先阶段性梳理 MLOps 发展历程,然后从落地应用和工具市场等角度分析当前发展现状,最后总结了 MLOps 落地面临的挑战。
(一)MLOps 发展过程
1.发展历程
2015 年至今,从业界意识到机器学习项目技术债给 AI 生产上线带来的潜在巨大影响伊始,MLOps 前后经历了斟酌发酵、概念明确、落地应用三大阶段。
斟酌发酵阶段(2015 年至 2017 年前后)。
2015 年 Google 在Conference and Workshop on Neural Information Processing Systems(NIPS)上发布的论文《Hidden Technical Debt in Machine LearningSystems》首次提出机器学习项目技术债问题。
一方面,机器学习项目具有传统软件工程的代码运维问题,这部分问题占比较小;另一方面,机器学习项目本身存在数据依赖关系不稳定、配置易出错、实验不可重现等问题,为模型的持续运维和迭代带来大量隐患。
这篇论文标志着机器学习高效落地问题被明确提出和正视,也催生了产业界形成系统化的方法论和规范化的管理流程,解决技术债问题的强烈需求。
9e89112dae67418c999e57b29c6284cd~noop.image?_iz=58558&from=article.jpg

概念明确阶段(2018 年至 2019 年前后)。
2018 年业内人士逐渐开始密集讨论大规模生产中机器学习生命周期集成化管理的重要性,
MLOps 这一概念被提出并逐步接受。
2019 年《Continuous Delivery forMachine Learning》3提出的 CD4ML 理念,阐述了机器学习项目如何开展持续交付(CD),并提出端到端的交付流程。
CD4ML 将传统软件工程中的持续交付方法论扩展到机器学习中,使跨团队成员可基于数据、代码和模型,实现机器学习项目小步快跑、安全持续的增量式迭代。
落地应用阶段(2020 年至今)。
2020 年以来,产业焦点集中于 AI大规模快速落地,布局 MLOps 平台或工具的需求日益迫切,推动组织数智化转型成为产业界追逐的目标。
2021 年,Gartner 将包括 MLOps在内的 XOps 列为 2021 年十大数据和分析技术趋势之一。
此外,从2019 年到 2022 年,Gartner 连续 4 年将 MLOps 纳入数据科学与机器学习技术成熟度曲线 。2021 年,中国信息通信研究院牵头开展MLOps 系列标准编制,以引导产业有序发展,形成行业自律规范。
1d7b6ac74c3143e3803a421dda64a26a~noop.image?_iz=58558&from=article.jpg

2.发展现状
MLOps 产品提供方和应用方不同程度地受益于 MLOps 体系的蓬勃发展。
随着工具市场和行业应用的发展不断推进,新工具不断涌现,在 IT、金融、电信等行业得到了广泛应用和落地。
根据情报和市场研究平台 MarketsandMarkets 2022 年研究报告显示,MLOps 市场规模将从 2022 年的 11 亿美元增长到 2027 年的 59 亿美元。
(1)资本市场持续火爆,MLOps 工具不断创新近年来,MLOps 相关工具链已成为 AI 投融资领域的明星赛道,涌现了诸多以 MLOps 工具为主打产品的初创公司。
例如,聚焦于深度学习可视化工具的 Weights & Biases 获得 2 亿美元融资,且平台估值达 10 亿美元;聚焦于提供机器学习平台的 Tecton 获得 1.6 亿美元融资;聚焦于机器学习模型多硬件适配部署的 OctoML 获得 1.33 亿美元融资,且平台估值达 8.5 亿美元。
在资本市场的驱动下,MLOps 工具持续创新。
据不完全统计,目前全球约有 300 多款工具,大致可分为两类:
一类是 MLOps 端到端工具平台,为机器学习项目全生命周期提供支持。端到端工具平台包括国外的 Amazon SageMaker、Microsoft Azure、Google Cloud Platform、DataRobot、Algorithmia、Kubeflow、MLflow 等,国内的百度智能云企业 AI 开发平台、阿里云机器学习平台 PAI、华为终端云 MLOps 平台、腾讯太极机器学习平台、九章云极 DataCanvas APS 机器学习平台等。
另一类是 MLOps 专项工具,对特定步骤提供更为集中的支持,主要包括数据处理、模型构建、运营监控三大类。
专项工具包括国外Cloudera 提供的数据共享工具,DVC 和 DAGsHub 提供的数据和模型版本管理工具,Neptune.ai 提供的元数据管理工具等,国内的星环科技提供的运营监控工具,第四范式提供的特征实时处理工具,云测数据提供的标注工具等。
928a6399dc4840f69540eb8d32c78982~noop.image?_iz=58558&from=article.jpg

第二,国内 MLOps 处于规划和建设前期,落地探索成效初显。
IDC2022 年预测,到 2024 年 60%的中国企业将通过 MLOps 来运作其机器学习工作流8。
近 3 年来,国内各行业开始探索契合自身特点的 MLOps 落地解决方案。在数智化转型热潮中,IT、金融和电信等数字化程度较高的行业处于相对领先地位,其他行业进展稍缓。
IT 行业:凭借在数据方面拥有的先天优势,IT 行业最早开始构建 MLOps 并驱动其业务智能化水平的提升。如百度、华为、阿里、京东等,关注机器学习项目全生命周期的优化和改进,并在原有 AI中台或云服务平台上逐步扩展 MLOps 过程管理功能,实践效果明显。
百度通过应用 MLOps 使得开发周期缩短 54%,测试周期缩短 67%,所投入的人天数缩减 57%。
(二)MLOps 落地挑战
近年来,我国 MLOps 逐步在多行业中得到布局应用。将 MLOps引入模型开发阶段的实践较为成熟,而 MLOps 引入到模型交付和模型运营阶段的落地处于逐步规划建设中。在这个渐进式过程中,MLOps 落地面临着诸多挑战。
一是组织落地驱动力不足。二是支撑工具选型难、集成难。三是模型治理和可信道阻且长。四是环境间的交互难以平衡。

三、MLOps 框架体系

机器学习项目生命周期伴随着 AI 的发展早已形成,而 MLOps 的出现驱动产业界对机器学习项目生命周期进行了完整梳理。
本章由信通院和行业专家结合机器学习和 MLOps 相关理论研究和产业实践,围绕机器学习项目的全生命周期,对业界现有的 MLOps 框架体系做出总结归纳。
一)机器学习项目生命周期
机器学习项目以需求、数据、代码、算法为输入,以模型、模型服务为输出,其生命周期主要包括定义问题、数据收集、数据处理、模型训练、模型评估、模型部署等过程。
MLOps 围绕持续集成、持续部署、持续监控和持续训练,构建和维护机器学习流水线,并通过流水线的衔接形成全生命周期闭环体系。
基于 MLOps 框架的机器学习项目生命周期通常包括需求设计、开发、交付和运营四个阶段,细分为需求管理、数据工程、模型开发、模型交付、模型运营等过程。
ab37f03d55334b11ab3b6907f5a8398b~noop.image?_iz=58558&from=article.jpg

(二)MLOps 流程架构
典型的 MLOps 流程架构包含需求分析与开发、数据工程流水线、模型实验工程流水线、持续集成流水线、模型训练流水线、模型服务流水线、持续监控流水线七个部分。
9e48b7f9e1d04e98bcb14d27d1140105~noop.image?_iz=58558&from=article.jpg

(三)MLOps 相关角色
尽管机器学习模型的构建主要由数据科学家完成,但要最终为业务系统提供推理服务却需要多角色合作。
组织应围绕 MLOps 流程的持续运转,明确角色与分工,可提高多角色间的协作效率,从而提升整体生产效率和质量。下图展示了 MLOps 相关角色分工示意图,但由于 MLOps 领域的飞速发展,将来可能出现的新角色暂未列出。同时,在许多组织中,各角色可能是专职或兼任,具体如何安排应视组织结构和业务场景等情况而定。
09a6d068b51841b9a00e24bd96ce56eb~noop.image?_iz=58558&from=article.jpg

典型 MLOps 相关角色分工包含业务人员、项目经理、机器学习架构师、数据工程师、数据科学家、软件工程师、测试工程师和运维工程师等。表 1 展示了在实际的机器学习项目全生命周期中,业务人员、数据科学家等各类角色所关注的不同重点及具体的工作职责。
a6279c340c0c472496a3a912ee94984b~noop.image?_iz=58558&from=article.jpg

348283aa7aea495e84d40224a34a9837~noop.image?_iz=58558&from=article.jpg

值得关注的是,近年来行业开始出现 MLOps 工程师角色,职责主要包括 MLOps 平台部署与维护、流水线构建与管理、模型优化、度量改进等。
MLOps 工程师在 Linkedln 新兴职业排行榜中高居榜首,五年内增长了 9.8 倍10。国内绝大部分组织中的 MLOps 工程师职责由数据科学家、软件工程师或运维工程师兼任,相信随着 MLOps 的普及与发展,MLOps 工程师将成为专职岗位。

四、MLOps 关键能力与技术实践
当前,MLOps 概念逐渐明晰,应用落地持续开展。
组织在落地时,以总体流程架构为主线,以计划解决的问题为目标,对关键能力各个击破,逐步形成 MLOps 落地效应。
为顺利构建和实施 MLOps 流水线,组织需提前做好关键能力的建设予以支撑。本章围绕 MLOps 过程管理、制品管理和基础保障三个维度,以业界共识为基础,提出了 12 个关键能力,并对工程实践过程中应考虑的核心要点展开分析,同时提供优秀实践案例以供参考,梳理了部分 MLOps 工具链清单(见附表)。
c424eacf041c4bb38d670318a88294c8~noop.image?_iz=58558&from=article.jpg



五、MLOps 总结与展望
(一)总结
从数字化到智能化时代的跨越中,人工智能不断为行业深化赋能,成为了组织可持续发展的重要方向。
而 MLOps 作为人工智能生产落地的重要推动力,为行业缔造更多商业价值。
MLOps 助力组织建立标准化管理体系,保障模型生产质量。为有效缓解 AI 生产过程的跨团队协作难度大、过程和资产管理欠缺、生产交付周期长等管理问题,MLOps 应时而生。
MLOps 为机器学习模型全生命周期建设标准化、自动化、可持续改进的过程管理体系,使组织规模化、高质量、高效率、可持续地生产机器学习模型。
MLOps 技术发展逐步成熟,但组织落地挑战不一而足。
从 2015年至今,MLOps 前后经历了斟酌发酵、概念明确、落地应用等三大阶段。
当前 MLOps 体系迅猛发展,带动着 MLOps 产品提供方和应用方的效能升级。
一方面,资本市场持续火爆,MLOps 工具创新涌现;另一方面,MLOps 行业应用稳步推进,落地实践成果颇丰。
组织将MLOps 引入到机器学习项目全生命周期是一个渐进式过程,在发展过程中仍面临着诸多挑战,例如,组织落地驱动力不足,支撑工具选型难、集成难,模型治理和可信道阻且长,环境间的交互难以平衡等。
MLOps 框架体系趋向流程化,落地范式显露雏形。为填补国内MLOps 实践指南的空白和弥补行业可用标杆案例的不足,中国信通院联合产业专家对现有的业界 MLOps 框架体系做出梳理和归纳,覆盖到包含典型 MLOps 流程架构和典型 MLOps 相关角色。
典型的MLOps 流程架构包含 7 大部分,需求分析与开发、数据工程流水线、模型实验工程流水线、持续集成流水线、模型训练流水线、模型服务流水线、持续监控流水线等;典型 MLOps 相关角色包含业务人员、项目经理、机器学习架构师、数据工程师、数据科学家、软件工程师、测试工程师和运维工程师等。

(二)展望

MLOps 的高成熟度应用并不是一蹴而就的,实际生产的 MLOps体系还处于较低的成熟度。我们需要重视这一阶段爆发的待解决问题,如离线在线特征相互隔离、AI 资产缺少沉淀、自动化水平受制约等。
因此,资产管理、过程管理、运营模式、特征平台、工具平台、大模型及可信 AI 等各项能力的持续发展跃迁,正成为 MLOps 发展的新趋势。
MLOps 将在机器学习项目大规模高效率生产的基础上,不断迎接 AI 工程实践所带来的新挑战,推动 AI 资产安全有序管理,促进持续高效运营,保证模型及其生产过程更稳定、更可靠、更安全、更透明,充分发挥人工智能的经济价值和社会效益。
第一,构建健全的 AI 资产治理体系。
对数据、代码、特征、模型、元数据等 AI 资产进行有效管理和沉淀,将为组织带来更多长远价值。随着 AI 模型越来越多,已有诸多组织开始或已经构建了良好的模型管理体系,对模型开展了集中统一的管理和共享,但对模型安全和风险,以及算法和元数据等 AI 资产的管理略显薄弱或缺失。
因此,构建组织级健全的 AI 资产治理体系,将是 MLOps 持续改进方向之一,也是提高 MLOps 能力成熟度水平的重要体现。
比如,事前制定 AI 资产全局和局部的安全管理体系,事中做好 AI 资产生产过程保障,并对 AI 资产开展可追溯管理和运行监控,事后强化审计机制。
第二,MLOps 自动化水平进一步提高。
由于 MLOps 需多平台打通,与各资产仓库有效衔接,与各信息系统高效调度,当前诸多MLOps 实践过程中的自动化水平还不够高。
接下来,数据工程、模型实验、持续集成、持续部署、持续训练、持续监控等流水线的自动化水平,及流水线间的衔接效率,将得到进一步提升,从而实现高效率、可持续的机器学习项目全生命周期管理能力。
Analytics Insight 预测,AutoML 向 AutoMLOps 转变,将是 2023年 MLOps 十大发展趋势之一。未来,我们不仅需要模型构建过程的自动化,更需要全链路的自动化能力。
第三,构建可观测的高效模型运营体系。
现阶段的 MLOps 模型运营主要是实现上线模型的监控,自动化发现问题并通知告警。未来
将从三个方面持续优化运营模式。
一是提高运营自动化水平,包括智能化分析能力、自动化处置能力等;二是提升运营的全面性,覆盖MLOps 全生命周期的运营体系,可有效地持续改进 MLOps 运行过程;三是增加可观测能力,提高决策速度、决策质量及决策智能化水平。构建更加高效、更加全面、更加智能化、可观测性更强的模型运营体系,将是全面落地 MLOps 的重要部分。
第四,特征平台为高质量模型保驾护航。
随着 FeatureOps 概念的深入和落地,特征平台将围绕离在线特征存储的互通和一致性、特征的高吞吐及低时延的调用、特征的自治化能力,持续挖掘和发挥特征的价值。特征平台作为特征管理的重要部分,将为模型训练、模型更新、在线推理提供更多支撑。
第五,MLOps 平台化能力持续提升。
当前 MLOps 处于发展初期,工具繁杂,许多组织以解决问题为导向而选择工具,但又面临工具选型和集成难的问题。而随着模型越来越多、业务需求越来越复杂,MLOps 平台化需求将成为趋势,帮助组织更体系化、更便捷、更灵活、更快速地使用 MLOps 助力产业升级。
Gartner 预测,到 2026 年将有 80%的软件工程组织建立平台团队。未来,组织将综合考虑 AI 项目的数量及需求、组织结构、战略规划、已有技术资产、成本,及当前 MLOps 成熟度水平等要素,选择端到端平台工具,或工具链+解决方案的方式,以平台化模式开展更大规模的落地。
第六,提升 MLOps 能力应对大模型带来的挑战。
随着大模型等新技术的落地应用,MLOps 应持续优化其技术架构,从低代码或无代码化、算力资源的访问和优化等方面持续提升性能,以应对大规模数据和预训练模型带来的挑战。例如,在搜索、广告、推荐等互联网核心业务场景,正从简单的小模型过渡到数万亿参数的大模型,而适于普通模型生产的 MLOps 可能无法满足今后需求。
因此 MLOps 将基于流水线,在海量样本构建、模型增量与全量的训练和部署、模型推理、模型回滚、模型回溯等方面提升能力;在大型语言模型方面,LLMOps 将成为 MLOps 发展的重要分支12,为基础模型的下游微调和部署发布等过程高效赋能。
第七,可信 AI 助力组织可持续发展。
落地 MLOps 的短期目标通常是提升模型迭代能力及效率,且在诸多组织中得以实现。而长期目标将在效率提升基础上,更多地关注模型安全与风险。通过保证模型的技术属性(准确、可信、鲁棒等)和社会属性(可解释、透明、隐私、安全、无偏见等),筑牢 AI 风险管理防线和安全防线,构建 AI可信体系,为组织生产更加更负责任的 AI 项目,助力组织可持续发展,将是未来持续探索之方向。