tag 标签: 云计算

相关帖子
相关博文
  • 2024-9-16 11:43
    17 次阅读|
    0 个评论
    1.背景介绍 1.1.业务背景 服务网格(Service Mesh)是微服务架构中的一种重要技术,它主要处理服务之间的通信,为服务间的信息交换提供更安全、更快速且更可靠的基础设施层。服务网格将服务治理从业务逻辑中剥离出来,拆解为独立的进程,实现异构系统的统一治理和增强网络安全。 一个典型的服务网格部署示意图如下: 其中绿色方块为应用服务,蓝色方块为代理。应用服务之间通过代理进行通信,整个服务通信形成图中的蓝色网络连线,图中所有蓝色部分就形成了服务网格。 服务网格的主要特点包括: 无侵入性:服务网格的设计理念是将通信和管理逻辑与业务逻辑解耦,使得业务逻辑无需关注通信细节,从而实现了对业务代码的无侵入性。 统一治理:通过服务网格,可以实现对微服务架构中所有服务的统一治理,包括服务发现、负载均衡、安全认证、监控和跟踪等功能。 可扩展性:服务网格支持多种微服务框架和服务治理能力,能够轻松扩展以支持更多的服务和场景。 服务网格的架构通常包括控制平面和数据平面,其中控制平面用于配置、管理和监控数据平面中的Sidecar代理,提供服务发现、负载均衡、安全认证等功能。 数据平面主要由边车Sidecar组成,它以轻量级的网络代理形式存在,与每个微服务实例部署在同一个主机或容器中,作为服务的附属组件运行。边车的主要职责是拦截和处理服务之间的通信流量,并与控制平面进行交互,实现服务发现、负载均衡、安全认证、监控和跟踪等功能。 边车的工作流程通常包括以下几个步骤: 拦截通信流量:边车代理拦截服务之间的所有入站和出站请求和响应。 服务发现:边车代理向服务注册中心注册服务实例,并根据需要动态地发现和管理服务实例。 负载均衡:边车代理根据配置的负载均衡算法,将请求分发到多个服务实例中,以提高服务的可用性和性能。 安全认证:边车代理可以实施安全认证策略,确保服务之间的通信是安全的。 监控和跟踪:边车代理收集和传输服务间的通信流量数据,以实现监控、日志记录、错误追踪和性能调优等功能。 综上所述,服务网格是微服务架构中的重要组成部分,它们共同为服务间的通信提供了安全、快速且可靠的基础设施层,并实现了对业务代码的无侵入性服务治理。 1.2.问题与挑战 在微服务架构中引入服务网格确实可以带来诸多好处,如简化服务治理、提高安全性和可观察性等,但同时也伴随着一系列问题和挑战。以下是几个主要方面: 边车带来的资源开销: 每个微服务应用都都需要运行一个边车代理,实际部署是每个POD部署一个边车容器。边车容器需要额外的计算资源来处理服务间的通信,默认情况下每个边车容器占用0.2个CPU核。假设一台服务器运行了60个POD,那么边车容器将额外占用12个CPU核。 业务转发时延增加: 应用程序的每个数据包都必须通过边车容器,数据包在应用程序和内核之间往返多次,如下对比是单个pod进或出增加的时延。 如图所示,右侧的是引入服务网格的方案,Pod内多了边车容器,相比左侧未引入服务网格的方案,数据包增加了内核往返次数,增加了时延。 通过上述分析可以看出,在微服务架构中引入服务网格确实带来了资源开销和转发时延的问题。 2.方案介绍 2.1.整体方案架构 服务网格DPU卸载解决方案将服务网格的sidecar边车容器集中卸载到DPU卡上执行,可以显著降低服务器CPU的算力消耗。同时,DPU卡高性能转发引擎实现了网络转发功能的加速,从而能够有效降低业务时延。该方案支持和原生Istio的无缝对接,对用户业务无侵入,可以实现业务的平滑迁移。 如图所示,红色系为本方案涉及本方案涉及部分,包括DPU卡及其提供给到主机侧的SRIOV vf口、主机侧CNI(istio-dpu-cni)。 业务容器的流量治理功能由DPU卡上的共享服务代理dpu-proxy提供,它由原生的边车容器从POD中抽离出来卸载到DPU卡上。它的配置由istio-dpu-cni通过对接istio获取并转换为集中式配置并下发下来。流量通过DPU提供的vf口到达DPU侧的dpu-proxy进行流量治理。 此架构的控制面仍为原生的istio,下发xDs配置给转发面;服务网格CNI(istio-dpu-cni)做为DPU卡在k8s集群的接口,无缝对接istio/收集集群信息,相当于DPU管理面给DPU组件下发配置及规则,使DPU卡可以实现原生的透明流量劫持以及流量治理的功能;DPU卡上的dpu-proxy做为服务网格的转发面,接收配置并根据配置对流量进行流量治理。 集群内的主机上插入DPU卡(红色),在主机侧集群内部署安装服务网格CNI(istio-dpu-cni组件)后,istio-dpu-cni组件可无缝对接控制平面K8s及Istio获取服务网格及网络配置、使能DPU卡上的共享服务代理dpu-proxy及转发引擎dataplane、下发相关的启动配置,主机即具有服务治理功能。之后在部署业务POD时,业务添加高速网口vf后,提供用户接口,使业务流量通过vf到达DPU侧dpu-proxy进行流量治理与转发。 2.2.方案描述 2.2.1.主机侧组件服务网格CNI实现管理平面 服务网格CNI(istio-dpu-cni组件)在主机侧k8s集群部署,无缝对接控制平面K8s及Istio获取配置等信息,转换为共享式代理配置下发到DPU侧的共享代理;基于DPU板卡的sriov功能,可给业务POD添加低时延高速网口vf及分配置IP地址;同时使能DPU侧转发引擎dataplane,给dataplane下发引流转发配置。 如图所示,服务网格CNI包括istio-dpu-controller、istio-dpu-adapter和istio-dpu-cni三个组件: ① istio-dpu-controller 使用daemonset方式部署在集群master上 主要是用于生成dpu级别的集中式服务网格配置,收集集群信息如pod变化、nodename等,转换为istio的inbound和internal 配置,并下发给对应节点的istio-dpu-adapter。 ② istio-dpu-adapter 使用daemonset部署在每个主机节点上 主要是用于无缝对接原生控制平面istio,可自动获取配置,转换集群内信息把原生配置聚合为共享式服务网格配置下发给代理dpu-proxy。 ③ istio-dpu-cni 使用daemonset部署在每个主机节点上 可配置网络模式是underlay或者overlay,针对性下发不同的网络规则;收集集群内信息(node, ns, service, pod等),提供用户接口可对dpu侧的转发引擎dataplane下发转发及引流规则,使dataplane能进行透明劫持低时延业务流量到dpu-proxy做流量治理。 除自研的CNI外,引入的开源组件为multus、sriov、spiderpool(不涉及开源组件的改动),通过二进制或pod的形式部署在需要的节点上。 2.2.2.DPU侧组件转发引擎及代理实现转发平面 如图所示,DPU侧组件包括转发引擎dataplane和共享服务代理dpu-proxy两个组件。在DPU卡的soc上,部署两个容器组件实现服务网格转发面功能,流量透明劫持及流量治理。 ① 共享服务代理dpu-proxy采用容器方式部署在DPU卡的SOC上 扩展封装原生边车代理istio-proxy为DPU共享服务代理dpu-proxy。它解析istio-dpu-adapter下发的动态共享式服务网格配置,对进出本机的低时延业务流量进行治理与转发。支持原生的四层TCP流量及七层HTTP流量治理;支持generic-proxy框架对其他七层流量进行流量治理。 ② 转发引擎dataplane采用容器方式部署在DPU卡的SOC上 dataplane接入协议栈(内核/用户态),并可通过vcl共享内存方式与共享服务代理dpu-proxy交互;接收istio-dpu-cni下发的转发及引流规则,根据规则把流量劫持到dpu-proxy;治理过的流量按转发规则进行网络封装及转发;dataplane加载vf-representer,通过NP(网络转发引擎)从vf-representer口收发对应pod内vf口的流量。 2.2.3.DPU共享服务代理流量转发模型 同主机内的业务互访如图(红色),client端业务流量经高速口vf到达DPU共享服务代理进行服务治理后,再经转发引擎dataplane转发到本主机的server端Pod。 跨主机业务互访如图(蓝色),client端业务流量经高速口vf到达DPU共享服务代理进行服务治理。治理后流量到达转发引擎dataplane,根据转发规则转到目标主机的DPU上共享服务代理做inbound入口流量治理。治理后流量再经转发引擎dataplane转到目标主机的server端Pod。 3.方案优势 3.1.方案优势 本方案创新性的将服务网格边车代理集中卸载到DPU上,可以带来一系列显著的优势,包括以下几个方面: ①显著降低服务器开销: 资源消耗减少: 传统的边车模式需要在每个服务容器旁边部署一个边车代理,这会导致大量的资源消耗(如CPU、内存)。通过将代理集中部署在DPU上,可以消除这些额外的资源消耗,使主机侧的资源更加专注于业务逻辑处理。 优化资源利用率: DPU作为专门的硬件加速单元,能够更高效地处理网络流量和加密解密等任务,从而释放主机CPU资源,提高整体系统的资源利用率。 ②极致的低时延: 用户态协议栈Bypass内核: 通过将网络处理移至DPU的用户态协议栈,绕过传统的内核态处理,可以显著减少数据包在内核与用户空间之间切换的开销,从而大幅降低网络延迟。 服务网格快路径: 自研的服务网格快路径技术可以进一步优化网络路径,减少不必要的处理步骤,确保数据包能够以最短的路径和最快的速度在网络中传输。 ③即插即用: 无侵入式服务治理: 集中式代理模式允许在不修改现有应用代码的情况下实现服务治理功能,如流量管理、安全控制等。这使得新服务的部署和现有服务的升级变得更加简单快捷。 灵活部署: DPU作为独立的硬件组件,可以轻松地集成到现有的服务器架构中,实现即插即用。这种灵活性使得企业可以根据实际需求快速调整网络架构和服务部署策略。 ④增强的安全性和隔离性: 服务隔离: 通过DPU上的集中式代理,可以减少不同服务和边车容器之间的干扰,防止潜在的安全风险。 综上所述,将边车代理集中卸载到DPU上是一种高效、灵活且安全的网络架构优化方案,能够显著降低开销、提升系统的性能并增强安全性和隔离性。 3.2.未来与展望 服务网格DPU卸载解决方案,作为云原生时代的一项创新技术,其核心价值在于显著优化了边车代理模式所带来的资源消耗问题,并大幅降低了业务请求在微服务间的转发时延。 随着云原生技术和微服务架构在各行各业的深入渗透,特别是在云计算、金融科技、物联网、边缘计算等领域,对于高效、可靠、可扩展的系统架构需求日益迫切。服务网格DPU卸载解决方案正是顺应这一趋势,凭借其卓越的性能提升和资源优化能力,展现出了极为广阔的应用前景和市场空间。 更为重要的是,该方案和技术正处于快速发展和不断完善的阶段。随着DPU技术的不断创新和服务网格框架的持续演进,未来将有更多高级功能被集成到DPU中,如更精细的流量管理、增强的安全策略执行、智能的数据处理加速等。服务网格DPU卸载方案将吸引更多行业巨头、初创企业以及技术开发者加入DPU生态,共同探索和实践DPU技术的潜力,推动其标准化、生态化的发展进程。 总之,服务网格DPU卸载解决方案作为云原生和微服务架构下的技术探索,展现出了巨大的潜力,有望成为推动云原生技术普及和深化的关键力量,为数字化转型注入新的活力和动力。 本方案来自于中科驭数软件研发团队,团队核心由一群在云计算、数据中心架构、高性能计算领域深耕多年的业界资深架构师和技术专家组成,不仅拥有丰富的实战经验,还对行业趋势具备敏锐的洞察力,该团队致力于探索、设计、开发、推广可落地的高性能云计算解决方案,帮助最终客户加速数字化转型,提升业务效能,同时降低运营成本。
  • 2024-9-14 12:08
    0 个评论
    金税四期下,数电票的推广与应用程度越来越深,企业陆续在完成数电票的使用切换。从目前来看,企业开具数电票有两种方式:一是通过电子发票服务平台手工开具数电票,二是通过乐企直连自动开票。 这两种开票方式主要有三点不同: 一是在开票人操作。乐企是企业自有系统与税局直接做对接,以固定IP接入来识别身份,能够充分保障安全,无需扫脸开票,实现集中自动化开票。 二是在开票效率。乐企直连相比于在电子税局开票,开票速度更快,开票准确性也更高,能够满足大型集团高并发开票的需求。 三是在稳定程度。企业通过乐企直连开票会更稳定,能够实现24小时不间断的稳定连接。 对于大型企业而言,乐企应用财税变革发展的大趋势。通过乐企直连,企业通过数字化发票承载业务、财务、税务关键信息,贯穿发票开、管、收、存、用全流程、全环节,实现发票集中化、自动化管理,全面推动集团财税数字化变革。 那为什么乐企更适配大型企业呢?想要实现乐企直连,企业也有很多工作需要完成,需要具备自研能力、信息化能力等等,因此税局对乐企接入的企业有一定的条件要求。 01 申请材料准备阶段注意事项 企业在申请乐企的直连单位和使用单位时,需要准备一系列材料。对于申请资料的准备,由于初审单位在各区域税局,标准掌握可能有偏差,需要避免在材料中出现不符合总局规范的内容,造成后期审批周期长。企业可以重点关注区域准入标准和进度差异、企业IP地址、企业软著和使用权证明、企业信息化能力。 02 沙箱测试阶段注意事项 乐企申请成功后,接下来企业应进行沙箱测试和联调。这时,企业要特别关注测试时间。因为税局为每家企业安排的时间是有限的,企业需要在有限的时间内完成测试工作,快速排查问题,进行沙箱环境的切换。同时,在沙箱测试环境中,因为每家大型企业的系统不一样,在对接上也会涉及到一系列问题。 百望云已经帮助很多企业完成了乐企对接,积累并沉淀了丰富的项目实施经验,能够提供清晰完整的验证指引文档和测试报文,确保操作规范,符合局端要求,快速完成对接。同时,能够为企业提供详尽的日志输出和分析,便于快速定位问题,随时同步沙箱环境变化,确保及时响应。从而,百望云能够全方位保障企业乐企成功对接上线。 03 乐企上线后,运维阶段注意事项 企业在完成了乐企平台的对接后,并不意味着“一劳永逸”接入后就没有任何问题了,持续迭代升级能力是关键。乐企的申请和对接只是其中的环节,接入完成后会开放对应的乐企开用票能力。乐企自用的初次接入时间为2个自然年度,需要延续使用的,需要在到期前3个月发起延期请求,否则将会终止乐企接入资格。同理乐企自用所有者终止向其使用单位提供数电票等涉税服务的,也应当至少提前30日向直连单位的主管税务机关进行终止服务备案。 另外,在版本更新上,乐企平台还会涉及接口调整、功能更新,直连单位需要在30个工作日内同步完成系统改造与对接测试。所以,在乐企接入后,企业也是需要关注一些使用条件的。百望云已经形成了一整套完整的机制应对一些突发情况,帮助企业快速定位问题,从而减少业务阻断时间。 04 百望云为企业提供全方位乐企服务 在乐企平台上线前后,百望云能为企业提供全方位的乐企服务,包括系统对接服务与全流程的咨询服务。 百望云乐企建设五大核心优势 1、政策优势。百望云是国家税务总局电子发票服务平台项目的服务商,无缝衔接政策要求,为企业规避风险,节约成本。 2、智能业务处理。百望云单据产品、配单引擎支持企业实现业财一体管理,上游配单与下游交付更加便捷。 3、金四深度服务。结合政策将风险管理嵌入到企业的业务系统中,提前预警风险,实现对企业风险的有效管理和控制,促进企业长期发展。 4、智慧凭证处理。百望云立足于政策要求,深度参与凭证电子化历程,实现从数电票到电子凭证入账、电子会计档案全流程的智能快捷管理。 5、数据增值赋能。支持集团发展结算供应链金融,从进项延伸到配单、对账结算、财务供应链、普惠金融,实现全自动供应链管理。
  • 热度 1
    2024-9-13 11:51
    123 次阅读|
    0 个评论
    1.方案背景 1.1. 业务背景 随着容器技术的迅猛发展与广泛应用,一种新的云计算服务模式应运而生-函数即服务(FaaS, Function as a Service)。FaaS作为一种无服务器(Serverless)计算方式,极大地简化了开发人员的工作,使他们能够专注于应用的构建与运行,而不再需要承担服务器管理的负担。 然而,FaaS模式也并非没有缺陷,其中最为人诟病的便是“冷启动”问题。所谓冷启动,是指当请求被调度到某个函数实例时,如果该实例在上次执行完代码后已经被回收,系统需要先创建一个新的实例并初始化环境,才能继续执行代码。 相比之下,热启动则是指函数实例未被回收的情况下,直接复用现有实例以响应请求,这显然效率更高。因此,冷启动过程常常导致较高的延迟,进而影响应用的性能。 1.2. 问题与挑战 1.2.1 传统方案 根据《Slacker: Fast Distribution with Lazy Docker Containers》一文的分析,镜像拉取过程占据了容器启动时间的76%,然而实际启动时只有6.4%的数据会被读取。这一现象揭示了传统容器镜像格式和拉取方式在使用overlay文件系统(OverlayFS)时存在的问题: 过多的时间花费在拉取镜像上。 拉取了过多无关的数据。 这两个问题的根源在于容器镜像是由一组tgz文件组成,而这些文件作为镜像层(image layer)存在以下两个显著缺点: 提取单个文件时,需要扫描整个layer。 同一层多个文件的提取不支持并行处理。 因此,使用OverlayFS的容器在启动前必须完成所有tgz文件的拉取和解压,这无疑增加了启动时间。 针对这些问题,社区已经提出了一些改进措施,具有代表性的两个解决方案是Stargz和DADI。 1.2.2 已有的改进方案 Stargz 是一种容器镜像加速技术,它采用了 Google的CRFS(Container Registry Filesystem)来重新组织容器镜像,以便实现更快的容器启动和更高效的文件检索。CRFS是一个只读的用户态文件系统,它使用了新的文件格式,使得镜像层内的文件可以被随机访问(seekable)。 stargz架构图 使用Stargz启动容器时,无需拉取所有层到本地,而是远程挂载每一层到本地目录组成rootfs,从而实现容器的快速启动。容器启动之后的数据访问则是利用FUSE(用户态文件系统)按需获取。 DADI(Data Accelerator for Disaggregated Infrastructure)是阿里云针对容器加速的解决方案,DADI 的核心组件是 Overlaybd,这是一种基于块设备的镜像格式,提供了在block-based layer之上的一个合并视图,然后通过TCMU在Host上产生一个SCSI设备作为rootfs。TCMU(Target Core Module In Userspace),是scsi target的用户态实现,用于生成一个容器 rootfs 的 SCSI 设备。 DADI架构图 使用DADI启动一个容器时,其也不用拉取所有层到本地,只是基于所有层块设备创建一个scsi device表示rootfs,实现容器的快速启动。容器启动之后的数据访问则是由tcmu按需获取,并且加入了本地缓存和ZFile加速数据的读取。 1.2.3 问题总结 综上所述,以上方案在实际应用中仍然存在以下问题: 传统OverlayFS容器的冷启动时间较长,这可能会对性能敏感的应用造成影响,导致较差的用户体验。 改进方案中的用户态文件系统需要占用一定的主机资源,这可能会对系统的整体性能产生影响。 2.方案介绍 2.1.整体架构 为了解决上述问题,我们构建了基于DPU的容器冷启动解决方案,以k8s为底座,以存储为核心,利用DPU的卸载和加速能力,使容器的冷启动更快,占用更少的host资源。整体架构如下所示: 1-4):containerd会调用yusur-snapshotter准备rootfs每一层的内容快照,image-mgmt根据label参数连接存储,创建spdk bdev。 5-9):到最后一层时,需要创建NVMe subsystem/ctrl/ns,关联spdk bdev,此时在host侧给相应PCI绑定NVMe驱动,即可看到对应的NVMe disk。 10):yusur-snapshotter查到disk之后,按照不同的镜像格式生成容器启动的rootfs。 采用本方案启动容器时,首先DPU会通过NVMe/RDMA的方式连接远端存储,实现高效的数据传输,然后通过NVMe PCIE的方式直通给host,最后host基于这个直通的disk生成rootfs并启动容器。由于云盘原生支持按需读取的特性,本方案在容器启动过程中无需拉取镜像,从而显著加快容器的启动过程。 2.2.方案描述 当使用本方案启动容器时,首先需要进行镜像转换,镜像转换的主要作用是将原始镜像按照 Lvol(逻辑卷)的方式落地到存储中,并将镜像元数据推送至镜像仓库,供容器启动时使用。 同时本方案在镜像转换时支持两种镜像格式yusur-overlayfs和yusur-overlaybd。yusur-overlayfs和原生的镜像格式一样,按照overlay的方式生成rootfs,主要用于兼容overlay的场景;yusur-overlaybd以块设备的方式作为rootfs,原生支持可写层和理论上性能较overlayfs好。 2.2.1.镜像转换 镜像转换主要责任是基于SPDK snapshot机制把原生镜像按需转换成以上两种格式的镜像,镜像数据存到存储,元数据存到镜像仓库。镜像转换有两种工作模式:普通模式和DPU模式。在DPU模式下,能利用DPU的加速能力,可以显著加快镜像转换的速度。 普通模式的架构如下图所示,其组件主要包含image-ctrl,attacher service,opi-spdk-bridge和原生spdk。 红色线条表示数据走向,job拉取原镜像层数据,按不同镜像格式写到nbd设备中。各个组件的作用如下: Image-ctrl,镜像控制器:接收镜像转换yaml,创建转换job。job负责创建块存储,调用attach service创建和克隆lvol,完成镜像层数据写入lvol和推送转换后镜像元数据至仓库。 Attacher service:对opi-bridge操作的抽象,对上提供opi-bridge的能力 Opi-spdk-bridge:对接原生SPDK的opi-bridge,提供原生SPDK的基本操作 SPDK:原生SPDK提供快照,克隆的能力 DPU模式的架构如下图所示,其组件主要包含image-ctrl,image-mgmt,attacher ,opi-bridge和DPU spdk。 红色线条表示数据走向,job拉取原镜像层数据,按不同镜像格式写到NVMe disk中,各个组件的作用如下: Opi-bridge:提供不通DPU的存储能力API SPDK:不同DPU的SPDK 服务,提供NVMe disk的模拟功能 2.2.2.镜像格式 使用两种镜像创建容器时,处理流程基本一致,差异在镜像数据的组织方式和rootfs的组成方式,yusur-overlayfs镜像格式如下所示。 如上图所示,镜像X:A完成镜像转换之后,生成数据A,镜像X:B在转换时直接使用这部分数据,镜像X:B其他数据基于克隆的lvol写入。共享数据可以包含一个或多个lvol,它们之间也是通过clone链接在一起。 yusur-overlaybd的镜像格式如下图所示,与yusur-overlayfs镜像每层数据写到lvol不同目录的方式不同,yusur-overlaybd的镜像数据会直接写入lvol。 两种镜像格式的rootfs组成如下图所示。 yusur-overlaybd以nbd设备作为rootfs,不用额外的可写层;而yusur-overlayfs是以块设备中的多个目录作为lowerdir,然后加一个可写层作为upperdir构成rootfs。 2.2.3.容器启动 容器启动流程请参考”整体架构”章节。当用转换镜像启动容器时,containerd会根据镜像元数据生成一些labels,这些labels会作为参数传递给yusur-snapshotter,yusur-snapshotter会根据这些labels,创建不同的存储target。 目前支持两种形式的存储target,本地AIO和远程NVMe-OF,NVMe-OF同时又支持两种连接方式NVMe/TCP和NVMe/RDMA。在容器启动过程中主要涉及以下组件yusur-snapshotter,image-mgmt service和attacher service,作用如下: Yusur-snapshotter:实现containerd的snapshotter接口,负责准备容器启动的rootfs Image-mgmt service:和snapshotter交互,以AIO或NVMe-OF的方式创建和挂载块设备。 3.方案测试结果 3.1.功能测试 3.1.1.镜像转换 创建镜像转换CR之后,控制器就会创建job进行镜像转换。以下是yusur-overlayfs和yusur-overlaybd转换成功的截图: 转换成功之后,会更新CR status,blocks会包含目的镜像对应存储的卷,多个卷之间是以clone的方式递进,以yusur-overlayfs为例,如下所示: apiVersion: iaas.yusur.io/v1 kind: ImageConvertor metadata: name: nginx-latest-overlayfs namespace: image-mgmt spec: destImage: harbor.yusur.tech/cidg/img_test/nginx:latest-yusur-overlayfs imageMode: overlayfs sourceImage: harbor.yusur.tech/cidg/img_test/nginx:latest virtualSizeByGB: 100 status: blocks: - global-ba870cf5-6c3c-4cf6-95f3-d3963086b4e9 - local-e39cacaa-5c3e-4676-a014-d513a1ca0c09 - soldier-f64acdbb-4255-4999-81f8-652e1741120f imageMode: overlayfs ready: true 转换成功之后,目的镜像会推送至镜像仓库,其作用是在容器启动时,提供存储相关的元数据,如下所示: Annotation中包含该层所在的块设备,镜像格式,文件系统等信息,这些信息会作为labels传递给yusur-snapshotter。 3.1.2.Pod启动 pod启动之后,可以查看rootfs组成,如下所示: Yusur-overlayfs : overlayfs格式的镜像,块设备中包含镜像的每一层数据,挂载后把相关层目录,bind到对应的snapshot,构成overlay的lowerdir。 Yusur-overlaybd: overlaybd格式的镜像, 块设备中包含镜像的rootfs;没有把块设备直接作为容器启动的rootfs,考虑到还需要一个可写层,所以基于块设备创建一个qcow2的本地文件,然后本地文件通过nbd暴露出来,作为容器启动的rootfs和可写层。 3.2.性能测试 性能测试包括5种方案,本方案提供了其中的两种yusur-overlayfs/NVMe/RDMA和yusur-overlaybd/NVMe/RDMA。yusur-overlayfs/NVMe/RDMA表示镜像格式是yusur-overlayfs,存储target是NVMe-OF,连接方式是RDMA;yusur-overlaybd/NVMe/RDMA同yusur-overlayfs,只是镜像格式不同。 3.2.1.Containerd下的容器启动耗时测试 我们将测试整个容器启动过程中的时间消耗,具体分为三个阶段:镜像拉取、容器创建和服务ready。 如上图所示,纵坐标表示容器ready时间(单位:秒),横坐标表示镜像名称。由于此场景只是去掉了k8s的影响,结论同2.2.1, 如下: 本方案的yusur-overlayfs较overlayfs有63%的性能提升,因为不用拉取所有数据到本地; 本方案的yusur-overlaybd较DADI overlaybd有34%的性能提升,是因为本方案io路径更短。 如上图所示,可以得出如下结论: overlaybd镜像拉取是最快的,因为overlaybd在这个过程中只生成TCMU的config文件; 本方案的两种方法都较overlaybd慢,是因为本方案在镜像拉取中需要挂载云盘。 ​stargz也比overlaybd慢,是因为stargz在镜像拉取中需要挂载用户态文件系统​ 如上图所示,可以得出如下结论: 由于 OverlayFS 的数据已经在本地,因此 OverlayFS 的容器创建时间仅包括 runc 的操作以及启动命令的时间。 本方案的两种方法中,容器创建时间较高,因为本方案的 rootfs 基于 DPU 提供的云盘,yusur-snapshoter 需要创建 NVMe 系统(前端)并执行找盘操作。 stargz 在 CentOS 上消耗的时间较多,是因为 stargz 需要预加载(在这里需要预拉取 80M 的数据,主要时间消耗在这里)。 ​对于 overlaybd,由于其原理上与本方案基本相同,都是利用文件系统实现按需拉取,因此时间上基本差不多。 如上图所示,可以得出如下结论: 容器gcc消耗时间基本没有,是因为gcc启动命令只是执行了gcc --version,这个在容器创建时,已经就执行完了 OverlayFS 的耗时最短,因为在镜像拉取阶段,镜像数据已经被下载并存储在本地 Stargz由于前一过程预拉取了部分数据,所以总体时间上略高于OverlayFS。 本方案的 yusur-overlaybd 优于 overlaybd,主要是因为它在后期数据读取方面表现更佳。与 overlaybd 需要通过 TCMU 定位文件偏移量并使用 HTTP Range Request 向 registry 请求数据的方式不同,本方案直接通过内核 VFS,并采用 NVMe/RDMA 的方式进行数据传输,因而具有更低的延迟。 本方案的 yusur-overlayfs 相较于 stargz 和 overlayfs 表现稍逊,主要原因在于 overlayfs 的数据已存储在本地,而 stargz 在容器启动前已完成热点数据的预提取,而本方案则缺少数据预提取这一过程。 3.2.2.镜像转换耗时测试 由于两种镜像格式相差不大,故采用 yusur-overlayfs 作为对比,测试结果如下所示: 如上图所示,纵坐标表示不同模式下镜像转换时间(单位:秒),横坐标表示镜像名称。可以得出如下结论: 基于DPU的镜像转换方案可以降低镜像转换的时间,但是效果不是太明显。不明显的原因是受制于后端存储CEPH,导致RDMA发挥不出优势。 3.3.资源消耗测试 3.3.1.CPU消耗测试 stargz两次测试结果:如图所示,CPU最高使用率20.17%,平均使用率4.22%。 overlayfs两次测试结果 : 如图所示, CPU最高使用率14.77%,平均使用率2.78%。 overlaybd两次测试结果:如图所示,CPU最高使用率11.4%,平均使用率3.27%。 yusur-overlayfs两次测试结果:如图所示,CPU最高使用率7.66%,平均使用率1.95%。 yusur-overlaybd两次测试结果:如图所示,cpu最高使用率10.02%,平均使用率2.17%。 整体使用率较yusur-overlayfs高,从system使用率观察可以得出是nbd这一层导致的。 汇总结果如下 : 从以上所有图片,得出如下结论: 本方案的最高CPU使用率最低; 本方案的cpu高利用率维持时间最短,只有30s左右。 3.3.2.内存消耗测试 stargz两次测试结果:如图所示,最高内存使用7.67G,平均内存使用6.86G。 overlayfs两次测试结果:如图所示,最高内存使用5.71G,平均内存使用5.16G。 overlaybd两次测试结果:如图所示, 最高内存使用5.21G,平均内存使用4.94G。 yusur-overlayfs两次测试结果:如图所示,最高内存使用5.28G,平均内存使用4.87G。 yusur-overlaybd两次测试结果:如图所示, 最高内存使用5.62G,平均内存使用5.01G。 汇总结果如下 : 从以上所有图片,得出如下结论: 本方案的消耗的内存最低; 本方案的内存高消耗维持时间最短,只有60s左右。 4.总结 4.1. 测试结果总结 在 K8s 场景下,本方案的 yusur-overlayfs 相比于传统方案 overlayfs,性能提升了 57%;而相比改进方案 DADI,yusur-overlaybd 的性能也提升了 20% 在 Containerd 场景下,本方案的 yusur-overlayfs 相比传统方案 overlayfs,性能提升了 63%;而 yusur-overlaybd 相较于改进方案 DADI,性能也提升了 34%。 控制面和数据面下沉至 DPU,有效减少了主机资源的消耗。从测试结果来看,本方案的 CPU 和内存占用率以及持续时间均为最低。 从镜像cypress-chrome(624.2 MiB)、centos(1.3GiB)、tensorflow-notebook(1.7 GiB)的启动时间看,在本方案中,容器冷启动时间随着镜像大小的增加,其时间优势变得越加明显。 从镜像转换的测试结果来看,镜像越大,基于 DPU 的方案在时间上表现出越明显的优势,因为它能够利用 DPU 的 RDMA 能力。类推到容器启动过程中,所需的数据量越大,本方案的优势也会越加显著。 4.2. 方案价值 基于DPU的容器冷启动加速解决方案具有如下价值: 1、提升服务响应速度和用户体验: 在FaaS中,由于函数实例是动态创建的,首次调用函数时可能会遇到冷启动延迟,即容器从停止状态到运行状态所需的时间。快速冷启动技术能够显著缩短这一时间,使得用户请求能够更快地得到响应,从而提升用户体验。 2、提高业务吞吐量: 快速冷启动使得FaaS平台能够在短时间内启动更多的函数实例,以应对突发的流量高峰,从而提高业务的整体吞吐量。 3、提高系统可用性: 在微服务架构和分布式系统中,服务的快速冷启动可以确保在服务实例故障时,能够迅速恢复服务,减少服务中断时间,提高系统的整体可用性。 4、提升资源利用效率: 控制面和数据面下沉至 DPU,有效减少了主机资源的消耗,这意味着在实际应用场景中,将大大节省了宝贵的CPU和内存资源,让这些资源能够被应用服务更高效地利用。 综上所述,基于DPU的容器冷启动加速解决方案对于提升服务响应速度和用户体验、提高业务吞吐量、提高系统可用性、提升资源利用效率等方面都具有重要的价值和意义,随着云原生和无服务器计算的不断发展,该方案将具有广阔的应用前景。 本方案来自于中科驭数软件研发团队,团队核心由一群在云计算、数据中心架构、高性能计算领域深耕多年的业界资深架构师和技术专家组成,不仅拥有丰富的实战经验,还对行业趋势具备敏锐的洞察力,该团队致力于探索、设计、开发、推广可落地的高性能云计算解决方案,帮助最终客户加速数字化转型,提升业务效能,同时降低运营成本。
  • 2024-9-9 20:35
    0 个评论
    数电票的全面推广是“金税四期”建设的重要举措,推动企业加速财务数字化变革。从目前来看,通过将税务系统与企业自有信息系统直连的“乐企对接”已成为大型企业财务数字化建设的必然选择,从而实现数电票全流程数字化流转,助力企业完成业票财税一体化建设。 一直以来,爱普生中国积极推动行业数字化建设,在财务领域也及时响应落实政策,与百望云合作建设进销项发票管理和乐企对接项目,有效节约企业管理成本,提高集团税务整体管控程度,赋能企业高质量绿色发展。 爱普生总部位于日本,在办公和家庭打印、商业和工业打印、制造、视觉、生活方式等领域持续创新。爱普生从90年代起进入中国,经过20多年的发展,爱普生已建立起完善的制造、销售和服务网络。 爱普生(中国)有限公司成立于1998年,公司总部设在北京,在全国拥有13家分公司,作为地区总部,负责包括爱普生在中国的投资和业务拓展。爱普生在中国开展的业务主要有打印机、扫描仪、投影机等。 爱普生在中国销售的产品主要是从日本进口,一部分商品也会从关联方工厂采购,其中爱普生上海分公司主要承担了爱普生在中国的销售和采购职能,所以开票多集中在上海分公司,每个月给经销商、总代、网店的开票量达到几万张,造成了比较大的财务管理压力。 为什么必须对接乐企? 首先,爱普生在中国的业务量大,仅依靠人工开票几乎是不可能完成的,而使用乐企直连的方式开票,可以打通客户订单系统,实现批量开具和批量交付,能更好地满足爱普生中国的业务需求。 其次,乐企不需要频繁扫脸开票,可自动交付,能够大幅提高财务人员工作效率。若上海分公司在作为直连单位后成功接入乐企后,爱普生总部也可以作为使用单位享受乐企带来的便利。 爱普生在确定了乐企对接的需求后,为了更高效地完成项目,决定委托第三方服务商完成项目搭建。爱普生结合自身业务情况,从专业性、数据流程的熟悉度、成功案例等各方面综合考量,最终选择百望云合作,完成爱普生中国的数电乐企的整体升级。 从整体方案看,从SAP导出开票数据到百望云的销项管理系统,完成批量开票后,会自动将版式文件回传发票池,发票池会进行PDF、OFD、XML格式发票的保存,并推送到客户订单管理系统中。同时,发票在进入到企业的费控系统后,百望云进项管理系统会做OCR发票识别,完成发票验证,将合规的发票所对应的XML文件推送到费控系统中并进行保存。 爱普生数电乐企项目建设 今年,爱普生完成了进销项数电票管理项目的上线,并成功对接乐企平台开具数电票,系统整体运行稳定,有力推进了业财融合一体化建设。 销项管理建设 以前,爱普生的发票开具流程是先打印纸票,打印完成后要分门别类地给不同的客户发快递,发完快递后也需要人工将快递信息录入到订单系统中,操作繁琐且耗时耗力。数电票推广后,可以省略这些传统的发票流转的步骤。 现在,爱普生主要依托百望云系统接口与乐企的连接,及周边系统与百望云系统接口的对接,实现单张/批量开具发票,并可以将已开具的发票推送到客户订单系统中,不需要财务人员的人工干预,客户即可在系统中查询发票信息及批量打包下载。 当财务人员发现订单需要取消,或是开票有误的情况下需要红冲发票。在百望云系统中点击“新增”,可以看到所有开具成功的蓝字发票,选择本次红冲的发票,并选择红冲原因(开票有误、销货退回、服务中止、销售折让),填写红冲金额并保存,发票无误后即可点击开具, 确认后即可生成红字发票,简化红冲发票操作流程,便捷财务人员使用。 进项管理建设 爱普生进项收票主要依托百望云系统接口与局端的连接,实现发票自动验证、自动归档保存。 以前,爱普生需要将收到的电子发票打印,再进行纸质版电子发票的扫描和验证,验证只能反馈当下发票状态结果,发票无问题即正常支付抵扣,非正常状态下需要财务手工退单,流程繁琐且操作麻烦。 在使用百望云进项发票管理系统后,员工将电子发票上传,费控系统会自动调取百望云的OCR接口识别验证发票,并获取XML格式的发票文件。若系统检测发票的状态为红冲或者作废,系统可以自动实现退单动作,不需要财务的人工干涉,大幅减少财务人员工作量,提高财务工作效率,也为员工提供了更便捷的报销体验。 爱普生数电乐企项目成效 首先,对接乐企实现税企直连 爱普生通过对接乐企服务平台,实现数电发票直连开具,减少开票员登录/扫脸等认证工作。在运维阶段,局端乐企平台升级时,百望云可以同步协助企业完成对应的系统升级。 其次,提升财务工作效率 实现前端业务与财务联动,通过批量开票、批量交付,减少开票员的开票工作和纸票寄送工作,有效节约企业内部管理成本38万元左右。 最后,降低税务管理风险。 一方面,爱普生上海公司接入乐企后,总公司与其他的分公司都可以纳入平台统一管理,提高税务整体管控力度。进项发票实现自动多维度合规校验,并追踪发票状态变化,有效减少企业不合规票风险。另一方面,系统可汇总所有进销项发票明细数据,作为公司的数据资产,可为爱普生中国税务整体筹划提供全量发票数据基础。
  • 热度 1
    2024-9-2 16:57
    168 次阅读|
    0 个评论
    1. 方案背景 1.1. Kubernetes Service介绍 Kubernetes Service是Kubernetes中的一个核心概念,它定义了一种抽象,用于表示一组提供相同功能的Pods(容器组)的逻辑集合,并提供了一种方式让这些Pods能够被系统内的其他组件发现并访问。简单来说,Service提供了一种让客户端能够稳定地连接到后端Pods的机制,即使这些Pods会动态地创建、销毁或迁移。 Kubernetes Service主要特性和用途 服务发现: Service允许客户端(如Pods中的应用程序)通过稳定的IP地址和端口号访问后端Pods集合,而无需关心实际Pod的IP地址或端口号,因为这些信息可能会因为Pod的重启或迁移而改变。 负载均衡: Kubernetes会自动在Service后面创建的Pods之间分配进入的流量,实现了简单的负载均衡。这意味着当多个Pods提供了相同的服务时,客户端的请求可以被均衡地分发到这些Pods上。 支持DNS: Kubernetes支持基于DNS的服务发现,允许Pods通过服务名(而不是IP地址)来相互通信。这大大简化了服务之间的调用和依赖关系的管理。 定义服务类型: Service可以有多种类型,最常见的是ClusterIP(默认,仅集群内部可访问)、NodePort(通过集群中每个节点的静态端口暴露服务)、LoadBalancer(在Cloud环境中,使用云提供商的负载均衡器暴露服务)和ExternalName(将服务映射到DNS名称,而不是选择Pods)。 在Kubernetes集群中,kube-proxy作为Service的代理组件,负责实现集群内部及外部对Service的访问。kube-proxy通过监听Kubernetes API Server中的Service和Endpoint资源变化,动态地在每个节点上配置网络规则,确保对Service的请求能够被正确地路由到后端的Pod实例上。 在iptables 模式下,kube-proxy会在每个节点上通过iptables规则来实现请求的转发。它会创建一系列的iptables规则,这些规则根据Service的IP和端口,将访问Service的流量重定向到后端的Pod IP和端口上。这种方式简单直接,但随着Service和Pod数量的增加,iptables规则会急剧膨胀,影响性能。 作为iptables的改进,ipvs(IP Virtual Server)模式提供了更高的性能和更好的扩展性。ipvs使用更高效的哈希表来管理网络规则,可以更快地查找和转发流量。这使得在大规模集群中,Service的访问性能得到显著提升。 1.2. 问题与挑战 尽管kube-proxy在大多数基础场景中表现良好,但它也存在一些明显的局限性: 1、场景简单: kube-proxy主要适用于简单的网络拓扑结构,对于复杂的IaaS(Infrastructure as a Service)场景,如需要支持VPC(Virtual Private Cloud)网络隔离、灵活的EIP(Elastic IP)使用等高级网络功能时,显得力不从心。 2、性能瓶颈: 由于kube-proxy的报文转发完全依赖于软件实现(无论是iptables还是ipvs),这意味着它无法利用现代硬件(如DPU、SmartNIC)进行网络加速,在高负载跨节点转发的情况下,这种软件实现的性能瓶颈尤为明显。 3、资源消耗: 基于软件实现的Kubernetes Service,在高负载跨节点转发的情况下会导致CPU资源消耗过高,从而影响整体系统的稳定性和性能。 与kube-proxy相似,许多开源的容器网络接口(CNI)插件,如使用Open vSwitch(OVS)的kube-ovn、Antrea等,通常依赖于自己的数据面处理机制来转发Service网络流量,在没有硬件加速的情况下,也面临类似的性能瓶颈和资源消耗问题。 2. 方案介绍 2.1.整体架构 本方案基于DPU&SmartNIC实现了Kubernetes Service的解决方案,简称“驭云Service”。 驭云Service在驭云SDN的架构中实现,其中驭云SDN通过ovn/ovs机制将DPU&SmartNIC加入到同一个ovn集群,对网络进行统一的虚拟化,整体物理架构图如所示: 在Pod/裸机/VM接入DPU卡或SmartNIC卡后,用户的请求由Service处理后送往对应的Pod/裸机/VM。 软件整体架构如下: 如图所示,驭云Service基于驭云SDN,上图各个组件中均会参与处理Service的逻辑,下面分别进行介绍: ycloud-controller,是SDN系统的控制平面,处理Service的主要逻辑,将用户创建的Service数据通过ovn转换成实际的网络拓扑。 yusurService-controller,处理用户创建的YusurService资源,翻译成内置Service资源给ycloud-controller使用。 ycloud-cni,该组件作为一个DaemonSet运行在每个节点上,是SDN的CNI接口,同时也会负责各个节点上Service的一些处理逻辑。 注:驭云SDN参见《基于DPU&SmartNIC的云原生SDN解决方案》 2.2.方案描述 在驭云SDN的概念中,所有后端资源,无论是Pod、VM还是裸金属服务器,都属于某一个VPC(虚拟私有云)。VPC实现了逻辑隔离的网络空间,这意味着不同VPC内的网络流量不会相互干扰,这提供了重要的安全边界,同时也便于多租户环境中的资源管理和隔离。然而,这种隔离也带来了一个挑战:如何允许不同VPC之间或者外部网络访问这些VPC内的资源。 Service需要解决的就是从不同地方经过Service访问到这些VPC内的资源,并且根据策略进行请求的负载均衡。在驭云Service中,具体包含以下场景: 集群内部互通(ClusterIP类型Service) 场景①:客户端在集群VPC内,访问同VPC下的后端服务: 在这种情况下,客户端可以直接通过Service的ClusterIP访问后端服务。ClusterIP是一种虚拟IP地址,由Kubernetes为Service分配,只在集群内部可见。流量在VPC内直接转发,无需经过额外的网关或负载均衡器。 场景②:客户端在集群节点上,访问默认VPC下的一组后端服务: 当客户端运行在集群节点上时,它同样可以通过ClusterIP访问服务。Kubernetes的网络策略确保流量在节点和后端服务之间正确路由。这种访问方式同样限于集群内部,不需要EIP。 集群外部访问集群内(LoadBalancer类型Service) 场景③:客户端在集群外部,通过EIP访问一个VPC下的一组后端服务: 在此场景下,客户端通过云外访问集群内的服务。LoadBalancer类型Service会分配一个EIP,此时外部流量通过EIP被路由到集群内部的Service。 场景④:客户端在集群外部,通过EIP访问多个VPC下的一组后端服务: 当客户端需要访问跨多个VPC的服务时,情况变得复杂。在这种情况下,当外部流量通过EIP进入集群内Service时,Servcie会同时充当网关,将流量正确地路由到目标VPC。 本方案主要从控制面和数据面2各方面进行介绍。 2.2.1. 控制面 在控制层,我们对原生Service进行了封装,在Kubernetes基础上扩展了对Service的管理能力,整体控制面结构如下图所示: Service和Endpoint是Kubernetes内置资源。资源Service定义了构造一个Service的基本信息。 由于内置资源无法满足我们需要功能,包括网络访问场景,和多种后端,于是驭云Service增加了YusurService与NetworkProbe两种自定义资源定义(CRDs): YusurService: 一种扩展的Service概念,允许定义更广泛的后端资源,包括Pod、VM、BM(裸金属服务器)、VNicIP(虚拟网络接口IP)。通过使用选择器(selectors),可以灵活地匹配不同类型的后端资源,而不仅仅是Pod。支持定义多种网络场景,灵活的指定eip和clusterIP等。 NetworkProbe: 用于健康检查的新CRD,为每个后端资源生成相应的探针,实时监控其健康状态。这可以确保负载均衡器只将请求转发给健康的实例。 用户只需要和YusurService进行交互,yusurService-controller会根据YusurService的信息创建Networkprobe,Endpoint和Service这3种资源。 Service包含网络配置的大多基本信息,Endpoint资源包含本次配置的所有后端;Networkprobe返回后端健康检查结果,yusurService-controller会根据Networkprobe的返回结果调整Endpoint所包含的健康后端。 yscloud-controller则会根据Endpoint和Service的信息通过ovn绘制出整个网络拓扑,打通网络通路。 通过这样的架构,系统不仅提供了高级别的抽象来简化Service管理和后端资源的健康监控,还实现了跨VPC的负载均衡,增强了Kubernetes集群的网络功能。 2.2.2. 数据面 Service的数据面依赖OVN和OpenVswitch,根据不同的访问场景,在不同的地方配置Load_Balancer,Load_Balancer是OVN的逻辑概念,可以应用在OVN的逻辑交换机或者逻辑路由器上面,它将在对应的地方上配置DNAT的规则,将访问VIP的报文转到合适的后端上去。 下文分别针对控制面中所描述的4种Service使用场景进行说明。 2.2.2.1 同vpc下访问资源 当创建了Service之后,LoadBalancer的网络策略会确保应用在vpc1内的所有Subnet上。当subnet3上的client访问10.0.0.100时,其请求将首先被subnet3上的LoadBalancer接收。LoadBalancer会基于其算法(例如轮询、最少连接数等)选择一个后端Pod,并将数据包的目标地址转换为所选Pod的实际IP地址。数据包随后会通过vpc1被转发到选定的Pod所在的Subnet,例如subnet1,最后转发至Pod1。 2.2.2.2.从集群节点上访问vpc内资源 当集群节点上的client访问10.0.0.100时,报文经过node-interface进入subnet0,经过LoadBalancer将数据包的目标地址转换为所选Pod的实际IP地址后,通过ovn-cluster到对应subnet,完成一次转发。 2.2.2.3.从集群外部访问同一个vpc内资源 当创建了Service之后,LoadBalancer的网络策略会应用在vpc1上,当client访问200.0.0.100时,其请求将首先被这个EIP子网所属的eipGateway接收。eipGateway会将报文路由到Servic所属的VPC,vpc1内,此时LoadBalancer规则会基于其算法(例如轮询、最少连接数等)选择一个后端Pod,并将数据包的目标地址转换为所选Pod的实际IP地址。数据包随后会通过vpc1被转发到选定的Pod,完成一次转发。 2.2.2.4.从集群外部访问多个vpc内资源 当创建了Service之后,控制器会创建一个service-gateway的逻辑路由器,LoadBalancer的网络策略会应用在该路由器上,当client访问200.0.0.100时,其请求将首先被这个eip子网所属的eipGateway接收。eipGateway会将报文路由到service-gateway上,此时LoadBalancer规则会基于其算法(例如轮询、最少连接数等)选择一个后端Pod,并将数据包的目标地址转换为所选Pod的实际IP地址,源地址转换为所选service-gateway的系统IP地址。数据包随后会被转发到选定的Pod的vpc上,然后vpc将数据包送到Pod,完成一次转发。 3. 方案测试结果 3.1.创建Service 创建一个带有特定选择器和端口映射的Service YAML文件ysvc1.yaml,如下: apiVersion: iaas.yusur.io/v1 kind: YusurService metadata: name: ysvc1 spec: type: ClusterIP scope: vpc vpc: vpc1 ports: - port: 5001 name: iperf protocol: TCP targetPort: 5001 selector: svc: svc1-ep 使用kubectl apply -f ysvc1.yaml命令创建Service。 使用kubectl get ysvc ysvc1检查Service,如下: 访问Service clusterIP,访问成功。 图中的netns为service后端同vpc下的一个pod,10.233.46.185为service的clusterIP,5001是service暴露的端口。 3.2.性能对比 3.2.1 Pod的带宽 带宽单位Gbits/s。 测试用例 驭云卸载方案 未卸载方案 1 物理节点之间基准测试 163 166 2 物理节点访问后端在远端的Service 152 130 3 Pod访问后端在远端的Service 151 138 从上面测试数据得出以下结论: 1. 卸载模式下,驭云访问远端Service能够达到接近物理机的带宽。 2. 卸载模式比非卸载在带宽上性能提升了20%左右。 3.2.2 Pod的pps pps单位为Mpps。 测试用例 驭云卸载方案 未卸载方案 1 物理节点之间基准测试 45 45 2 物理节点访问后端在远端的Service 25.5 12.1 3 Pod访问后端在远端的Service 24.5 12.2 从下面数据得出以下结论: 1. 卸载模式下,驭云访问远端Service能够达到接近物理机的60%pps。 2. 卸载模式比非卸载在pps上性能提升了2倍以上。 3.2.3 Pod的延时 延时单位为us。 测试用例 驭云卸载方案 未卸载方案 1 物理节点之间基准测试 32 32 2 物理节点访问后端在远端的Service 33 48 3 Pod访问后端在远端的Service 33 44 从上面测试数据得出以下结论: 1. 卸载模式下,驭云访问远端Service能够达到接近物理机的延迟。 2. 卸载模式比非卸载在延迟上降低了20%以上。 3.2.4 RPS 单位为Requests/s。 测试用例 驭云卸载方案 未卸载方案 1 物理节点之间基准测试 15999 2 Pod跨节点访问Service 15139 11040 从上面测试数据得出以下结论: 1. 卸载模式下,驭云访问远端Service能够达到接近物理机的rps。 2. 卸载模式比非卸载在rps上提升了40%左右。 3.2.5 每条request的CPU指令数以及CPI 每条request的CPU指令数,单位为instructions/request。 测试用例 驭云卸载方案 未卸载方案 Pod跨节点访问Service 122,613 171,405 CPI,单位为cycles/instruction。 测试用例 驭云卸载方案 未卸载方案 Pod跨节点访问Service 1.94 1.69 从上面测试数据得出以下结论: 1. 一个请求消耗的CPU指令数量,卸载模式比非卸载模式降低30%左右。 2. 在CPI方面,卸载模式比非卸载模式增大了15%左右。 3. 综合消耗的CPU指令数量来看,对CPU的消耗减少了25%左右。 4. 优势总结 基于DPU和SmartNIC的K8s Service解决方案展现出显著的优势,具体总结如下: ① 支持复杂网络拓扑与高级功能 在复杂的网络拓扑下实现K8s Service,支持VPC网络隔离和EIP等高级网络功能,大大增强了Kubernetes集群在IaaS环境中的网络灵活性和安全性,满足复杂场景下的网络需求。 ② 显著提升K8s Service性能 根据测试数据,本方案在带宽上性能提升了20%左右,pps上性能提升了2倍以上,延迟降低了20%以上。DPU和SmartNIC内置了强大的网络处理引擎,能够直接在硬件上完成报文的解析、转发和路由决策等任务,这种硬件加速机制使得在高负载跨节点转发时,仍能保持低延迟和高吞吐量,显著提升了Kubernetes Service的性能。 ③ 降低资源消耗与优化系统性能 根据测试数据,本方案对CPU的消耗减少了25%左右。由于DPU和SmartNIC承担了大部分的网络处理工作,CPU从繁重的网络转发任务中解放出来,可以专注于执行其他更关键的计算任务,这不仅降低了CPU的资源消耗,还提升了整体系统的稳定性和性能。 综上所述,基于DPU和SmartNIC的K8s Service解决方案在应对复杂网络拓扑、性能瓶颈和资源消耗等方面具有明显的优势,能够显著提升Kubernetes集群在复杂IaaS环境中的网络性能和整体稳定性。 本方案来自于中科驭数软件研发团队,团队核心由一群在云计算、数据中心架构、高性能计算领域深耕多年的业界资深架构师和技术专家组成,不仅拥有丰富的实战经验,还对行业趋势具备敏锐的洞察力,该团队致力于探索、设计、开发、推广可落地的高性能云计算解决方案,帮助最终客户加速数字化转型,提升业务效能,同时降低运营成本。
相关资源