tag 标签: Hados

相关博文
  • 热度 1
    2024-7-9 14:23
    516 次阅读|
    0 个评论
    一家成功的大算力芯片公司,其核心壁垒必须是软硬兼备的,既要有芯片架构的强大技术壁垒,更要有持久投入的、生态兼容完备的软件护城河。HADOS,就是中科驭数的软件护城河。 ——中科驭数高级副总裁 张宇 近日,在DPU基础软件开发上,中科驭数迎来了一项重要的突破成果——HADOS 正式来到3.0版本。 HADOS 3.0是国内DPU软件研发平台的一个里程碑版本,集结了中科驭数6年全部软件研发投入与DPU在各行业广泛落地经验的整合和沉淀,体现了中科驭数全面拥抱敏捷开发的理念和方法,以及对高效、灵活、安全、易用的极致追求。 目前,HADOS 3.0核心代码量已经超过126万行,包含网络、计算、存储、安全等多层次API数量高达2765个,并且提供大量的开箱即用的组件和服务。相较于英特尔的IPDK和英伟达的DOCA,起步更早的HADOS在不少方面都有独特的沉淀和优势,包括云原生网络、微服务治理、全卸载能力、DPU全仿真技术、生态兼容性、运营管控、国内安全加解密,以及最重要的人工智能场景下国产AI芯片和GPU芯片网络方案等等方面。可以这么说,HADOS 3.0已经站在了业界最前沿,成为与国际巨头英伟达和英特尔并驾齐驱的本土解决方案。 HADOS 3.0 沿用驭数经典软件栈架构 为用户提供全方位、多层次的开发体验 从架构来看,HADOS3.0延续了此前两个大版本的三个逻辑功能分区架构,分别是超高性能的设备驱动层(DDL),兼容性完备的应用驱动层(ADL),以及功能强大且好用的应用开发平台层(ADP)。这也是中科驭数的经典软件栈架构模型设计,旨在为用户提供全方位、多层次的开发体验。 设备驱动层(DDL),作为性能与灵活性兼备的“不二之选”,集成了DPU开发所需的全套驱动模块与丰富的API接口,涵盖超低延迟LDMA、RDMA、虚拟化、存储加密等功能模块,并且支持NP的网络可编程,特别适用于追求极致性能与定制化的用户。 应用驱动层(ADL),聚焦于“三U一体”高性能算力中心,通过优化的DPDK、SPDK、OVS、OVN,以及云原生和服务网格等技术组件,为网络、计算、存储提供全面加速服务,助力用户轻松构建高性能算力底座,开箱即用,即刻享受DPU带来的性能飞跃。 而应用开发平台层(ADP),是HADOS的“敏捷”核心,配备了编译、仿真、调试、部署的全栈工具包,其中HADEP——业界首款DPU Emulator,更是历经三年精心打磨,实现了中科驭数DPU的全功能仿真,支持云化部署,让客户能够在云端一键部署DPU设备集群,大幅缩短开发周期,加速项目落地。此外,HADEP还支持与真实DPU的混合部署,进一步提升研发效率。 在内部,中科驭数本身就是HADEP的“重度用户”,基于云化部署的HADEP,搭建了自动化研发测试平台,大大节省了硬件资源协调和占用开销,提升了开发效率。这一举措不仅是HADOS敏捷异构开发理念的生动实践,也体现了驭数对研发效率与质量的不懈追求。 面对DPU开发平台的复杂性,中科驭数构建了ADIP——一套多流水线自动化DevOps与自动化测试平台,支持敏捷开发、持续集成、部署、安装、测试、迭代,确保HADOS的构建与自动化测试,成为推动HADOS成功的“幕后英雄”。 HADOS 3.0四大架构革新 全面拥抱敏捷开发,引领DPU应用生态 架构革新之一:为云原生而“原生” 云原生技术,既承载了当前通用数据中心中主流方式,更是在当下以AIGC和大模型为代表的人工智能浪潮中,承担核心算力操作系统角色,海量数据训练以及大模型训练、大模型推理都离不开云原生技术。 HADOS 3.0全面深度支持和拥抱原生网络集群,提供云原生网络加速、服务网格全卸载、裸金属共池管理和网络安全增强,为用户打造了一个高效率、低成本、安全可靠的开发与运行平台,提供了全面、高效的云原生解决方案。 架构革新之二:简约而不简单 深知客户在运维过程中面临的挑战与需求,HADOS 3.0通过一系列智能化的管理工具与服务,提供强大的智能化运维支撑。HADOS 3.0引入了完善的运维管控遥测接口,与服务组件无缝集成,确保了对DPU集群的全面监控与高效管理。更值得一提的是,HADOS灵活地提供了普罗米修斯等系统服务,满足客户多样化的运维需求。在此基础上,HADOS倾力打造的DPU UMS统一管理系统,不仅能实时监测DPU设备的状态,还能进行精细化的配置管理,确保集群的稳定运行与资源的高效利用。 通过这一平台,用户可以轻松实现设备的远程控制、故障预警、性能优化等功能,极大降低了运维的复杂度与成本,释放了更多精力专注于核心业务的创新与发展。 架构革新之三:层次化服务API,支持不同层次的二次开发 针对客户对于DPU开发使用门槛高的痛点,HADOS 3.0提供从基础到高级各个层次的服务API,更以直观清晰的文档,如全量、丰富的说明文档、用户手册、最佳编程实践与调优实践指导,助力开发者快速打开DPU应用的大门,大幅缩短项目启动周期,有效控制开发成本。 架构革新之四:一云多芯 “一云多芯”是当前业界整个高性能数据中心绕不过去的主流趋势。为了顺应这一多元化需求,HADOS 3.0支持“一云多芯”策略,让DPU能够与不同CPU、操作系统、GPU及IAAS层软件系统无缝对接,做到全适配、全兼容承诺,让客户轻松构建“三U一体”高性能算力底座,一键部署,即刻体验敏捷异构的效益。HADOS 3.0目前已成为业内唯一一款生态全兼容的DPU应用开发平台,兼容了8款主流国产CPU平台和10大国产操作系统。 六年磨一剑,HADOS已经成为业内适配最完全、竞争力最强、国内实际落地部署最多的DPU软件开发平台,累计部署量已经超过了万卡级别。 HADOS 3.0每一行代码,每一个功能模块,都是基于中科驭数对用户需求的深刻理解,为用户提供了从底层硬件到上层应用的全方位加速,有效解决DPU开发与部署过程中的复杂性与挑战,是对高性能计算与DPU规模化应用落地挑战的有力回应。中科驭数将一如既往地站在DPU软硬件技术探索前沿,与广大用户一道,共筑高性能计算的坚实基石。所有的这些努力,也都代表着一个信念——把敏捷易用送给客户,把复杂挑战留给驭数。
  • 2022-12-30 12:16
    2 次阅读|
    0 个评论
    近日,中 科驭数在 2022 CNCC 中国计算大会上发布了HADOS®敏捷异构软件平台2.0版本。该平台 可为驭数 DPU系列产品提供通用且编程友好的软件框架,充分释放DPU产品性能,有望成为国内DPU最具代表性的软件平台。 HADOS的发展背景 DSA架构和XPU芯片的兴盛在给解决算力问题带来新机遇的同时,也给软硬件开发带来了新的挑战。与传统的以CPU为核心的应用开发模式相比,DPU在网络、计算、存储等的应用场景相对来说复杂度更高,且随着IAAS层的技术发展和快速演化,这些应用场景的变化迭代也给DPU的规模化应用带来巨大挑战。 中 科驭数 HADOS® 是一款敏捷异构软件平台,通过灵活高效的编程接口将DPU的异构计算能力完全开放,可以帮助开发 者快速 构建DPU应用和服务。HADOS®平台集成了DPU关于网络、安全、存储以及计算等方向的应用层的接口和开发相关的接口,并打包简单易用的方式,兼容了不同方向上应用的SDK,为客户提供简单、易上手、多场景使用的软件平台。通过HADOS®平台,可以将中科驭数DPU产品性能释放到极致。 HADOS的历史演进 早在 2018年,中 科驭数在 打磨硬件产品的同时,就十分重视软件方案与系统生态的发展。伴随着中 科驭数第 一代芯片的发展,2019年10月,HADOS®平台的前身KOS 1.0版本正式发布,主要在虚拟化与低时延方面提供软件支持,并开始与客户在实际应用中不断打磨迭代。 随后为了更好的配合 DPU产品体系的发展,2020年KOS系统重新定位并更名为HADOS®,在网络与存储卸载、大数据计算方面有了进一步的积累,落地于金融数据中心的标杆客户。 到了 2022年,伴随着中 科驭数第 三代芯片的研发推进,HADOS®平台演进到了2.0版本,支持P4可编程网络转发引擎,多元化的存储设备和存储网络,灵活可靠的安全解决方案以及大数据异构加速能力,为DPU生态发展铺垫了良好的基础。 中 科驭数已经 形成 DPU芯片搭载HADOS®软件平台的技术产品体系,并不断打磨迭代。 全景视角看HADOS的开发架构 HADOS®在整体设计上是三层架构,分成设备驱动层、应用驱动层和应用开发平台层,帮助DPU更好地释放异构计算能力。对上,HADOS®支持对接中科驭数DPU所支撑的完整应用生态,用户也可以在不同层次直接调用底层的接口去完成平台上的应用开发。 从全景视图来看, HADOS®经过4年的迭代,代码总量超过80万行,提供的API接口数量已经超过两千个。在系统适配性方面,HADOS®已完成与十余个主流操作系统以及七种主流CPU架构的适配工作,为用户提供更多的自主选择权。 目前,中 科驭数基于 KPU架构的DPU全系列产品都已基于HADOS®平台做应用部署与开发。 HADOS四大亮点 亮点 一 : P4领域的践行者, 高度定制化 SDN基石 HADOS®支持P4编程框架,提供P4 runtime 程序以及 gNMI 、 gNOI 的控制面接口,用户可以通过我们提供的P4编译器针对自身需求研发特定的网络控制程序,结合SDN控制器一起组建高度定制化的SDN网络,充分挖掘网络价值。 亮点二 : DPU集群的探索者, 业内首创 DPU集群方案 通过 HADOS®平台,中科 驭数实现 了业内首个DPU集群方案,支持同主机内多块DPU网卡组成集群。 在网络转发侧, HADOS®平台支持多块DPU之间的硬件状态信息同步,实现多块DPU间的网口聚合能力,在网络转发层面解决单点隐患问题;在系统管理侧,HADOS®在同主机多块DPU网卡间实现K8S集群,依赖K8S自身高质量的监控与业务自愈能力为用户提供一套高可用的控制面集群方案。 亮点三 : 大数据运算的助燃剂,轻松打破数据墙 在大数据运算领域, HADOS®平台一方面通过强大的DOE引擎,实现对数据库操作或流式计算的硬件算子加速,提升主机CPU的运算效率。另一方面,依赖于DPU的RDMA与 NVMe-oF 能力,可以极大地提升大数据运算中的数据 交互与 数据落盘能力,帮助用户轻松打破数据墙。 亮点四 : DPU模拟器的开拓者, 加速客户业务落地 HADOS®平台提供完善的全功能模拟器,此模拟器可以对中科驭数的硬件DPU进行完美模拟,支持自动化测试,尤其是在不同操作系统中,可以很好地在开发过程中引导软硬件解耦,为需要依托DPU硬件能力行二次开发的用户提供简单易用的开发与测试环境,帮助用户加速开发迭代,提高业务落地能力。 HADOS的应用场景 HADOS®的出现,将推动云计算网络、安全、存储等方向上的技术革新,助力大数据计算基础架构创新,打造DPU生态的繁荣发展的软件基础,赋能数据中心、运营商网络高性能计算网络、大数据和人工智能多领域基础设施产业升级。 主要场景 网络场景——虚拟化网络卸载、云原生网络下沉、 微服务 网络治理、超低时延数据传输; 存储场景——存储 I端卸载、存储T端卸载; 安全场景—— SDWAN网络加速、构建零信任网络; 大数据场景——大数据计算提速; AI场景——GPU数据处理加速; 5G场景——5G核心网边缘计算一体化 HADOS路线规划 在 HADOS®的产品规划中,2023年,中 科驭数将 重点探索虚拟化与云原生的控制面卸载方案、存储的全硬件卸载方案的突破,同时,支持当前受业内关注的Multi-Host特性, eBPF 卸载方案以及基于RDMA网络打造一套云原生网络的解决方案。 2024年,将重点打造虚拟路由器、虚拟防火墙与虚拟负载均衡器的DPU卸载方案。在此之后,分布式安全中心、云计算的确定性网络、异构云融合与GPU池化将是我们未来研究的重点方向。另外,中科驭数也一直将产品生态视为关注焦点,希冀依托HADOS®平台逐步构建完整的DPU生态环境。 展望 随着 DPU走向规模化市场应用,DPU软件生态愈发重要,它将支撑DPU在多应用场景的融合,促进构建高性能、高可靠、低时延等特性的软硬融合异构计算体系,促进DPU在多应用场景遍地开花。未来中 科驭数还 将继续优化迭代打磨HADOS®开发平台,致力于构建更高效、易用的DPU方案。未来愿与更多合作伙伴携手同行,一起构建DPU软件生态。