近期,中科驭数创始人、CEO鄢贵海受邀参与华泰证券播客栏目《泰度VOICE》,与华泰创新投资总监刘诚围绕人工智能三要素之一“算力”,展开一场非常硬核、烧脑的科技向对谈。
在节目中,鄢老师深入浅出地探讨了数据处理单元(DPU)的技术原理及应用场景,对于算力提升面临的难题和产业意义,他详细解释了DPU作为算力底座中的关键组成部分,如何通过连接各种算力节点和构建算力资源池来提高效率。同时,他也分享了科学家创业的心路历程,强调了科技创新与商业应用的紧密结合对推动科技发展的重要性。欢迎收听~
01
光有CPU和GPU还不够,DPU构成连点成网的“高铁系统”
华泰创新刘诚:鄢老师您能不能深入浅出地解释一下,如果说算力是 ChatGPT一个非常重要的基座,那么 DPU 在这里面扮演一个怎么样的角色?
中科驭数鄢贵海:算力主要来自于计算能力,而计算能力主要源自于芯片、网络以及各种生成数据和需要处理数据的应用。因此,算力的底层基础是各种数据中心,它们采用服务器集群部署,配备不同的网络设备,将所有可进行计算、存储和传输数据的基础设施连接在一起,形成一个有机的整体。这就是我们所说的算力底座。
在算力底座中,我们有许多不同类型的处理单元(PU),比如最常见的中央处理器(CPU)、图形处理器(GPU),还有操作系统以及我们每天使用的各种应用程序。然而,对于当前的大型模型或复杂的人工智能算法来说,需要将海量的算力节点连接成一个巨大的算力池,仅仅依靠CPU和GPU是不够的。那么谁来连接它们呢?数据处理单元(DPU)将在其中发挥非常重要的作用,它负责将所有的算力节点连接起来,形成一个算力资源池。
如果将一个处理单元(PU)比作一座城市,那么DPU就相当于城市的高铁系统。我们现在可以当天往返于北京和南京,这在以前是很难想象的,但现在我们拥有了高效的交通体系。同样道理,应用到算力的基础设施上,我们也需要将节点间的效率进一步提升,将整个算力连点成片、连片成网。DPU在这里面就会发挥像今天的高铁系统一样的作用。
02
能效比是算力重要的评价维度
华泰创新刘诚:结合当前信息科技领域的前沿,比如说云计算、东数西算、算力网络等等,你能不能给大家解释一下算力对于各个产业的重要性?
中科驭数鄢贵海:最直接的比喻,是把算力当成电力一样去理解。假设今天如果我们没有手机、没有电脑,你会觉得工作没法开展。原因是你的工作是要建立在大量的数据基础上。对于今时今日的算力,已经不仅仅是说处理数据那么简单。很多时候即便没有对这些数据发出明确的指令,其背后也有一个巨大的系统对数据进行分类,挖掘数据的价值。我们每个人手机里面的APP会根据你现在处的场景,主动地给你推送定向消息。这些在后台处理数据的业务所消耗的算力,也许大于你真正指定的任务所消耗的算力。背后加工的过程就是算力发挥作用的过程。
对算力的评价标准其实有很多,其中重要的一点是能效比。对于需要数据中心去支撑业务运行的场景,用越经济、能效比越高的算力,肯定比用能耗更高的算力更有优势。
从算力的分类角度来看,我们可以将天气预测、地震模拟、风洞碰撞模拟等等场景称为超算应用,它们非常依赖海量计算,对效率要求严苛,但对外部网络的要求不太高。另外,像当前热门的Chat GPT模型则被称之为智算应用,显然需要一个大规模的数据中心来进行模型训练、模型推理。此外,在大数据领域中也存在一些特殊的算力需求,比如支撑100万人摇红包的系统,这种算力又跟前面两种算力不一样,每个用户所需的计算量并不大,但需要处理海量用户同时接入服务,它对于并发度的要求就非常高。
03
市场需求和落地场景是我们启动产业化的背景
华泰创新刘诚:我也想回到您创业的初衷来谈谈行业。在成立中科驭数之前,您的身份是一名科学家,当时是发现行业内存在的一些普遍问题,想通过 DPU 这样的一个切入点来解决?能不能从您创业的初衷来聊一聊现在DPU的进展。
中科驭数鄢贵海:当时做DPU时,首先关注到了需求。在研究计算系统的过程中,我们注意到越来越多的业务在传统数据中心等基础设施上运行时成本不断上升。数据中心的 CPU利用率,在搭载了各种云的基础设施后,即使在空闲状态下,仍然有20%-30%处于繁忙状态,这就证明整个系统至少有20%-30%已经变成了为支撑这些基础设施而消耗的算力,这就是所谓的数据中心的"税"。
更为严重的是,这种情况已不仅仅是消耗资源的问题,更是直接降低了性能。例如,我们发现在云计算中,不同机器之间的通信时延远远高于物理机之间的通信延迟。这个延迟增加是由于大量的网络虚拟化引起的。而DPU的出现正是为了直接解决这种性能问题。
我们在需求侧看到了特别刚性的需求。我们都知道,证券交易系统、风控系统,对于延时的要求都是很高的,因为延迟控制对整个交易市场的流动性和运行效率起着关键作用。时延从毫秒级降低到微秒级,相当于有3个数量级的差异。我们无法仅依靠在上层软件上进行简化,必须在硬件链路和网络协议栈上得到技术支撑。对于这些要求,传统的计算体系很难直接支持。因此,我们认为通过使用贴近网络的数据处理单元(DPU)这样的组件,可以解决这个问题。
技术的成熟度是确保我们的产品从创新阶段过渡到成熟商品的必要条件。大约2018年左右开始着手开发DPU时,基本具备了必要的条件。唯一缺少的是市场教育,因为DPU在过去并不存在,现在我们需要让用户群体了解并认识DPU的重要性,以免对这个新颖且创新的产品的成熟度产生过多怀疑。为了让市场和客户对DPU产生信心,我们需要提供一些实实在在的案例。只有这样,我们的DPU才能顺利从研发阶段进入市场。
04
让CPU干DPU的活,
相当于让公司研发人员搞行政
华泰创新刘诚:刚才你提到了数据中心”税“这样一个话题,是否有可能对其进行量化?
中科驭数鄢贵海:大约2016年左右,谷歌的研究团队对谷歌云上的服务器利用率进行了统计,发现整个数据中心税的值大约在25%到30%左右。这个数据让人们相信,仅仅这个业务就可能导致性能开销达到百分之二三十。
我们自己也做过类似的实验。由于需要处理网络数据,需要先将数据从网络中抓取下来,放到本地供本地应用使用。这个过程需要由CPU运行一个解包程序,也就是网络协议。运行协议时会消耗算力,而这个算力的需求取决于数据包的速度。如果数据包的速度很高,CPU可能需要更多的处理器核来处理。而如果数据包比较少,可能就不需要那么多算力。
如果将25G的数据链路打满,大约需要四五个至强处理器来处理。举个例子,对于一个拥有8个核心的高性能桌面机来说,如果要接入一个全带宽的网络应用,大约有一半的核心可能会用于网络处理。这实际上是一个巨大的开销。
华泰创新刘诚:对于CPU来说,云和虚拟化是一种负担,他们需要将这部分负担卸载到DPU上来解决。
中科驭数鄢贵海:可以这么理解。我们也有一个观点,云和虚拟化并不是导致数据中心税的“罪魁祸首”,我们认为这是必须付出的成本。就像你要协同100台机器工作,它们不会自动协同,可以理解为当一个组织要高效工作时,必须承担一定的开销,即管理成本。这种管理成本是必要的,是不可避免的。只是你要让谁来承担这些任务。如果你让CPU来处理的话,看起来就像是一种开销。但是如果你将这些功能从CPU中剥离出来,让更适合完成这些任务的部件来处理,那么开销就会大大降低。
就像一个公司,它总是需要人事和行政部门,如果让公司的研发人员天天负责招人,效率会很低。但如果找一个专门的人力资源部门来做这个工作,效率就会更高。
05
通过“软硬结合”,
做到逼近极限的“低时延”
华泰创新刘诚:据我了解,中科驭数除了硬件产品之外,也有软件产品,例如HADOS软件开发平台和NDPP超低时延计算开发平台。一个芯片公司为何要在软件上投入如此多的精力?
中科驭数鄢贵海:对芯片本身也分很多种,不同类型的芯片有不同的特性,尤其是像DPU这样的系统级芯片,对软件的依赖程度非常高。与终端设备如Wi-Fi和蓝牙芯片等有所不同,DPU和GPU、CPU等芯片更加复杂。仅仅通过端口测试和信号测试来评估一个芯片的性能是不够的,因为最重要的是如何让其他人能够有效地使用它。为了确保所谓的“最后一公里”连接的畅通,我们认为必须对DPU的底层软件系统进行精细的开发。
同时注重软件和硬件的团队一直是中科驭数的理念。我们不仅追求芯片在主屏性能、延迟、面积和功耗等方面的优化,还希望它能与现有的库和中间件进行无缝对接。它之所以能做到那么无感的切换,就是因为我们在底层做了非常完善的软件层的对接。因此,我们需要投入大量的软件研发资源来实现这一目标。
华泰创新刘诚:那您能不能给我们再延伸地去说一下,哪些厂商你期待着把中科驭数的产品嵌入到它的软件或硬件上去,比如数据库、操作系统、云等等?
中科驭数鄢贵海:这实际上涉及到产品生态的问题。刚刚您提到的这几个大类,可以概括为终端软件。终端软件代表了我们整个应用生态系统中的一些主要玩家,例如操作系统。当我们开发DPU时,它必须与当前的操作系统进行适配和兼容,也包括操作系统下的算力平台所使用的各类CPU、GPU,DPU都要逐一兼容,以确保操作系统上的用户可以无感地使用它们。对于DPU来说,这是最好的状态。
另外,还有一些基础应用型的系统,比如数据库。传统上,如果你想提高数据库的性能,你需要具备强大的硬件调优能力。事实上,如果我们回顾一下数据库和操作系统的发展,可以看到它们是相对独立发展的,这意味着数据库用户或数据库开发社区本身也具备了较强的硬件调优能力。在这方面,我们希望DPU的许多高性能网络等功能可以暴露给这些基础系统软件的调优界面。例如,在分布式数据库中,我们可以将某个表放在远程节点上,使用DPU支持的DMA机制进行调用,以提高性能。
因此,这又是一个需要将功能暴露给底层技术软件厂商的案例。基础软件需要更底层的接口,并为它们提供性能调优的空间。因此,我们希望将所有这些整合到同一个系统中。
华泰创新刘诚:中科驭数从软件或硬件层面,针对不同的场景或者不同的使用对象,都有哪些软硬件的产品?
中科驭数鄢贵海:NDPP超低延迟计算开发平台就是我们非常典型的案例。我们“N”取的是Nano(纳秒),也是希望产品最终的延迟能够接近纳秒。作为一个超低延迟计算开发平台,主要面向一些对延迟非常敏感的场景,意味着网络侧的应用可以基于我们的超低延迟开发平台构建核心应用程序。在这个平台上,我们为您提供了许多低延迟的物理链路,相当于我们为客户构建了一个电路交换系统。在通信时,您不再需要通过发送电报,而可以直接拨打电话,这比之前要快得多。
06
科技创新引领经济发展新趋势
中科驭数鄢贵海:作为硬科技方向的投资人,您背后的主要驱动力是什么?主要的投资逻辑是什么?
华泰创新刘诚:硬科技是一条没被大家充分关注,但非常重要的赛道。未来的投资主线将越来越多地由硬科技驱动。中国的创新力量,已经部分进入了深水区,而投资主题的转移也与中国经济发展的大背景和需求密切相关。20年前,中国主要从事制造业和来料加工等传统经济模式,硬科技投资主题并不突出。因为在那种模式下,利润回报更快,投资更容易,产出也更高。然而,随着经济发展迈向更高的台阶,中国正在逐渐转变为创新驱动型、知识驱动型和科技驱动型经济,这是一个经济体发展的必然结果。
我认为单纯追求冷或热都是不正确的,这同样适用于技术方向。如果没有经历冷热的交替和反复的捶打,很难在技术发展中找到共识,也难以锻炼出真正能够解决市场问题和满足需求的技术。这种冷热交替可能会发生无数次,最终只有那些经过冷热交替、真正能够为客户解决问题、具有价值的公司才能够崭露头角。这些公司将在冷热的交替过程中不断磨砺,就像炼钢过程中铁中的杂质被去除一样,才能百炼成钢。多次的冷热交替对于产业的发展具有促进作用。
作者: Yusur_Tech, 来源:面包板社区
链接: https://mbb.eet-china.com/blog/uid-me-3991230.html
版权声明:本文为博主原创,未经本人允许,禁止转载!
文章评论(0条评论)
登录后参与讨论