原创 阿里云、华为云们的算力革命

2022-8-22 10:20 1122 3 3 分类: 管理

配图来自Canva可画

随着人工智能、云计算、物联网、自动驾驶、大数据等前端科技的不断延伸和发展,作为数字经济底座的算力资源,正日渐发展成为衡量国家生产力的新晋指标。据中国信息通信研究院测算,截至2021年底,中国算力核心产业规模超过1.5万亿元,关联产业规模超过8万亿元。其中,云计算市场规模超过3000亿元,互联网数据中心(服务器)市场规模超过1500亿元,AI 核心产业规模超过4000亿元。


据工信部在中国首届算力大会上披露的数据显示,国内算力产业近五年平均增速超过30%,算力规模超过150EFlops(每秒15000京次浮点运算次数),排名全球第二,第一是美国。实际上作为国内算力建设的重要参与方,包括阿里云、腾讯云、百度云、浪潮云等在内的各路云巨头,早已经围绕算力市场展开了竞赛。


云巨头开启算力竞赛


作为云计算产业的底层核心基础设施,数据中心也是云计算厂商布局的重要抓手。近年来伴随着数字新基建浪潮的来临,阿里云、腾讯云、百度智能云和华为云等厂商都相继宣布,数据中心建设将成为今后数年的重点投资领域。


早在2020年各云巨头对外公布的数据中心投资计划中,阿里宣布未来三年再投2000亿元,用于云操作系统、服务器、芯片、网络等重大核心技术研究和面向未来的数据中心建设;同一时期,腾讯也宣布未来五年再投入5000亿元,用于云计算、超算中心、人工智能、网络安全、量子计算和物联网系统等方面;百度计划未来十年将继续加大在人工智能、芯片、云计算、数据中心等新基建领域的投入,并预计到2030年,百度智能云服务器台数将超过500万台。


除了BAT之外包括华为、中国移动等在内的ICT、通讯运营商等企业,也纷纷参与到数据中心的建设中来。比如,华为云已经先后在乌兰察布、苏州、廊坊、贵安等地,建立了多个数据枢纽中心,这些地方也有中国移动、联通等通讯运营商企业的身影。


除了国内之外,巨头的云数据中心还广泛分布于全世界各地。比如,目前阿里云的全球云数据中心已经有数百个,基本覆盖超过200多个国家;腾讯云、华为云也分别在各自的海外市场如东南亚、北美、欧洲、中东等地修建本地数据中心……不难发现,在多重因素推动下一场云巨头的算力竞赛已经拉开了帷幕。


从产业发展现状来看,最近十年行业算力的增长,严重滞后于数据的增长的局面亟待改变。半个世纪之前,人类第一次将阿波罗11号飞船送上太空时所搭载的电脑,CPU主频只有0.043MHz,今天一部智能机的主频都在2500MHz,是五十年前的5万倍,如今在物联网的作用下,数以千亿计的联网设备叠加复杂的场景正在引发产业数据大爆炸。在此背景下,算力滞后的问题将变得愈加尖锐,因此云巨头投身算力基础设施建设无非是未雨绸缪,为其接下来的云服务、AI等数据应用做铺垫。


从政策方面来看,国家关于数字新基建的政策不断出台,正在推动数字基建进入全新的发展阶段。近年来国家陆续推出了包括“东数西算”等在内的一系列数字新基建建设计划,大力推动国家算力网络的建设,为算力基础设施的建设提供了外部助力。


从算力产业本身的产业链情况来看,它具有规模大、技术密集、覆盖范围广等特点,成为当下国内经济转型背景下重要的推动型产业。如今,小到芯片、手机、PC,大到汽车、互联网、超算中心、区块链、超级计算机、元宇宙等产业,都离不开算力的加持。据中国信通院预计,每1元的算力投入,可以带动3-4元的GDP经济产出。


据预计,今年国家将开工25个国家数据中心项目,带动各方面投资将在1900亿元,预计在“十四五”期间该项投资还将以年均20%的增速增长,累计带动投资达到3万亿元。总之,基于种种有利因素,各路云巨头纷纷按下算力竞赛加速键。


安全、低碳成竞逐方向


不过,随着数据中心等基础设施的逐步扩大,其面临的挑战也越发显著。此前,阿里云因发现阿帕奇log4j2组件安全漏洞,未及时告知工信部而被罚暂停合作6个月,此事曾一度引发外界对于算力安全的关注;另外,数据中心高功耗的行业特性,使其一直面临越来越多的低碳环保质疑。不难看出,在数据大规模上云、低碳经济加速推行的大背景下,低碳、安全等因素日益成为影响算力行业发展的重要因素。


一方面,各个巨头都在围绕着云安全、算力安全做布局,以较强的产品安全设计来获取用户对品牌的信赖。


比如,腾讯云为了推动安全算力落地,推出了自研的基于安全算力的算法,以及全局威胁检测与全网全出口拦截的防御解决方案—腾讯天幕;阿里云也推出了阿里云原生安全SOC,由此构建起了一个实时识别、分析、预警安全威胁的统一安全管理系统,通过防篡改、防勒索、防病毒、镜像安全扫描等安全能力,实现从检测扫描、响应、溯源的自动化安全运营闭环,保护云上资产和本地服务器安全;华为云则围绕云安全提出了“正向建、反向查、云边端网一体防御”的云安全理念,并在今年提出了全新的HiSec3.0安全解决方案,该方案具有“全流程安全可信、全智能威胁分析、全云网边端协同、全新安全云服务”的特征。


另一方面,基于降低能耗实现低碳运营的考虑,降低功耗成了各个云巨头推动产业发展的核心指向。


以电能利用效率(PUE)的指标来看,目前国内的头部云服务巨头,阿里云、腾讯云、百度云均已满足国家标准。按照国家规定来算,2021年底新建数据中心电能利用效率要达到1.35以下,2023年要达到1.3以下,寒冷地区达到1.25以下。而截止2021年,百度云、阿里云、腾讯云等的电能利用效率,均已经达到了1.3的指标,最低值甚至可以达到1.06,已经远远超越现行国家标准了。


总的来看,未来随着技术的发展和碳中和的推进,围绕安全、低碳等要素的新算力中心建设将会是核心指标,并将成为云巨头未来在算力市场竞争的关键点。


服务器、芯片成关键强化环节


作为数据中心中的重要组成部分,服务器中的CPU、GPU决定了服务器的算力。据信通院数据显示,服务器在数据中心中的硬件成本占到了70%左右,而芯片成本则占据服务器成本的绝大部分。根据IDC的研究数据显示,CPU(中央处理器)、GPU(图像处理器)、DRAM(动态随机存取处理器)三个模块中的芯片成本在基础型服务器中占比约30%,在更高性能的服务器中占比高达50%-80%。正因为如此,服务器、芯片逐渐成了巨头们选择重点强化的领域。


一方面,巨头纷纷通过自研来提升自身服务器产品的性价比,优化其产品体验。目前,阿里云的五大超级数据中心已经部署了其自研架构的神龙云服务器,并应用了阿里巴巴自研的AI芯片含光800。此外,阿里巴巴旗下平头哥半导体有限公司于2021年10月发布了首颗ARM服务器芯片倚天710,也已经在阿里云数据中心部署使用。


与此同时,腾讯云面向云计算数据中心场景发布了星星海自研服务器,并分别发布了AI推理芯片“紫霄”、视频转码芯片“沧海”和智能网卡芯片“玄灵”等三款自研芯片,并已经取得进展。百度的昆仑芯片一代、二代,也都已经应用于自己的人工智能算力中心之中了;在研发方面一向用心的华为,也发布了自己的鲲鹏处理器,适用于自己的TaiShan服务器。


据公开数据来看,这些新推出的芯片、服务器均实现了稳步的降本增效。总之,通过推动自研服务器、芯片,目前国产云巨头们都已经开始在降功耗、降成本、提升用户体验方面,迈出了重要一步。


另一方面,在数据大爆发的背景下,各大巨头纷纷转向以ARM、FPGA、ASIC等为核心的低功耗计算架构,避免对单一架构的过度依赖。


过去数十年,全球算力基本上是CPU一家独大,然而近年来随着半导体工艺制程逼近极限,CPU算力愈加陷入瓶颈。随着人工智能时代的到来,具有更低成本更高效率的GPU,逐渐成为了首选。不过,从行业来看,GPU并不是唯一选择,但它代表了大数据、云服务时代,厂商对于高效、低功耗、低成本的专用芯片的追求。在外部场景日益复杂的背景下,非X86的算力架构百花齐放,日益承担起更大算力场景的“重任”。


以FPGA和ASIC两个专业芯片来说,它们没有传统CPU的指令集,无需共享内存,而是直接以流水线的方式处理数据,不仅速度快而且功耗低的惊人,当然代价是它仅用于特定目的,基本只能走定制或者半定制路线。


但在大数据算力场景之中,广泛的数据处理需求与追求效率的“KPI”使其专业价值更被看重,大量的厂商研发、使用这些专用芯片就证明了这一点。比如,如今微软在自家一半以上的数据中心的服务器中,使用了FPGA加速卡;谷歌更是基于ASIC架构,开发了专用于加速神经网络计算的TPU芯片,亚马逊、IBM等业界大佬也都纷纷跟进。


从长远来看,异构、安全、绿色、集约化等特征,将成为未来算力发展的核心指标,也将是各路巨头强化自身实力所要补足的核心环节。


算力革命下的新机遇与新挑战


如前文所述,作为支持数字经济以及智能化的核心基座,以数字新基建为代表的算力革命,正在催生出前所未有的新机遇,同时也将带来一些不可避免的现实挑战。


从机遇来说,目前国内四大云巨头虽然目标不同、生态不同,但都在以推动算力投资为抓手打开自己的新边界。


以腾讯和华为为例,腾讯正在通过算力基础设施投资,为其推动空间从平面向立体、实景网络与虚拟网络的数字孪生、三维视觉网络提供算力支持,加速一体化的数字技术与真实世界融合的全真互联网时代的到来;身为ICT通讯技术大佬的华为则聚焦数字基建,推动全光终端(全场景)、全光锚点(就近接入)、全光网关(无缝衔接)、全光调度(低时延)的全链条算力联通,努力做数字基建的“摆渡人”。


不过,目前国内搭建算力网络也依旧面临诸多挑战,其具体体现在以下2个方面:一是网络方面仍面临较多的问题,如实时性缺乏保障、宽带太小,互联互通不足等;二是算力产业链“关键环节”的国产化依旧比较低,包括服务器整机、操作系统、算力数据库等领域,依旧较多受外部因素制约。


网络方面以宝钢为例,其内部提到的云化问题就包括:存在大量非云化设备、协议不开放、工业连接不丰富、多网并存网络安全无法保障等,就很直观地体现了当下算力网络发展应用所面临的窘境。另外,诸如实时性差,对于产业数字化带来的挑战也很大。比如,生产中因为网络慢了一秒,就有可能导致整个生产的连续性遭到破坏,进而引发大规模返工造成企业巨大亏损。


国产化方面,目前服务器、操作系统以及数据库等关键环节,仍然为国外巨头所垄断。近年来国内巨头虽然都在研究自己的服务器和专属芯片,但业内人士认为互联网“造芯”(多为满足自用),很难从根本上解决国内服务器依赖芯片进口的现状。


因此从长远来看,要想保持国内算力网络建设的持续健康发展,还需要继续加大力度补齐短板,通过产学研并举掌握核心技术,在高端芯片、核心算法等关键领域取得突破,才有望在未来实现国内算力网络资源的自主可控,进而避免算力网络陷入被“卡脖子”的风险之中。

作者: 刘旷, 来源:面包板社区

链接: https://mbb.eet-china.com/blog/uid-me-3915687.html

版权声明:本文为博主原创,未经本人允许,禁止转载!

文章评论0条评论)

登录后参与讨论
我要评论
0
3
关闭 站长推荐上一条 /2 下一条