A:早期开放框架基于GPGPU 架构实现,因此软件生态更为成熟,对于初级客户来说,上手使用更加方便。GPGPU 的通用性也更好,架构更加适合AI 中针对模型的训练以及针对通用模型的部署。对于ASIC 芯片来说,如果客户对于模型有深度的研究,也有能力对模型进行特殊的定制化处理,那么ASIC 芯片的产品和解决方案有更高的性价比。ASIC 芯片由于模型中特殊算子、特殊结构已经完成了硬件的固化,因此对于一些较大的改动,或是一些与硬件架构强相关的计算来说,可能会存在一定的限制。
总体来说,如果模型已经比较成熟,改动都在有限的范围内,那么IC 芯片具有更高的性价比,但如果是一个初步的模型,未来需要不断地演进和完善,那么GPGPU 是更合适的。
Q:市场上主要关注的AI 算力芯片,尤其是海外厂商,如英伟达,都是GPGPU吗?
A:对,市场上主流的AI 加速设备,GPGPU 大约占了90%的市场份额,剩下的10%是一些FPGA、ASIC 类的产品。
Q:如果换一个角度理解的话,我们现在所处的阶段还不成熟,所以更适合通用性强的GPGPU,如果发展成熟之后,才会需要更多的ASIC 芯片。
A:这分为两部分解释。第一,传统的AI 相对于目前的大模型来说,可以称之为是小模型的AI,比如早期的CV 算法(人脸识别、语音识别、自动应答),这些模型的体量很小。而这个时期的模型很多都是基于英伟达的CUDA 生态开发的,使用的框架(如PyTorch、Tensorflow)只是利用了一部分,还有一部分是直接调用CUDA 的,这个阶段GPGPU 是最合适的。如果现在客户的主营业务还是在这个层面上,那么GPGPU 会更加适用。
第二,如果客户模型已经基本固化,不会发生大的变化,那么在这种情况下可以采用ASIC,ASIC 芯片可以针对它原有的模型做深度的定制化。但是大模型有一定的区别,大模型更加依赖框架,比如Tensorflow 和PyTorch,而对于CUDA 生态的依赖非常小,在这种情况下,GPGPU和ASIC 的重要性的差距就变得很小。这个时候,用户更加关注芯片对于框架的支持和性价比,不存在CUDA 产生的影响。
Q:国内的大模型主要使用GPGPU 还是ASIC?
A:目前能运行大模型训练的只有GPGPU,如英伟达的A100、A800、H100、H800,效率也是最高的。目前ASIC 没有大规模的部署,很多ASIC 的厂家集中在国内,这些厂商处于早期的阶段,产品不够成熟。但是在一些场景中,我们经过测试发现,ASIC 支持大模型的效率高于GPGPU。
Q:AI 芯片的门槛应该是非常高的,为什么会有这么多初创型的企业涉足这个领域?
A:首先,AI 芯片设计的门槛不是很高,比如GPGPU 架构上没有什么高深的要求,而且很多核心部件、核心功能模块都有现成的IP,比如总线接口PCIE、内存以及内存控制器的HBM、DDR、GDDR。很多加速的组件都有现成的内容,可以用成熟的产品代替。所以唯一要做的就是把内部的逻辑加速单元整合起来,发挥对AI 计算的优势,所以硬件上门槛不是很高,但是软件门槛很高。因为在小模型的时代,软件必须解决兼容扩大的问题,还要发挥硬件本身的设计性能。在大模型时代,就要做好对于一些框架的支持,所以我们认为设计AI 芯片,从技术角度上来说难度不高,主要在于是否拥有整个软硬件的整体设计能力。根据市场上现有模型以及前景模型的内部架构需求,设计硬件的底层,这样才能实现效率提升。
否则如果硬件完成,用软件弥补硬件设计的失误,那么就需要消耗很多的软件资源,硬件的效率也不能充分发挥。这些初创企业都是从硬件着手的,门槛并不是非常高。
Q:能否简单介绍一下为什么大模型对于CUDA 的依赖小?
A:大模型底层基于transformer 的架构,增加参数和层数。而transformer 是完全基于框架实现的架构,并没有使用CUDA 的特殊算子,所以不需要必须兼容CUDA。而小模型早期都调用了CUDA 的算子,所以是绕不开CUDA 的。
Q:GPT 的训练和推理需要多少算力?
A:以GPT-3 为例,openai 训练使用了一万张A100,训练了14.8 天左右。使用A100 类似的产品,如果以512 张卡来训练,大约需要3 个月;如果用1024 张卡,大约需要1 个月;如果用2000 张卡,大约需要18 天左右。GPT-3 或者说ChatGPT,对于每个用户的请求大约需要5 张类似A100 的卡进行推理,随着并行客户增加,硬件需求线性增加。
Q:如果GPT-4 大概量级有多大增长?
A:目前没有公开宣传,我们估计大约需要2 万-3 万张A100,训练一个月左右的时间。
Q:这些比例都是线性的吗?
A:对,GPT-4 和ChatGPT 训练的数据集没有太大变化,最大的变化是参数发生变化,算力增加完全依据模型参数增加的比例,数据量大概还是四十多T,没有太大变化。
Q:假设十个大厂要做大模型,可能每家需要2000 片A100,换算到国内芯片再乘上一个参数,比如1.5-2,大概是3000-4000 片,那么十家就是3 万-4 万片,可以这样理解吗?
A:2000 片A100 训练GPT-3(不是ChatGPT),大约需要一个月,存在时间代价。目前国内芯片的整体性能只有A100 的一半左右,那么大概需要4000 片,十个厂商是4 万片,这个是正确的。
Q:AI 算力芯片折旧一般是多久?
A:一般2-3 年,最长不超过5 年。
Q:所以在一两年后,高端算力芯片会面临非常短缺的状态?
A:即使目前AI 的算力芯片对于很多大厂来说也是非常短缺的。
Q:AI 算力芯片未来是否会演变成寡头垄断。
A:对,不会做到百花齐放。因为在不同应用场景下一家独大,对于整个生态的影响和标杆作用非常明显。如果一家企业有意愿选择替代解决方案,往往要求产品比主流厂家有1.5-2 倍的性价比优势,这个对于初创型企业是一个非常大的门槛。
Q:芯片宕机是不可预知的吗?所以也没有很好的规避方法?
A:对。硬件规避有一定的难度,因为需要纯粹地提高硬件设计,比如信号质量和出现问题后的快速恢复。所以更需要软硬件结合,比如软件要随时检查硬件是否正常运行,如果出现宕机能否及时保护现场。
Q:推理方面一个用户需要5 张A100,那么一亿个用户呢?
A:以chatGPT 来讲,需要5 张A100 才能满足一个客户的一次性访问。线性叠加指的是并行访问,以谷歌为例,并行访问量每秒钟大概是20 万次,未来GPT 大概在4-5 万次。
Q:如果按照十万次算,那就需要五十万张A100 吗?
A:对,但是平时可能没有这么多访问的人。即便是峰值访问,不一定必须给客户实时响应,延迟几秒钟是没问题的。
Q:推理卡必须要用A100 吗,还是性能低一点的也可以?
A:如果算力接近A100,1 秒钟大约生成15-20 次,可以满足需求,可以多片集成到一起,所以低端卡可以做到。
来源:每日调研纪要