GPGPU 和ASIC 芯片在AI 算力中分别承担什么样的角色？

楼主

黑钢.384

2220 主题
2321 帖子
8707 积分

身份：版主

E币：3608

发消息

 899

 0

发表于 2023-7-24 14:41:13

显示全部楼层

Q：GPGPU 和ASIC 芯片在AI 算力中分别承担什么样的角色？

A：早期开放框架基于GPGPU 架构实现，因此软件生态更为成熟，对于初级客户来说，上手使用更加方便。GPGPU 的通用性也更好，架构更加适合AI 中针对模型的训练以及针对通用模型的部署。对于ASIC 芯片来说，如果客户对于模型有深度的研究，也有能力对模型进行特殊的定制化处理，那么ASIC 芯片的产品和解决方案有更高的性价比。ASIC 芯片由于模型中特殊算子、特殊结构已经完成了硬件的固化，因此对于一些较大的改动，或是一些与硬件架构强相关的计算来说，可能会存在一定的限制。

总体来说，如果模型已经比较成熟，改动都在有限的范围内，那么IC 芯片具有更高的性价比，但如果是一个初步的模型，未来需要不断地演进和完善，那么GPGPU 是更合适的。

Q：市场上主要关注的AI 算力芯片，尤其是海外厂商，如英伟达，都是GPGPU吗？

A：对，市场上主流的AI 加速设备，GPGPU 大约占了90%的市场份额，剩下的10%是一些FPGA、ASIC 类的产品。

Q：如果换一个角度理解的话，我们现在所处的阶段还不成熟，所以更适合通用性强的GPGPU，如果发展成熟之后，才会需要更多的ASIC 芯片。

A：这分为两部分解释。第一，传统的AI 相对于目前的大模型来说，可以称之为是小模型的AI，比如早期的CV 算法（人脸识别、语音识别、自动应答），这些模型的体量很小。而这个时期的模型很多都是基于英伟达的CUDA 生态开发的，使用的框架（如PyTorch、Tensorflow）只是利用了一部分，还有一部分是直接调用CUDA 的，这个阶段GPGPU 是最合适的。如果现在客户的主营业务还是在这个层面上，那么GPGPU 会更加适用。

第二，如果客户模型已经基本固化，不会发生大的变化，那么在这种情况下可以采用ASIC，ASIC 芯片可以针对它原有的模型做深度的定制化。但是大模型有一定的区别，大模型更加依赖框架，比如Tensorflow 和PyTorch，而对于CUDA 生态的依赖非常小，在这种情况下，GPGPU和ASIC 的重要性的差距就变得很小。这个时候，用户更加关注芯片对于框架的支持和性价比，不存在CUDA 产生的影响。

Q：国内的大模型主要使用GPGPU 还是ASIC？

A：目前能运行大模型训练的只有GPGPU，如英伟达的A100、A800、H100、H800，效率也是最高的。目前ASIC 没有大规模的部署，很多ASIC 的厂家集中在国内，这些厂商处于早期的阶段，产品不够成熟。但是在一些场景中，我们经过测试发现，ASIC 支持大模型的效率高于GPGPU。

Q：AI 芯片的门槛应该是非常高的，为什么会有这么多初创型的企业涉足这个领域？

A：首先，AI 芯片设计的门槛不是很高，比如GPGPU 架构上没有什么高深的要求，而且很多核心部件、核心功能模块都有现成的IP，比如总线接口PCIE、内存以及内存控制器的HBM、DDR、GDDR。很多加速的组件都有现成的内容，可以用成熟的产品代替。所以唯一要做的就是把内部的逻辑加速单元整合起来，发挥对AI 计算的优势，所以硬件上门槛不是很高，但是软件门槛很高。因为在小模型的时代，软件必须解决兼容扩大的问题，还要发挥硬件本身的设计性能。在大模型时代，就要做好对于一些框架的支持，所以我们认为设计AI 芯片，从技术角度上来说难度不高，主要在于是否拥有整个软硬件的整体设计能力。根据市场上现有模型以及前景模型的内部架构需求，设计硬件的底层，这样才能实现效率提升。

否则如果硬件完成，用软件弥补硬件设计的失误，那么就需要消耗很多的软件资源，硬件的效率也不能充分发挥。这些初创企业都是从硬件着手的，门槛并不是非常高。

Q：能否简单介绍一下为什么大模型对于CUDA 的依赖小？

A：大模型底层基于transformer 的架构，增加参数和层数。而transformer 是完全基于框架实现的架构，并没有使用CUDA 的特殊算子，所以不需要必须兼容CUDA。而小模型早期都调用了CUDA 的算子，所以是绕不开CUDA 的。

Q：GPT 的训练和推理需要多少算力？

A：以GPT-3 为例，openai 训练使用了一万张A100，训练了14.8 天左右。使用A100 类似的产品，如果以512 张卡来训练，大约需要3 个月；如果用1024 张卡，大约需要1 个月；如果用2000 张卡，大约需要18 天左右。GPT-3 或者说ChatGPT，对于每个用户的请求大约需要5 张类似A100 的卡进行推理，随着并行客户增加，硬件需求线性增加。

Q：如果GPT-4 大概量级有多大增长？

A：目前没有公开宣传，我们估计大约需要2 万-3 万张A100，训练一个月左右的时间。

Q：这些比例都是线性的吗？

A：对，GPT-4 和ChatGPT 训练的数据集没有太大变化，最大的变化是参数发生变化，算力增加完全依据模型参数增加的比例，数据量大概还是四十多T，没有太大变化。

Q：假设十个大厂要做大模型，可能每家需要2000 片A100，换算到国内芯片再乘上一个参数，比如1.5-2，大概是3000-4000 片，那么十家就是3 万-4 万片，可以这样理解吗？

A：2000 片A100 训练GPT-3（不是ChatGPT），大约需要一个月，存在时间代价。目前国内芯片的整体性能只有A100 的一半左右，那么大概需要4000 片，十个厂商是4 万片，这个是正确的。

Q：AI 算力芯片折旧一般是多久？

A：一般2-3 年，最长不超过5 年。

Q：所以在一两年后，高端算力芯片会面临非常短缺的状态？

A：即使目前AI 的算力芯片对于很多大厂来说也是非常短缺的。

Q：AI 算力芯片未来是否会演变成寡头垄断。

A：对，不会做到百花齐放。因为在不同应用场景下一家独大，对于整个生态的影响和标杆作用非常明显。如果一家企业有意愿选择替代解决方案，往往要求产品比主流厂家有1.5-2 倍的性价比优势，这个对于初创型企业是一个非常大的门槛。