AI芯片是人工智能的底层基石
AI人工智能的发展主要依赖两个领域的创新和演进:一是模仿人脑建立起来的数学模型和算法,其次是半导体集成电路AI 芯片。AI的发展一直伴随着半导体芯片的演进过程,20世纪90年代,贝尔实验室的杨立昆(Yann LeCun)等人一起开发了 可以通过训练来识别手写邮政编码的神经网络,但在那个时期,训练一个深度学习卷积神经网络(Convolutional Neural Network,CNN)需要3天的时间,因此无法实际使用,而硬件计算能力的不足,也导致了当时AI科技泡沫的破灭。
ChatGPT激起AI浪潮,大算力芯片迎来产业机遇
算力硬件层是构成AIGC产业的核心底座,主要包括AI芯片、AI服务器和数据中心。 AI芯片是算力硬件层的基石。AI芯片主要分为CPU、GPU、FPGA和ASIC四类,CPU是AI计算的基础,GPU、FPGA、ASIC 作为加速芯片协助CPU进行大规模计算。目前AI芯片主要被国际厂商垄断,根据Counterpoint、IDC数据,Intel和AMD共计 占2022年全球数据中心 CPU 市场收入的92.45%,Nvidia占2021年中国加速卡市场份额的80%以上。
AI 服务器是AI芯片的系统集成。AI服务器采用CPU+加速芯片的架构形式,在进行模型的训练和推断时会更具有效率优势。 与国外AI芯片厂商的垄断局面不同,中国AI服务器水平位于世界前列。据IDC数据,在2021H1全球 AI 服务器市场竞争格局 中,浪潮信息以20.2%的份额排名第一,联想和华为分别以6.1%和4.8%的份额位列第四、五名。数据中心的计算服务是承接AI算力需求的直接形式。AIGC的模型训练是通常是通过云计算服务完成的,其本质是AIGC模型 厂商借助IDC的算力资源,在云端实现模型的训练。目前国内的数据中心厂商主要包括三大运营商、华为、联想、中科曙光 等,提供云计算的厂商主要有阿里、腾讯等互联网企业。
AI芯片根据下游应用可分为训练、推断两类
机器学习主要包括训练(training)和推断(inference)两个步骤,通常需要不同类型的AI芯片来执行。训练是指通过大数 据训练出一个复杂的神经网络模型,通过大量标记过的数据来训练相应的系统,使其能够适应特定的功能;推理是指利用 训练好的模型,使用新数据推理出各种结论。 训练芯片:通过大量的数据输入,构建复杂的深度神经网络模型的一种AI芯片。需要较高的计算性能、能够处理海量的数 据、具有一定的通用性,以便完成各种各样的学习任务,注重绝对的计算能力。 推断芯片:推断芯片主要是指利用训练出来的模型加载数据,计算“推理”出各种结论的一种AI芯片,注重综合指标,侧 重考虑单位能耗算力、时延、成本等性能。
全球AI芯片有望达到726亿美元规模
AI芯片是AI算力的核心,需求有望率先扩张。AI芯片是用于加速人工智能训练和推理任务的专用硬件,主要包括GPU、 FPGA、ASIC等,具有高度并行性和能够实现低功耗高效计算的特点。 随着AI应用的普及和算力需求的不断扩大,AI芯片需求有望率先扩张。根据IDC预测,中国AI算力规模将保持高速增长,预 计到2026年将达1271.4EFLOPS,CAGRA(2022-2026年)达52.3%。在此背景下,IDC预测异构计算将成为主流趋势,未来 18个月全球人工智能服务器GPU、ASIC和FPGA的搭载率均会上升,2025年人工智能芯片市场规模将达726亿美元。
云端/边缘端芯片同步发展
深度学习的应用开发可分成云端与边缘侧两大部分。云端指的是数据中心或超级计算机,具有强大的计算能力,利用海量 数据进行模型训练,也可以进行推理。边缘侧指的是数据中心外的设备,如自动驾驶汽车、机器人、智能手机、无人机或 IoT设备,用训练好的模型进行推理。根据场景不同,形成了两种不同要求的AI芯片: 云端芯片:具有最大的计算能力和最高的性能,主要对深度学习算法模型进行训练,有时也进行推断。目前云端主要以 CPU+GPU异构计算为主,根据wind数据,在机器学习服务器和高性能服务器中,CPU+GPU的成本占比分别为83%与51%。
边缘端芯片:计算性能有限,主要使用从云端传来的训练好的模型和数据进行推断。在边缘侧或手机等端侧设备中,很少 有独立的芯片,AI加速通常由 SoC上的一个IP实现。例如,苹果智能手机里最大的应用处理器(Application Processor,AP) 芯片就是一块带有AI核的SoC,这类SoC的性能一般可以达到5~10 TOPS。
AI芯片有望率先受益,CPU+XPU异构形式成为主流
云端训练和推断计算主要由 Al 服务器完成,底层算力芯片包括 CPU、GPU、FPGA、ASIC 等。 CPU是AI计算的基础,负责控制和协调所有的计算操作。在AI计算过程中,CPU用于读取和准备数据,并将数据来传输到 GPU等协处理器进行计算,最后输出计算结果,是整个计算过程的控制核心。根据IDC数据,CPU在基础型、高性能型、推 理型、训练型服务器中成本占比分别为32%、23.3%、25%、9.8%,是各类服务器处理计算任务的基础硬件。
GPU、FPGA、ASIC是AI计算的核心,作为加速芯片处理大规模并行计算。具体来看,GPU通用性较强,适合大规模并行计 算,且设计及制造工艺较成熟,目前占据AI芯片市场的主要份额;FPGA具有开发周期短、上市速度快、可配置性等特点, 目前被大量应用于线上数据处理中心和军工单位;ASIC根据特定需求进行设计,在性能、能效、成本均极大的超越了标准 芯片,非常适合 AI 计算场景,是当前大部分AI初创公司开发的目标产品。
CPU:底层核心算力芯片
CPU(Central Processing Unit)中央处理器:是计算机的运算和控制核心(Control Unit),是信息处理、程序运行的最终执 行单元,主要功能是完成计算机的数据运算以及系统控制功能。 CPU擅长逻辑控制,在深度学习中可用于推理/预测。在深度学习中,模型的训练和推理是两个不同的过程: 在训练过程中,模型需要进行大量的矩阵运算,因此通常使用GPU等擅长并行计算的芯片进行处理; 在推理过程中,需要对大量的已经训练好的模型进行实时的推理/预测操作,而这种操作通常需要高效的逻辑控制能力和低 延迟的响应速度,这正是CPU所擅长的。
GPU:AI高性能计算王者
GPU(Graphics Processing Unit)图形处理器:GPU最初是为了满足计算机游戏等图形处理需求而被开发出来的,但凭借 高并行计算和大规模数据处理能力,逐渐开始用于通用计算。根据应用场景和处理任务的不同,GPU形成两条分支: 传统GPU:用于图形图像处理,因此内置了一系列专用运算模块,如视频编解码加速引擎、2D加速引擎、图像渲染等。 GPGPU:通用计算图形处理器(general-purpose GPU)。为了更好地支持通用计算,GPGPU减弱了GPU图形显示部分的能 力,将其余部分全部投入到通用计算中,同时增加了专用向量、张量、矩阵运算指令,提升了浮点运算的精度和性能,以 实现人工智能、专业计算等加速应用。
FPGA:可编程芯片加速替代
FPGA(Field Programmable Gate Array)现场可编程门阵列:FPGA最大的特点在于其现场可编程的特性,无论是CPU、 GPU还是ASIC,在芯片制造完成后功能会被固定,用户无法对硬件功能做出更改,而FPGA在制造完成后仍可使用配套软件 对芯片进行功能配置,将芯片上空白的模块转化为自身所需的具备特定功能的模块。 可编程性、高并行性、低延迟、低功耗等特点,使得FPGA在AI推断领域潜力巨大。FPGA可以在运行时根据需要进行动态 配置和优化功耗,同时拥有流水线并行和数据并行能力,既可以使用数据并行来处理大量数据,也能够凭借流水线并行来 提高计算的吞吐量和降低延迟。根据与非网数据,FPGA(Stratix 10)在计算密集型任务的吞吐量约为CPU的10倍,延迟与 功耗均为GPU的1/10。
ASIC:云计算专用高端芯片
ASIC(Application Specific Integrated Circuit)专用集成电路:是一种为专门应特定用户要求和特定电子系统的需要而设 计、制造的集成电路。ASIC具有较高的能效比和算力水平,但通用性和灵活性较差。能效方面:由于ASIC是为特定应用程序设计的,其电路可以被高度优化,以最大程度地减少功耗。根据Bob Broderson数据, FPGA的能效比集中在1-10 MOPS/mW之间。ASIC的能效比处于专用硬件水平,超过100MOPS/mW,是FPGA的10倍以上。算力方面:由于ASIC芯片的设计目标非常明确,专门为特定的应用场景进行优化,因此其性能通常比通用芯片更高。根据 头豹研究院数据,按照CPU、GPU、FPGA、ASIC顺序,芯片算力水平逐渐增加,其中ASIC算力水平最高,在1万-1000万 Mhash/s之间。