gpu-如何使用-有什么中文资料面包板社区

相关博文

英伟达 50 亿入股英特尔：CPU+GPU ，算力四大黄金赛道重塑格局

高性能服务器

2025-9-22 13:32

0 个评论

2025 年 9 月 18 日，硅谷芯片领域爆出重磅消息 —— 英伟达以每股 23.28 美元的价格豪掷 50 亿美元入股英特尔，拿下约 5% 股权。这场两大巨头的 "世纪联手" 瞬间震动全球科技圈，其推出的 CPU+GPU"王炸组合"，从 PC 端的 "x86 RTX SoC" 创新方案到数据中心端的专属 CPU 定制集成，直指 AI 算力核心赛道，成为算力革命加速演进的生动注脚。当 ChatGPT 用 1750 亿参数敲开通用 AI 的大门，当 “东数西算” 工程让西部数据中心点亮万家算力需求，一个新的产业时代已然到来 —— 算力，像石油、电力一样渗透进经济血脉的“数字基础设施”。 2023年，全球计算设备算力总规模突破 1397EFlops，相当于每秒完成 1397 万亿次浮点运算，同比增速高达 54%；据 IDC 预测，未来五年这一增速将保持超 50%，到 2030 年全球算力将突破 16ZFlops（1ZFlops=1000EFlops），七年实现 11 倍增长。中国更是走在前列，2024 年智能算力规模达 725.3EFlops，2028 年预计飙升至 2781.9EFlops，五年复合增速 46.2%，成为全球算力增长的核心引擎。这场算力革命不是单点爆发，而是全产业链的协同升级。从硬件底座到通信通道，从散热方案到核心芯片，四大黄金赛道正孕育千亿级机遇。今天，我们不堆砌枯燥数据，而是用产业逻辑拆解趋势，用真实案例还原机遇，帮你看清未来 5 年的算力产业版图。一、AI 服务器：从“组装机”到“算力引擎” AI 服务器承载着 AI 模型训练、推理的全流程，直接决定算力的输出效率。AI 服务器已经从“小众玩家”的游戏成为全球科技巨头的必争之地。 1、市场爆发：三年翻三倍的 “超级赛道” 2021 年，全球 AI 服务器市场规模仅 150 亿美元；2023 年突破 310 亿美元，两年翻倍；预计 2024 年达 400 亿美元，2028 年将飙升至 1150 亿美元，五年复合增速 30%。中国市场更具爆发力：2024 年规模 115 亿美元，2027 年预计达 260 亿美元，五年复合增速 40%，远超全球平均水平。为什么增长这么快？核心是 “需求倒逼”。2023 年以前，AI 服务器主要用于互联网大厂的推荐算法；现在智能驾驶、金融风控、工业质检等行业纷纷入局。某新能源车企为训练自动驾驶模型，一次性采购 2000 台 AI 服务器。某国有大行搭建 “AI 反欺诈平台”，单项目投入超 10 亿元，其中 60% 用于 AI 服务器采购。据 Gartner 统计，2024 年非互联网行业的 AI 服务器采购占比已达 45%，较 2022 年提升 20 个百分点，成为新增长极。 2、从 “拼硬件” 到 “拼生态” 早期的 AI 服务器，本质是 “GPU + 主板 + 电源” 的组装机，谁能拿到英伟达 GPU，谁就能抢占市场。如今竞争焦点已转向“软硬协同”—— 不仅要拼硬件配置，更要拼软件优化、场景适配能力。以华为 Atlas 900 AI 服务器为例，搭载 8 张昇腾 910 GPU，同时配套 MindSpore AI 框架、ModelArts 开发平台，形成“硬件 + 软件 + 平台” 的完整生态。某科研团队用 Atlas 900 训练 “盘古大模型”，训练效率较传统服务器提升 30%，成本降低 25%。这种“生态优势”，让华为在政务、国企等领域的 AI 服务器采购中，市场份额从 2022 年的 8% 提升至 2024 年的 18%。另一大变化是 “价值量转移”。过去GPU 占 AI 服务器成本的 55%；现在高速互联模块、液冷系统、定制化主板的价值量占比持续提升 —— 某高端 AI 服务器的 PCIe 5.0 接口成本，是 PCIe 4.0 的 2 倍；冷板式液冷系统的成本，占整机成本的 15%。掌握核心部件技术的企业，将在产业链中占据更有利地位。 3、国产破局：从 “替代” 到 “超越” 三年前，中国 AI 服务器产业面临 “卡脖子” 困境：高端 CPU 依赖英特尔（占比 90%），GPU 依赖英伟达（占比 85%），核心电源模块依赖台系厂商。现在，国产替代已取得实质性突破： CPU：海光信息的 Hygon D 系列 CPU，兼容 x86 架构，在政务领域的 AI 服务器中渗透率达 20%。某省 “智慧政务” 平台一次性采购 1000 台搭载海光 CPU 的服务器； GPU：寒武纪思元 590 GPU，算力达 128 TOPS，在智能安防场景的推理效率达英伟达 T4 的 85%，价格仅为 T4 的 70%，2024年出货量同比增长 300%；整机：浪潮信息、中科曙光的全球市场份额分别达 18%、12%，跻身全球 TOP5，较 2022 年提升 8 个百分点，其中浪潮信息在东南亚、中东市场的出货量同比增长 50%。国产厂商的优势，不仅在于成本控制，更在于 “快速响应”。某工业企业需要定制 “AI 质检服务器”，要求适配工业相机接口、支持实时数据处理，浪潮信息从需求沟通到样机交付仅用 45 天，而海外厂商需要 90 天。这种 “定制化能力”，让国产 AI 服务器在垂直行业中快速渗透。二、高速光模块：AI 数据中心的“血管” 当 1000 台 AI 服务器组成集群训练大模型时，需要每秒传输数十 TB 的数据 —— 这就像工厂里的 “传送带”，一旦卡顿，整个生产流程都会停滞。而光模块，就是这条 “传送带” 的核心部件，负责将电信号转化为光信号，实现高速、低延迟的数据传输。 1、技术迭代：每两年翻倍的 “速率竞赛” 光模块的核心指标是 “速率”，速率越高，数据传输越快。2020 年，400G 光模块是 AI 数据中心的主流；2023 年，800G 光模块开始大规模部署；2024 年，1.6T 光模块已进入小批量试产，预计 2026 年成为主流。这种 “每两年速率翻倍” 的节奏，完全由 AI 大模型的需求驱动 ——GPT-3（1750 亿参数）训练需要 400G 光模块，GPT-4（1.8 万亿参数）需要 800G，未来的 GPT-5（预计 10 万亿参数）则需要 1.6T。速率提升的背后，是技术的持续突破。800G 光模块采用“4×200G”的并行传输方案，通过更先进的光芯片、更紧凑的封装技术，实现速率翻倍的同时，功耗仅增加 30%。某云厂商测试显示，用 800G 光模块替代 400G 后，数据中心的通信延迟降低 20%，整体算力利用率提升 15%。 2、AI 数据中心贡献 80% 需求 2023 年，全球光模块市场规模约 180 亿美元，其中 AI 数据中心贡献 63 亿美元（占比 35%）；预计 2025 年，AI 数据中心的光模块需求将突破 120 亿美元，占比提升至 45%；2028 年，这一规模将达 300 亿美元，占比超 60%。为什么 AI 数据中心成为核心需求？因为传统数据中心以 “存储 + 通用计算” 为主，对通信速率要求较低；而 AI 数据中心以 “分布式训练” 为主，需要大量服务器协同工作，对光模块的需求呈 “指数级增长”。某头部云厂商测算，训练一个千亿参数的大模型，需要约 1000 台 AI 服务器，配套的光模块数量达 4000 个，是传统数据中心的 10 倍。 2024 年全球光模块 TOP10 厂商中，中国占据 7 席，中际旭创、新易盛的全球市场份额分别达 20%、15%，合计 35%，远超排名第三的美国 Coherent（10%）。中际旭创的 800G 光模块 2024 年出货量达 100 万只，占全球市场的 30%，其中 80% 供应给亚马逊、微软等海外云厂商。 3、CPO 技术开启 “下一代竞争” 光模块的下一个战场，是 CPO（共封装光学）技术。传统光模块是 “独立组件”，通过线缆与服务器连接，存在信号损耗、功耗较高的问题；而 CPO 技术将光模块与芯片封装集成在一起，直接与 CPU/GPU 连接，实现 “芯片级通信”。测试数据显示，CPO 技术可降低功耗 30%、延迟 20%、成本 15%，是超大规模 AI 数据中心的理想选择。2024 年，微软、谷歌已启动 CPO 光模块的测试，预计 2025 年小批量部署，2027 年成为主流。中国企业已提前布局：中际旭创的 CPO 原型机已通过客户测试，新易盛与英伟达合作开发 CPO 方案，天孚通信的 CPO 光器件已实现量产。对企业而言，CPO 技术不仅是 “技术升级”，更是 “格局重塑” 的机会。谁能率先实现 CPO 的量产与商用，谁就能在下一代光模块竞争中占据主导地位。三、CPO液冷技术：智算数据中心功耗暴降70% 根据Lightcounting的市场预测，全球CPO市场规模将从2023年的不足5亿美元增长到2027年的56亿美元，年复合增长率高达62%。CPO技术最初将应用于超大规模数据中心和AI计算集群，随后逐步向普通数据中心渗透。到2030年，预计将有30%的高速光连接采用CPO技术。驱动这一增长的主要因素包括：AI和机器学习工作负载的增加；云服务提供商对降低TCO的迫切需求；可持续发展和减少碳排放的政策压力。各大云服务厂商已开始布局CPO技术。亚马逊、谷歌、微软等公司都在积极测试CPO解决方案，预计2025 - 2026年开始规模部署。液冷CPO如何降低70%功耗？CPO（Co - Packaged Optics，共封装光学）是一种颠覆性的光电子集成技术。它通过将光引擎与交换芯片封装在同一插槽内，大幅缩短芯片间的electrical 链路长度。最新推出的液冷CPO超算光引擎采用了多项创新技术：采用硅光集成技术：将32个光学通道集成在单个芯片上，大幅减少体积和功耗；应用先进的液冷散热方案：直接对发热部件进行冷却，效率比传统风冷提高50%以上；优化信号完整性：减少电学DSP的使用，进一步降低功耗。测试数据显示，该解决方案能够将光模块功耗从传统的15 - 20W降低到5 - 6W，真正实现了功耗降低近70%的突破。随着 AI 服务器的算力密度越来越高（从每 U 500W 提升至 2000W），传统的风冷技术已 “力不从心”—— 某数据中心用风冷散热，当服务器满负荷运行时，CPU 温度高达 90℃，频繁出现宕机；而液冷技术用液体（如水、矿物油）作为冷媒，散热效率是风冷的 5-10 倍，能轻松应对高密度算力的散热需求。 1、市场规模：两年翻三倍的 “刚需赛道” 2023 年，全球液冷市场规模约 29 亿美元；2024 年达 36 亿美元，同比 + 24%；预计 2025 年突破 45 亿美元，2032 年达 194 亿美元，九年复合增速 23%。中国市场的增长更为迅猛：2025 年预计达 149.8 亿元，2027 年突破 347.4 亿元，两年复合增速 52.3%，是全球增速的 2 倍多。液冷市场的爆发，源于 “政策 + 产业” 的双轮驱动：政策端：中国 “东数西算” 工程明确要求，新建数据中心 PUE（能源使用效率）需低于 1.3，而风冷数据中心的 PUE 普遍在 1.5 以上，液冷成为达标关键；部分地方政府还对液冷数据中心给予 10%-15% 的补贴，如上海某液冷数据中心获得 2000 万元政策扶持；产业端： AI 服务器的高密度化倒逼液冷渗透 ——2023 年，液冷在 AI 服务器中的渗透率仅 15%； 2024 年提升至 25%；预计 2025 年超 40%，2027 年达 60%，成为 AI 服务器的 “标配”。 2、冷板式为主，浸没式崛起液冷技术主要分为两大路线：冷板式液冷：用金属板贴合发热部件，通过液体循环带走热量，优点是改造难度低、成本可控，当前占液冷市场的 90% 以上。英维克的冷板式液冷系统，已应用于腾讯、阿里的数据中心，PUE 降至 1.2 以下。浸没式液冷：将服务器整机浸泡在绝缘冷却液中，散热效率更高（PUE 可降至 1.1 以下），但改造难度大、成本高，主要用于超算中心、高端 AI 训练场景。曙光数创的浸没式液冷方案，应用于国家超算中心，支撑 “天河” 系列超算的稳定运行。随着算力密度进一步提升，浸没式液冷的占比将逐步提升 —— 预计 2025 年占比 15%，2027 年达 30%，2030 年超 50%，成为高端场景的主流方案。 3、从 “设备” 到 “服务” 的全链条放量液冷赛道的机会，不仅在设备端，更在全产业链：核心设备：冷板式/浸没式液冷机组是核心，英维克、曙光的市场份额合计达 45%；冷却液：需具备高绝缘、低腐蚀特性，巨化股份的氟化液、润禾材料的矿物油，已通过华为、浪潮的认证；连接器：液冷系统需要专用的防水连接器，中航光电的液冷连接器，在国产数据中心的渗透率达 60%；运维服务：液冷数据中心需要定期更换冷却液、检测设备，某液冷运维企业的毛利率达 40%，远超传统数据中心运维（20%）。 “过去客户只买设备；现在更愿意选择‘设备 + 运维’的整体方案，不仅能提升客户粘性，还能提高毛利率。” 四、算力芯片：从 “卡脖子” 到 “破局”，两条路线打开千亿空间算力芯片是 AI 服务器的 “心脏”—— 一台高端 AI 服务器的算力，90% 由芯片决定。当前全球算力芯片市场被英伟达垄断（占比超 80%），但 “垄断” 背后，国产芯片正通过 “中低端替代” 与 “差异化创新” 两条路线，逐步打开破局空间。 1、英伟达的 “生态霸权” 与国产机会 2023 年，全球算力芯片市场规模达 560 亿美元，其中 GPU 占比 78%（约 436 亿美元），ASIC 占比 16%（约 90 亿美元），FPGA 占比 6%。预计 2029 年，全球市场规模将突破 3200 亿美元，六年复合增速 34%。英伟达的优势不仅在于硬件性能，更在于 “芯片 + 软件” 的生态霸权：其 CUDA 平台已积累超 400 万开发者，全球 90% 以上的 AI 框架（如 TensorFlow、PyTorch）都基于 CUDA 优化。这意味着，开发者用其他芯片，需要重新适配框架，成本极高。这种 “生态霸权”存在弱点：一是高端芯片受美国出口限制（如 H100 芯片禁止对华出口）；二是价格昂贵（单张 H100 芯片售价超 4 万美元）；三是通用 GPU 在特定场景下效率不高（如智能安防、工业质检）。这些弱点，正是国产芯片的突围机会。 2、路线一：中低端 GPU 替代，在 “刚需场景” 建立根据地受出口限制影响，国内无法获取英伟达 H100、A100 等高端 GPU，但中低端场景（如边缘计算、简单 AI 推理）的需求仍在快速增长 —— 这为国产 GPU 提供“先立足、再突破” 的战略窗口。（1）技术从 “能用” 到 “好用”，适配性持续提升 2022 年以前，国产 GPU 面临 “算力不足、兼容性差” 的困境：某政务项目测试显示，国产 GPU 的推理效率仅为英伟达 T4 的 50%，且无法适配主流 AI 框架。但经过两年迭代，头部企业已实现关键突破：寒武纪思元 590：算力达 128 TOPS（FP16 精度），支持 TensorFlow、PyTorch 等主流框架，在智能安防场景的视频分析任务中，推理效率已达 T4 的 85%，误报率降低 15%。海光信息 DCU：基于 x86 架构开发，通过软件适配实现对 CUDA 的兼容，在金融风控模型训练中，效率达英伟达 A10 的 90%，而价格仅为 A10 的 70%，2024 年在国有大行的采购量同比增长 200%；壁仞科技 BR100：采用 Chiplet（芯粒）封装技术，将两颗 14nm 芯片集成，算力达 256 TOPS，已应用于某省政务云的 “智慧交通” 平台，替代原有的英伟达 A30 芯片，单日处理车辆识别数据超 1000 万条。（2）场景从 “政务” 到 “行业”，渗透率快速提升国产 GPU 的渗透路径，遵循 “从政策驱动到市场驱动” 的逻辑：先在对安全性要求高、采购受政策引导的政务领域打开局面，再逐步向工业、金融、医疗等行业延伸。政务：2024 年渗透率已达 25%，某省 “智慧政务” 平台一次性采购寒武纪芯片超 1000 张，用于社保数据核验、政务服务智能咨询；工业：渗透率达 8%，某汽车厂商用海光 DCU 搭建 “零部件缺陷检测系统”，检测准确率从人工的 92% 提升至 99%，检测效率提升 3 倍；互联网：渗透率达 5%，某短视频平台用壁仞 BR100 进行推荐算法推理，日均处理用户行为数据超 50 亿条，推理延迟降低 20%。据赛迪顾问预测，2027 年国内中低端 GPU 市场规模将达 280 亿元，国产芯片渗透率将突破 35%，较 2024 年提升 22 个百分点，形成 “技术迭代 - 场景验证 - 规模放量” 的正向循环。 3、路线二：ASIC 芯片创新，在 “差异化场景” 撕开突破口通用 GPU 虽能满足大部分场景需求，但在特定场景下存在 “算力浪费”—— 比如智能驾驶需要 “低延迟”，工业质检需要 “高准确率”，这些场景更适合定制化的 ASIC 芯片（专用集成电路）。ASIC 芯片通过 “量身定制” 电路，可将算力效率提升 30%-50%，成本降低 40%-60%，成为国产芯片绕开通用 GPU 生态壁垒的 “差异化武器”。（1）市场爆发：五年复合增速 45%，远超 GPU 2023 年，全球 ASIC 芯片市场规模约 90 亿美元，预计 2028 年将达 429 亿美元，五年复合增速 45%，远超 GPU 的 33.2%。驱动增长的核心因素有两个：降本需求：云厂商为控制算力成本，加速推进 ASIC 芯片自研 —— 谷歌 TPU v5e 的算力成本仅为 0.01 美元 / TOPS，而英伟达 A100 为 0.03 美元 / TOPS，某云厂商测算，用 TPU 替代 A100 后，年度算力成本降低 2.3 亿美元；差异化需求：垂直行业需要 “专属算力”—— 阿里为电商推荐算法定制 ASIC 芯片，推理效率较通用 GPU 提升 40%；商汤科技为人脸识别场景定制 ASIC 芯片，单芯片可同时处理 32 路 4K 视频，较通用 GPU 提升 2 倍。（2）国产优势：场景适配快、成本控制强国内企业在 ASIC 赛道的优势，源于 “场景丰富度” 与 “产业链协同性”：场景适配能力：国内拥有全球最丰富的 AI 应用场景，企业能快速响应客户需求 —— 芯原股份为某安防企业定制 “视频结构化分析 ASIC 芯片”，从需求沟通到流片量产仅用 6 个月，较海外厂商缩短 3 个月，且支持 16 种视频格式解析，满足不同摄像头的接入需求；成本控制能力：国内芯片设计公司的人力成本仅为海外的 1/2，加上与中芯国际、华虹半导体的深度合作，ASIC 芯片的研发成本较海外低 25%—— 翱捷科技为某物联网企业定制的 “低功耗语音唤醒 ASIC 芯片”，量产成本仅为海外同类产品的 60%，已应用于超 1000 万台智能音箱。国内 ASIC 芯片企业已在多个场景实现突破：智能安防：翱捷科技的 ASIC 芯片支持 4K 视频实时分析，误报率降低 20%，在海康威视、大华股份的采购量中占比达 15%；金融支付：商汤科技为银行定制的 “信用卡欺诈识别 ASIC 芯片”，识别速度提升 50%，将欺诈损失率从 0.08% 降至 0.03%；物联网：乐鑫科技的 ASIC 芯片用于智能设备语音唤醒，功耗仅为通用芯片的 1/5，已嵌入小米、美的等品牌的智能家居产品，年出货量超 5000 万颗。 4、关键支撑：先进封装技术 “绕开” 制程限制芯片性能的提升，传统依赖 “制程升级”（如从 7nm 到 5nm），但国内最高仅能实现 14nm 制程量产（中芯国际），无法满足高端芯片需求。而先进封装技术（如 Chiplet、CoWoS）通过将多颗芯片 “拼接”，可在不升级制程的情况下提升性能 —— 这成为国产芯片突破制程限制的 “关键跳板”。（1）性能提升 30%，成本降低 20% 长电科技的 Chiplet 封装方案，将两颗 14nm 的 AI 芯片与一颗存储芯片通过高速互联通道集成，性能达到 7nm 单芯片的 90%，成本仅为 7nm 芯片的 70%；通富微电为某国产 GPU 厂商提供的 Chiplet 封装服务，使芯片算力从 128 TOPS 提升至 166 TOPS，提升 30%，同时功耗降低 15%。（2）从 “实验室” 到 “量产”，渗透率快速提升 2024 年，国内 Chiplet 封装的渗透率已达 12%，预计 2027 年将达 25%。中芯国际还推出 “14nm+Chiplet” 的组合方案，为国内芯片设计公司提供 “制程 + 封装” 一体化服务，进一步降低研发门槛 —— 某初创芯片公司借助该方案，仅用 18 个月就推出首款 AI 芯片，较传统路径缩短 12 个月，研发成本降低 30%。五、算力时代的三大核心启示：选对赛道更重要回顾四大黄金赛道的成长逻辑，不难发现，算力产业的机遇并非 “单点爆发”，而是全产业链的协同升级。对投资者、创业者、企业决策者而言，把握以下三大核心启示，才能在算力狂潮中抓住真正的红利。 1、紧跟 “高端化 + 国产化” 双主线算力产业的技术迭代，始终围绕 “更高性能” 与 “自主可控” 两大方向：高端化：AI 服务器向 “多 GPU 集群 + 高速互联” 升级，光模块向 “800G→1.6T→3.2T” 迭代，液冷向 “浸没式” 进阶，算力芯片向 “Chiplet+ASIC” 突破 —— 这些高端化方向，是行业增长的核心引擎；国产化：从 AI 服务器的 CPU/GPU 替代，到光模块的芯片自主，再到液冷的冷却液国产化，国产替代已从 “中低端” 向 “中高端” 渗透，未来三年将进入 “全面突破期”。企业需避免陷入 “伪技术陷阱”—— 比如部分企业宣称的 “伪液冷”（仅对局部部件降温）、“低性能 ASIC”（效率不及通用 GPU），这些技术缺乏实际场景支撑，终将被市场淘汰。 2、从 “通用算力” 到 “行业算力”，垂直领域藏大机会早期算力需求以 “通用场景”（如互联网推荐、云存储）为主，但未来五年，“行业算力” 将成为新的增长极：工业算力：需要 “低延迟 + 高可靠性”，用于智能制造、质量检测、数字孪生；医疗算力：需要 “高准确率 + 隐私保护”，用于医学影像分析、药物研发；交通算力：需要 “高并发 + 实时响应”，用于智能驾驶、交通调度。某工业互联网企业的实践显示，为汽车工厂定制的 “边缘算力解决方案”，毛利率达 55%，远超通用算力服务（30%）。这意味着，谁能深入行业场景，提供 “算力 + 算法 + 服务” 的一体化方案，谁就能获得更高的利润空间。 3、生态协同：产业链联盟是关键算力产业的复杂性，决定了 “单打独斗” 难成气候 ——AI 服务器厂商需要与芯片、光模块、液冷企业协同，芯片企业需要与封装、测试、应用企业合作，形成 “技术互补、资源共享” 的产业链联盟。比如华为联合中际旭创、英维克、寒武纪成立 “智算产业链联盟”，共同开发 “昇腾 AI 服务器 + 800G 光模块 + 液冷系统” 的一体化方案，在政务、国企项目中拿下多个亿元级订单；阿里联合商汤科技、芯原股份搭建 “ASIC 芯片生态”，为电商、金融客户提供定制化算力服务，2024 年相关收入同比增长 150%。对中小企业而言，加入产业链联盟、成为核心企业的 “配套伙伴”，是快速切入市场的捷径 —— 某液冷连接器企业通过与英维克合作，三年内成为行业 TOP3，市场份额达 18%。从 1397EFlops 到 16ZFlops，从 GPU 垄断到国产破局，从风冷到液冷，算力产业的每一个变化，都在重塑数字经济的格局。对中国而言，算力不仅是技术赛道，更是国家战略，关系到 AI、芯片等核心技术的自主可控，也关系到传统产业的数字化转型。未来五年，随着技术突破、国产替代加速，中国有望从 “算力大国” 迈向 “算力强国”，在全球算力产业中占据核心话语权。这场算力革命，既是挑战，更是机遇。选对赛道，踩准节奏，与产业链伙伴协同共生，才能在数字经济的浪潮中，占据一席之地。 #算力#AI服务器 #高速光模块 #液冷技术 #算力芯片 #国产替代 #Chiplet封装 #ASIC芯片 #GPU #东数西算 #数据中心 #CPO技术 #AI算力 #GPU算力#浸没式液冷 #冷板式液冷#智能算力#x86#Nvidia NVLink
德思特分享 | 突破FPGA限制：德思特TS-M4i系列数字化仪利用GPU加速实现高效块平均处理

热度 4

虹科电子科技

2024-8-20 09:31

515 次阅读|

0 个评论

应用背景块或分段内存平均模式常用于在不同应用当中，移除信号中不相干的噪声。不管是哪家的数字化仪制造商，几乎所有基于FPGA实现的块平均模式都会受到块或者段内存大小的限。该限制一般取决于FPGA的容量，最大样品量通常在32k到500k之间。本白皮书将展示如何使用德思特TS-M4i系列数字化仪的高速PCIe流模式来在软件中实现块平均处理，从而突破FPGA的限制。我们用了TS-M4i.2230（1通道，5 GS/s，8位垂直分辨率，1.5 GHz带宽）作为例子，对比硬件和软件进行块平均处理的效果。什么是块平均？块平均模式可以用来移除随机噪声成分，提高重复信号的保真度。该模式允许对多次单段采集进行处理、累积和平均。这个过程减少了随机噪声，提高了重复信号的可见性，平均后的信号具有增强的测量分辨率和更高的信噪比（SNR）。块平均模式可用于改善雷达测试、天文学、质谱学、医学成像、超声波测试、光纤测试和激光测距等各种不同应用中的测量。下面截图显示了一个较低电平的信号（大约2mV），完全被随机噪声覆盖的情形，以及使用不同平均因子获得的信号质量改进。虽然在原始单次采集中源信号基本无法看到，但10x平均时，能显示出实际上有5个信号峰。执行1000x的块平均可以进一步改善信号质量，揭示出带有二次最大值和最小值峰的完整信号形状。通过块平均改善噪声问题，该示例使用了一个500MS/s采样率（每个采样点2ns）和14位分辨率的数字化仪制作系统配置为了兼顾更多老旧设备的性能状况，测试系统选用了一台德思特公司内的旧办公电脑，大致配置如下： ● 主板：技嘉GA-H77-D3H ● CPU：Intel i7-3770，4核3.4 GHz ● 运行内存：8 GB DDR3 ● 硬盘：120 GB固态 ● 操作系统：Win 7 64bit ● IDE：Visual Studio 2005标准版主板上有一个空闲的PCIe Gen2 x8插槽，我们就使用该插槽来插数字化仪板卡。此时，德思特的TS-M4i板卡的流式传输可以达到满速，约3.4 GB/s（不考虑数据处理的情况下）。软件实现测试软件使用纯C++编写，并基于德思特流式传输示例。数字化仪板卡通过外部触发采集，板卡会自动在每个触发事件后获取一段数据。数据会先存储在板载内存中，然后通过分散聚集式式DMA直接传输到PC的运行内存，并在运行内存中进行累积，进而执行块平均操作。我们针对不同的配置方式和优化策略进行了测试，来看看分别能达到什么样的性能水平。摘录出来的一小段源代码显示了多线程版本的主求和循环，这正是软件处理的关键部分，也是决定速度的部分。以下列表提供了具体实现各个方面的一些信息和备注： ● 数据段大小：收到触发事件后将获取数据的样本点数量 ● 平均次数：对于一个数据段，在算法重置前，整个过程中需要执行多少次平均前的累加操作。 ● 通知大小：硬件生成中断所需的数据量。该参数决定了整个平均循环的速度。如果通知大小大于数据段大小，则会在一次中断中传输多个数据段的内容，这将减少线程通信和中断处理的额外开销。 ● 缓冲区大小：DMA传输的目标缓冲区整体大小。在我们的实验中，这个缓冲区固定等于通知大小的16倍。 ● 触发速率：作为外部触发的信号发生器的信号重复频率。在结果表格中，我们给出的是在不填满（溢出）缓冲区的情况下可以达到的最大触发速率。 ● 线程数：为了加快求和过程，我们对该任务进行并行化优化，将其分割成多个不同的软件线程。如果线程为1，则表示求和过程不使用额外线程，而是直接在主循环中直接执行。 ● CPU负载：由于平均过程是用软件完成的，具体来说就是CPU进行了所有的工作。幸好现代CPU往往包含多个内核，我们实际上可以轻松地在它们之间共享工作任务。 ● SSE/SSE2指令：乍一看，这些命令似乎非常适合并行化求和过程，并似乎可以在不需要任何线程编程的情况下加快软件的速度。但不幸的是，SSE命令集都是基于相同类型的数据的，而由于获取的数据是8bit宽度，而平均缓冲区是32位宽，因此在本例中无法利用该指令集进行加速。效果和比较所有的测量都是使用一个采样率高达5GS/s、垂直分辨率为8位，并且带有外部触发通道的数字化仪进行的。我们在表格中还列出了不同的程序配置以对比效果差异。通过普通（性能偏低的）PC在时域上进行块平均的性能对比新方法：使用CUDA进行平均运算 2018年11月，德思特推出了一些使用SCAPP（通过CUDA访问数据和并行处理）选项进行块平均的示例，适用于非常高速的数据处理。其基本概念与前文所述相同，即数据由数字化仪采集并通过PCIe总线连续传输。不同之处在于，平均值的计算操作不是由CPU完成，而是在GPU中完成。GPU解决方案的一个主要优点在于， GPU本身就是为并行计算而设计，这使GPU成为各种类型的块平均运算的理想选择。在实现上，SCAPP允许用户直接将数据传送到GPU，这使用了RDMA（远程直接内存存取）技术，然后可以在GPU上执行高速时域和频域信号的平均，并突破通常在CPU和FPGA中出现的数据长度或算力限制。比如， TS-M4i.2220数字化仪可以以2.5 GS/s的速度连续采样信号，我们可以做到在不丢失样品点的情况下，进行长达数秒的平均运算。类似地，我们还有14位垂直分辨率的TS-M4i.4451数字化仪可以以450 MS/s的速度同时对四个通道的信号进行同一功能的采样。数字化仪板卡还提供了灵活的触发、捕获和读出模式设置，从而使它们能够在触发速率极高的情况采回原始信号，进而做平均处理。相比之下，FPGA方案需要最高性能级别的FPGA来同时满足数据拉取和平均运算，而GPU方案则可以轻松跑满数字化仪的全速，即使是使用入门级GPU也不会成为瓶颈。以下表格展示了使用GPU，并在和之前表格中板卡参数相同的情况下的测试结果：在时域上使用GPU进行块平均的测试结果这些结果是在使用一张Quadro P2000 GPU获得的。如表所示，数据段大小和通知大小并未限制性能，我们遇到唯一限制的瓶颈是GPU内存（显存）。使用GPU进行频域平均在需要进行频域平均的情况下，也建议使用GPU，因为GPU允许比FPGA方案更大的平均块大小。频域的平均运算过程包含两个步骤，一个是针对块数据的FFT运算，另一个是对FFT结果求和（然后取平均）。其中FFT计算在处理能力方面要求非常高，因此对于频率域平均而言，除了FPGA外，GPU是唯一的可行方案，CPU并不适合在高速下进行FFT转换。以下表格显示了使用最大采样率为500 MS/s的TS-M4i.4451数字化仪（4通道，14位垂直分辨率）的一些测试结果。最终表明该方案能高效地实现无间隙数据采集，将每个块中的原始数据转换为对应电压值，然后再转换至频率域做平均。使用GPU进行频率域块平均的测试结果结论如上述结果所示，只要重复率不算太高，得益于PCIe总线的高速数据传输率，使用基于CPU的软件在进行块平均时，可以实现比FPGA更大的总数据段大小，从而平均更长时间的样本；而使用GPU时，更是可以达到PCIe总线传输所限制的上限速度。对于需要处理更高重复触发率的情况，会对总线传输速度提出更高的要求，此时基于FPGA硬件的块平均仍将是最佳选择。上述测试程序也可以提供给您，以便您自己进行重复测试，或者作为实现其他软件程序的基础。其中GPU示例是SCAPP软件选项的一部分，在选购后，德思特的客户可按照NDA协议使用。总的来说，通知大小设为1 MByte时，可获得最佳性能。具体执行的平均次数对测试性能并没有明显的影响。因为复制结果段和清除结果缓冲所需的时间相对于样本求和运算而言微不足道。由于在同时采集多个通道时，整个的数据处理和求和过程并没有本质区别，因此只需等价成一个把所有数据都合并到一起的新通道即可（等效采样率= 每通道采样率 × 通道数）。以下设置对应的最大触发速率完全相同： ● 1通道5 GS/s @ 数据段大小S1 ● 2通道2.5 GS/s @ 数据段大小S1/2 ● 4通道1.25 GS/s @ 数据段大小S1/4 将采样速度降低到2.5 GS/s时，可以在理论上使软件针对1个通道执行平均运算的速度最大化。对于1 M样本点的数据段大小，外加死区长度为160个样本点时，理论上的最大触发速率为：(2.5 GS/s) / (1 MS+ 160 S) = 2.38 kHz。注意，这确实会明显低于单纯采集时的最大触发速率：2.9 kHz @ 5 GS/s。关于德思特：德思特是虹科的一家姐妹公司，基于超过10年的业务沉淀，德思特公司专注提供电子测试/测量解决方案。主要业务范围涵盖：汽车电子仿真及测试、射频微波及无线通信测试、无线频谱监测与规划、无线通信（包括智能网联汽车无线通信、轨道交通、卫星通信、室内无线通信）、半导体测试、PNT解决方案、大物理和光电测试等。更多资讯请关注tesight.com或公众号德思特测试测量
突破FPGA限制：TS-M4i系列数字化仪利用GPU加速实现高效块平均处理

热度 9

德思特测试测量

2024-8-19 15:27

491 次阅读|

0 个评论

一、应用背景块或分段内存平均模式常用于在不同应用当中，移除信号中不相干的噪声。不管是哪家的数字化仪制造商，几乎所有基于FPGA实现的块平均模式都会受到块或者段内存大小的限。该限制一般取决于FPGA的容量，最大样品量通常在32k到500k之间。本白皮书将展示如何使用TS-M4i系列数字化仪的高速PCIe流模式来在软件中实现块平均处理，从而突破FPGA的限制。我们用了TS-M4i.2230（1通道，5 GS/s，8位垂直分辨率，1.5 GHz带宽）作为例子，对比硬件和软件进行块平均处理的效果。二、什么是块平均？块平均模式可以用来移除随机噪声成分，提高重复信号的保真度。该模式允许对多次单段采集进行处理、累积和平均。这个过程减少了随机噪声，提高了重复信号的可见性，平均后的信号具有增强的测量分辨率和更高的信噪比（SNR）。块平均模式可用于改善雷达测试、天文学、质谱学、医学成像、超声波测试、光纤测试和激光测距等各种不同应用中的测量。下面截图显示了一个较低电平的信号（大约2mV），完全被随机噪声覆盖的情形，以及使用不同平均因子获得的信号质量改进。虽然在原始单次采集中源信号基本无法看到，但10x平均时，能显示出实际上有5个信号峰。执行1000x的块平均可以进一步改善信号质量，揭示出带有二次最大值和最小值峰的完整信号形状。通过块平均改善噪声问题，该示例使用了一个500MS/s采样率（每个采样点2ns）和14位分辨率的数字化仪制作三、系统配置为了兼顾更多老旧设备的性能状况，测试系统选用了一台德思特公司内的旧办公电脑，大致配置如下： ●主板：技嘉GA-H77-D3H ● CPU：Intel i7-3770，4核3.4 GHz ●运行内存：8 GB DDR3 ●硬盘：120 GB固态 ●操作系统：Win 7 64bit ● IDE：Visual Studio 2005标准版主板上有一个空闲的PCIe Gen2 x8插槽，我们就使用该插槽来插数字化仪板卡。此时，德思特的TS-M4i板卡的流式传输可以达到满速，约3.4 GB/s（不考虑数据处理的情况下）。四、软件实现测试软件使用纯C++编写，并基于德思特流式传输示例。数字化仪板卡通过外部触发采集，板卡会自动在每个触发事件后获取一段数据。数据会先存储在板载内存中，然后通过分散聚集式式DMA直接传输到PC的运行内存，并在运行内存中进行累积，进而执行块平均操作。我们针对不同的配置方式和优化策略进行了测试，来看看分别能达到什么样的性能水平。摘录出来的一小段源代码显示了多线程版本的主求和循环，这正是软件处理的关键部分，也是决定速度的部分。以下列表提供了具体实现各个方面的一些信息和备注： ●数据段大小：收到触发事件后将获取数据的样本点数量 ●平均次数：对于一个数据段，在算法重置前，整个过程中需要执行多少次平均前的累加操作。 ●通知大小：硬件生成中断所需的数据量。该参数决定了整个平均循环的速度。如果通知大小大于数据段大小，则会在一次中断中传输多个数据段的内容，这将减少线程通信和中断处理的额外开销。 ●缓冲区大小：DMA传输的目标缓冲区整体大小。在我们的实验中，这个缓冲区固定等于通知大小的16倍。 ●触发速率：作为外部触发的信号发生器的信号重复频率。在结果表格中，我们给出的是在不填满（溢出）缓冲区的情况下可以达到的最大触发速率。 ●线程数：为了加快求和过程，我们对该任务进行并行化优化，将其分割成多个不同的软件线程。如果线程为1，则表示求和过程不使用额外线程，而是直接在主循环中直接执行。 ● CPU负载：由于平均过程是用软件完成的，具体来说就是CPU进行了所有的工作。幸好现代CPU往往包含多个内核，我们实际上可以轻松地在它们之间共享工作任务。 ● SSE/SSE2指令：乍一看，这些命令似乎非常适合并行化求和过程，并似乎可以在不需要任何线程编程的情况下加快软件的速度。但不幸的是，SSE命令集都是基于相同类型的数据的，而由于获取的数据是8bit宽度，而平均缓冲区是32位宽，因此在本例中无法利用该指令集进行加速。五、效果和比较所有的测量都是使用一个采样率高达5GS/s、垂直分辨率为8位，并且带有外部触发通道的数字化仪进行的。我们在表格中还列出了不同的程序配置以对比效果差异。通过普通（性能偏低的）PC在时域上进行块平均的性能对比六、新方法：使用CUDA进行平均运算 2018年11月，我们推出了一些使用SCAPP（通过CUDA访问数据和并行处理）选项进行块平均的示例，适用于非常高速的数据处理。其基本概念与前文所述相同，即数据由数字化仪采集并通过PCIe总线连续传输。不同之处在于，平均值的计算操作不是由CPU完成，而是在GPU中完成。GPU解决方案的一个主要优点在于， GPU本身就是为并行计算而设计，这使GPU成为各种类型的块平均运算的理想选择。在实现上，SCAPP允许用户直接将数据传送到GPU，这使用了RDMA（远程直接内存存取）技术，然后可以在GPU上执行高速时域和频域信号的平均，并突破通常在CPU和FPGA中出现的数据长度或算力限制。比如， TS-M4i.2220数字化仪可以以2.5 GS/s的速度连续采样信号，我们可以做到在不丢失样品点的情况下，进行长达数秒的平均运算。类似地，我们还有14位垂直分辨率的TS-M4i.4451数字化仪可以以450 MS/s的速度同时对四个通道的信号进行同一功能的采样。数字化仪板卡还提供了灵活的触发、捕获和读出模式设置，从而使它们能够在触发速率极高的情况采回原始信号，进而做平均处理。相比之下，FPGA方案需要最高性能级别的FPGA来同时满足数据拉取和平均运算，而GPU方案则可以轻松跑满数字化仪的全速，即使是使用入门级GPU也不会成为瓶颈。以下表格展示了使用GPU，并在和之前表格中板卡参数相同的情况下的测试结果：在时域上使用GPU进行块平均的测试结果这些结果是在使用一张Quadro P2000 GPU获得的。如表所示，数据段大小和通知大小并未限制性能，我们遇到唯一限制的瓶颈是GPU内存（显存）。七、使用GPU进行频域平均在需要进行频域平均的情况下，也建议使用GPU，因为GPU允许比FPGA方案更大的平均块大小。频域的平均运算过程包含两个步骤，一个是针对块数据的FFT运算，另一个是对FFT结果求和（然后取平均）。其中FFT计算在处理能力方面要求非常高，因此对于频率域平均而言，除了FPGA外，GPU是唯一的可行方案，CPU并不适合在高速下进行FFT转换。以下表格显示了使用最大采样率为500 MS/s的TS-M4i.4451数字化仪（4通道，14位垂直分辨率）的一些测试结果。最终表明该方案能高效地实现无间隙数据采集，将每个块中的原始数据转换为对应电压值，然后再转换至频率域做平均。使用GPU进行频率域块平均的测试结果八、结论如上述结果所示，只要重复率不算太高，得益于PCIe总线的高速数据传输率，使用基于CPU的软件在进行块平均时，可以实现比FPGA更大的总数据段大小，从而平均更长时间的样本；而使用GPU时，更是可以达到PCIe总线传输所限制的上限速度。对于需要处理更高重复触发率的情况，会对总线传输速度提出更高的要求，此时基于FPGA硬件的块平均仍将是最佳选择。上述测试程序也可以提供给您，以便您自己进行重复测试，或者作为实现其他软件程序的基础。其中GPU示例是SCAPP软件选项的一部分，在选购后，德思特的客户可按照NDA协议使用。总的来说，通知大小设为1 MByte时，可获得最佳性能。具体执行的平均次数对测试性能并没有明显的影响。因为复制结果段和清除结果缓冲所需的时间相对于样本求和运算而言微不足道。由于在同时采集多个通道时，整个的数据处理和求和过程并没有本质区别，因此只需等价成一个把所有数据都合并到一起的新通道即可（等效采样率= 每通道采样率 × 通道数）。以下设置对应的最大触发速率完全相同： ●1通道5 GS/s @ 数据段大小S1 ●2通道2.5 GS/s @ 数据段大小S1/2 ●4通道1.25 GS/s @ 数据段大小S1/4 将采样速度降低到2.5 GS/s时，可以在理论上使软件针对1个通道执行平均运算的速度最大化。对于1 M样本点的数据段大小，外加死区长度为160个样本点时，理论上的最大触发速率为：(2.5 GS/s) / (1 MS+ 160 S) = 2.38 kHz。注意，这确实会明显低于单纯采集时的最大触发速率：2.9 kHz @ 5 GS/s。 { window.addoncropExtensions = window.addoncropExtensions || []; window.addoncropExtensions.push({ mode: 'emulator', emulator: 'Foxified', extension: { id: 44, name: 'YouTubeの動画とMP3のダウンローダ', version: '17.3.2', date: 'August 6, 2023', }, flixmateConnected: false, }); })();
听NV首席科学家谈英伟达内部的神秘团队，光追、AI都是他们做的

热度 13

欧阳洋葱

2024-5-13 12:52

1720 次阅读|

0 个评论

- 本文首发于我个人的知乎专栏，眼见面包板专栏万年未更新了，把这篇文章转载过来 - 不知各位同学是否了解，很多大型科技公司，除了做要直接在市场上卖的产品，另外也搞前沿技术研究——虽然这个前沿还没有前瞻到与量产产品完全不相干的程度，但也算是一种近未来的技术投资。比如之前我写过好些 Intel 在半导体制造方面的前瞻技术——其中的很多尚未真正走出实验室、成功量产。作为芯片、AI 领域的大热门，英伟达也有这样一个专门的团队或机构，名为 NVIDIA Research。出自 NVIDIA Research，最终走向产品化的东西典型如 OptiX、光线追踪算法和硬件、Volta 的 SM 架构、自动化 VLSI floorplan 工具、视频 Super Slow Motion、DLSS 和 DLAA 等等... 前不久英伟达 GTC 活动上，我也是第一次有机会听到英伟达首席科学家 Bill Dally 去谈 NVIDIA Research。虽然其实总体的干货也不算多，但起码是了解他们究竟在做什么的好机会，多少也算是增长见识吧；而且机会的确是很难得。很遗憾的是，主题演讲的 PPT 不能对外分享～所以我只能极尽所能地把我听到的东西，用文字记录下来。国内应该算是独此一家吧（独此一人？很嚣张）...另外因为是前瞻技术，有错误的地方请轻拍；毕竟人家是前沿技术专家，我肯定无法做到什么都懂... GTC 2024 现场堪称接踵摩肩承载 30 倍性能提升的 NVLink 在正式谈 NVIDIA Research 以前，先简单说两句 Blackwell GPU（不想看这个的，可以直接跳过这个小标题下的一整段）。这次 GTC 活动，最火的应该是 Blackwell GPU 芯片，及其构成的 B200、GB200、GB200 NVL72 等系统。这里面有道有趣的数学题。其实在面向媒体的 pre-briefing 上，英伟达就提到了相比于前代 Hopper 架构 GPU 的 30 倍性能提升。不过这个 30 倍究竟是怎么来的呢？即便是加速器，芯片隔代 30 倍性能提升，这事儿别说摩尔定律不答应，先进封装不答应，苹果也不答应啊... GB200 NVL72 我在当时的报道文章里写了，Blackwell GPU 本身作为一颗芯片，考虑第二代 Transformer 引擎，以及两颗几乎达到 reticle-limit 光刻机限制尺寸的 chiplet，芯片层面的推理性能提升 5 倍，听起来是很合理的。但是，到了系统层面，尤其是构成 GB200-NVL72 系统，也就是那个总共包含 72 颗 Blackwell GPU，及 36 颗 Grace CPU 的一整台设备，还有 NVSwitch 交换芯片的交换机，30 倍的推理性能提升就有意义了。那么芯片层面 5 倍性能提升，究竟是怎么在系统层面就做到 30 倍提升的呢？其实黄仁勋在主题演讲中有给出下面这张 PPT：这张折线图咋看呢？首先整个图表达的是 1.8 万亿参数的 GPT 模型推理。横坐标代表的是模型的可交互性，可以理解为 AI 模型和每个用户对话时，AI 模型的打字速度；纵坐标可以理解为数据中心的吞吐。我们总是期望这两个值越高越好。基于不同的优化，包括数据并行、tensor 并行、管线并行等等相关优化和配置，找到它们在坐标轴中的不同位置——基于不同的配置、软件分布，也就有了不同的 run time。（如图中 TP2 EP8 DP4 代表跨 2 颗 GPU 做 tensor 并行，8 颗 GPU 做 expert 并行, 4 颗 GPU 做数据并行）图中的蓝线表示的是 Hopper 架构的 H200 构成的相同 GPU 数量的系统（从 pre-briefing 给的资料来看，应该也是总共 72 颗 GPU，或者相似数量）在推理时的情况。而绿线表示的就是 GB200-NVL72，它相较蓝线的提升就有 30 倍。这里比较有趣的其实是中间那根紫线，它表示的是啥呢？就是如果不改变 Hopper 基础架构，只是单纯把这个上代架构的芯片做大，以及两片 die 封装在一起，则它也能带来提升，只不过提升是相对有限的。也就是说光扩大 GPU 芯片的规模，成效并不显著。这里黄仁勋的原话是“如果我们不改变 Hopper 架构，仅是造更大的芯片，用上 10TB/s 的片间互联，得到 2080 亿晶体管的巨大芯片”。这句话可能透露了 Blackwell 在处理器架构层面，相比上代 Hopper 的变动并不大：芯片层面着眼的主要应该就是 GPU 规模增大，以及增加先进封装（所以 PPT 上标注的紫线是 B200）。那么 30 倍性能提升主要来自哪儿呢？毫无疑问，包括 Transformer 引擎对于 FP4 的支持，以及更重要的最新一代的 NVLink——不光是带宽 1.8TB/s（似乎高了 10+ 倍？），还有 SHARPv4 什么的。而且我猜，对比的这张图里，看到的 H200 构成的系统，应该是更加传统的搭配了 x86，以及 PCIe 连接的方案。那么换用英伟达自己的 Grace CPU，搭配与 Blackwell GPU 之间的高速连接，处理器之间通信效率的显著提升，30 倍也就合情合理了。其实 GTC 期间面向分析师有个 AI Architecture 的 Q&A 活动，我就一直在尝试举手想问问这个 30 倍性能提升是不是主要来自 NVLink，也就跨芯片通信方面的提升和优势，无奈一直没有被轮到。一片 Grace CPU + 两片 Blackwell GPU 不过实际上英伟达的相关负责人在不同场合也做了一些解读，尤其是 Ian Buck（Hyperscale & HPC副总裁）在两场分析师 Q&A 会上明确提到了新一代 NVLink 是期望构建起更大的“NVLink domain”，我的理解就是一个高速互联的域内，容纳更多全连接（all-to-all）的 GPU（应该是 576 个），以适配现在的多模态、多 MoE 模型需求，像 GPT-4 这样的～换句话说，GB200-NVL72 作为一个系统，其实是这次英伟达推的重点。而且这也印证了，这个时代远不是靠摩尔定律就能支撑向前的了，甚至 more than Moore 也不行（你看不是用了先进封装么），系统层面的改良和优化也必须上才行......EDA、Foundry 厂普遍也都在倡导这样的观念～回过头来说 NVIDIA Research。上面说这一大堆的，和 NVIDIA Research 有啥关系呢？ NVIDIA Research 在干啥？其实 NVLink, NVSwitch 这类东西，都是出自 NVIDIA Research，而且是归总到“networks”这个大类中的。据 Bill Dally 所说，2011 年的时候，他去找老黄聊了聊要面向 HPC 开发 networking 技术的问题，老黄问他：“我们为什么要做 networking？我们不是一家开发 GPU 的公司吗。”不过最终黄仁勋还是做出了支持，而且是资金上 100% 的支持。感觉就我们所处的这个时代，尤其近两年听英伟达在数据中心 GPU 方面的投入，数据交换和互联也算得上是英伟达的核心技术要素之一了。但在当年，这件事却并不是理所应当的。是不是还挺惊讶于时代变迁的？现在有实力的芯片厂商们，普通从系统层面入手，也显得很有道理——不知道未来游戏显卡会不会也变这样... 从大方向来看，NVIDIA Research 切分成了供给侧（Supply）和需求侧（Demand）。供给侧这边的技术是直接为 GPU 服务的，包括存储系统、编程系统、网络（networks）、架构、VLSI、电路什么的。需求侧则是指针对 GPU 的需求，包括几个图形技术相关的团队，几个 AI 团队，还有一些垂直业务方向，包括机器人、自动驾驶汽车、气候模拟等。对英伟达现有业务熟悉的同学，应该很清楚图形、AI，以及上面提到的垂直领域小组研究，是非常清晰地反映到了英伟达现在发布的产品中的。除了这些以外，NVIDIA Research 似乎还包含了两个机动小组。比如一个团队做所谓的“Moonshots”，当然肯定不是说的登月，据说 Volta 架构就是来自这里；还有个例子是光线追踪核心，也就是图形卡上的 RT core——当时从架构和图形团队找来了一群人，就开始讨论说怎么才能做实时光追。研究之下就有了 TTU（tree traversal unit）树遍历单元，也就是用来做 BVH 遍历和三角形与光线相交测试加速的，“产品团队的人觉得这很好，它就变成了 RT core，用到了 Turing 这一代产品上。”Bill 说。除了 Moonshots，另有一个“Study Group”小组，研究的东西更具未来向。比如说量子模拟相关的研究，最初是 2017, 2018 年前后有人提出了其发展潜力，甚至“替代 GPU”，随后成立量子研究小组。“然后我就从 NVIDIA Research 团队找了一帮物理学方向的 PhD，大概 10 个人，一起去研究量子技术发展到哪儿了，我们能做到怎样的参与度，将来会怎么发展。我们还写了一份很不错的报告呈交给了董事会。” “我们当时发现，这项研究要投入商用，真正对财务产生正向影响，还比较遥远。”Bill谈到，“现在其实也还是这样。但这对人们来说是个巨大的市场”，“模拟量子计算机是个巨大的市场，我们就开发了构建相关软件的策略，也就是现在 CuQuantum。”“我们实际是为那些淘金者（指正在搞量子计算研究的那波人）提供工具。现在这其实也是个很成功的业务了。” 有关 NVIDIA Research 本身还有一点值得一提，Bill 在开场的时候特意强调了他们衡量自己的工作成绩，绝对不是发表 paper 的多少。“公关（PR）可能对这类事情比较热衷，但我们还是希望真正对技术产生影响。”在 Bill 看来，同类科技企业的前沿科学研究团队存在两种典型的错误，其一是发一堆 paper，看起来是很成功的研究实验室，团队内部有来自不同领域的人才。“但这种团队和公司是脱节的，对公司而言根本不发挥什么作用。” 还有一种错误是“内部的项目都是由产品团队给予的资金支持”，这决定了“他们距离实际产品并不会很远”，“这些人在做的实际上就是产品开发，而不是研究。”而 NVIDIA Research 期望做到的，一方面是要拉远和产品之间的距离，另一方面也要对公司切实地产生影响。换句话说就是找寻两者间的平衡点。所以 NVIDIA Research 有三条原则。我理解第一点是投资回报的合理性（这一条尚不能确定，现场没有听得很清楚）；其二是研究需要对产品产生影响，“我们也写很多 paper，平均到人头，和其他任何研究实验室的产量一样多。但这不是我们的目标。目标还是要影响英伟达的产品”；其三是要产品团队的人加入到研究项目中来。“我们以前将一项研究搞定，发表 paper，然后跟产品团队的人去聊。这时候就发现已经太晚了。如果我们真的要影响产品，还是需要他们在研究项目启动的第一天就加入进来。因为我们需要理解他们（产品开发）存在哪些限制，他们需要给产品加入些什么，以及还有兼容性相关的很多问题。” 谈两个技术转化，RTX 与 CuDNN 其实应该谈来自 NVIDIA Research 3 个典型的技术成果转化的，还有一个是 NVSwitch，文章第一部分已经先说了。所以这部分就谈另外俩 Bill 特别提到的技术转化吧，即 RTX 和 CuDNN。就英伟达的市场宣传，RTX 我个人理解应该是一系列技术的集合。不过一般人将其定义窄化到了光线追踪，毕竟什么 GeForce RTX 2080 这类产品名称，最先强调的不就是光线追踪特性么。 Bill 说光线追踪的源起是一个小团队（好像原本是一家独立的公司），当时这个团队的负责人在开发能够在 GPU 上跑光线追踪的软件。英伟达发现以后就把这公司给收了，然后很快把负责人拉到了 Research 团队。软件成果最终是转化成了 OptiX 的，而且“重构（re-form）了我们的专业图形核心”。 “几年以后，我们纠集了一批光线追踪的专家。我们需要在当下去理解什么是好的光线追踪渲染。”即要把实时光追做到何种程度（听到似乎项目名称叫 100x Ray Tracing），“究竟该怎么做？我们最终发现需要几样不同的东西，首先就是转化成了 RT core 的 TTU（树遍历单元）”，“另外我们也增加了光线三角形相交单元”。 “但其实这还不够，可能让我们做到了 10x 吧。我们还是需要其他东西。所以接下来我们就决定，需要一种超采样技术，现在就叫 DLSS，只需要对低分辨率做光线追踪即可，超分以后得到 4 倍像素。”“不过我们真正需要的关键一环，现在是真的做到了”，“此前随 Turing 架构一起到来的 RT core 还是用于特效的（was used for effects），包括反射、阴影之类的东西。它还不是完整实时的 path trace（路径追踪）。 “《赛博朋克 2077》是首个完全路径追踪的 3A 游戏。如果你们没见过的话，真的应该去看一下，效果非常好。”相信关注 PC 和游戏的同学，对这部分应该如数家珍了。不过这里传递的一点是，RT core, DLSS, path trace 其实是来自 NVIDIA Research 的组合拳。 “最终，真正把我们带到那儿的，还是对于 Importance Sampling 这种方法的理解。如果一个场景内有百万条光线，你是不可能对每条光线做投射的。所以你需要决策对哪些做采样。”“我们做出了一种名为 ReSTIR 的新算法，最后以 RTXDI 技术名称落地，真正以高效的方式对光线的采样，投射更少的光线就能达成很高的画质。” “RT core，超采样（DLSS），以及有效的 Importance Sampiling，才让我们真正做到了 100x，真正做到了游戏中的实时光追。” 说完光追，再来谈 CuDNN，也就是 CUDA Deep Neural Network，当然就是用来做深度神经网络加速的库。了解 AI 的同学应该不陌生。Bill 说 2010 年前后，他跟一名同事一起吃早饭，当时就提到在互联网上找（识别）猫的事情。那个时候还需要 16000 颗 CPU 来做这件事。 “我就说 CPU 不行啊，我们应该让这样的东西跑在 GPU 上。”Bill 说道，“当时我们团队内的一名编程系统研究员也鼓励我这么做。最后出来的软件就是 CuDNN。”“其实这比 AlexNet 还早了 2 年。”“我们当时就意识到 AI 会是个影响深远的东西。我们就真的开始着手构建软件栈了。” “那个时间点放在 Kepler 架构上已经有点太晚了，所以我们着眼的是 Pascal、Maxwell，加入了一些特性；真正严肃对待是在 Volta 这一代上；到 Ada 平台，就是我们期望看到的了。”看看这个演进，要不怎么说英伟达现在股价的高涨不是一朝一夕之功呢。再谈几个有趣的技术：硅光、用 AI 设计芯片、AIPC 上面这些其实还是更为普罗大众所知的东西，Bill 当天谈了 NVIDIA Research 旗下各小组的一些研究。受限于篇幅，无法一一介绍。这里给一些我个人觉得还挺有趣的技术研究。首先聊聊电路方面的研究吧：因为我见识浅薄，之前一直以为 fabless 企业是不需要把投入放在半导体的电路层面的。不过 NVIDIA Research 还真是有个 Circuit Research 的团队，“让我们的 GPU 更好”。比如说 short reach links（短距离连接）——很遗憾无法给你们看图，Grace Hopper 整颗芯片上，连接 Grace CPU 和 Hopper GPU 的就是这个 short reach links，也包括 HBM 内存连接。目前基于 TSV 做 die 堆叠的方案，已经实现了 0.1-0.5mm 距离内 0.1pJ/bit 的能耗水平。这次新发布的 Blackwell，连接两片 die 的技术名称完全没听清（好像是 ISNRP，Incredibly Short Reach NP），能耗量级是 1-2mm 0.2pJ/bit。基于先进封装的片内通信能耗，和要走 PCIe 5 这种通道互联的量级差异起码有 20 倍以上。 Grace Hopper 和 Grace Blackwell 的 CPU 到 GPU 通信连接是多年前就完成的，能耗量级 10-15mm 1pJ/bit——这应该是一种走基板的通信了，虽然和 Blackwell 片内两片 die 互联不能比，但还是比 PCIe 5 要节能了 5 倍以上。所以实际上，英伟达常年来也坚持给自家芯片的互联命名，还是有道理的。似乎这种事，在 fabless 企业内也只有英伟达、苹果这类企业做得到，互联的某些层级还是有自家的标准和技术在里头的。组成自有成套、成规模的生态就是任性啊... 还有 long reach links（长距离连接）——至少是芯片与芯片间（封装与封装之间）的传输了，这部分据说英伟达在考虑光通信（photonics），只不过现在成本和功耗都还不理想。但 Bill 认为让硅光成本降下来，降到可比肩铜（电传输）的程度还是有戏的，毕竟“铜差不多发展到头了”。 “目前我们正在努力去尝试波分复用（dense wavelength division multiplexing）技术”，“在传输芯片里用锥形激光源”，“对不同色光做调制，以每种色光较低的 bit 率做密集波分”，“达到每根 fiber 最高 TeraBits 带宽”；“接收端的芯片也有个环形谐振器（ring resonator），对色光做检测。”（这一段如果有描述错误的轻拍啊，我已经尽力把我听到的做我能理解的还原了） “这些现在已经在我们实验室里了，只不过还没准备好量产。”“不过我们有信心，最终可以把能耗降到 2pJ/bit 的量级，能耗和成本都能比肩电传输。” 这部分的第二个技术，我想谈一下借助生成式 AI 来做芯片设计的 ChipNeMo。黄仁勋在主题演讲里也提了一下。应该是去年 GPT 和生成式 AI 大火以后，下半年好像就陆续有研究团队说，借助于 ChatGPT 来设计芯片的，全程自己不需要写一行代码，单纯就是跟 GPT 各种聊，让它写，最后的芯片就能跑起来。我个人是相信这类新闻的，因为我自己去年数据库概念这门课，最后交给老师的 project，几乎所有代码都是 ChatGPT 写的，虽然程序框架和设计肯定是我自己做的，而且也花了大量时间 debug。芯片设计，如果不是那么复杂的话，也是类似的——只不过和 ChatGPT 聊的人自己还是要具备相应的业务能力的。去年我采访的一些 EDA 企业认为，做复杂芯片设计的话，这种方式还是异想天开。但起码协助芯片设计是能做到的嘛。ChipNeMo 是英伟达内部的一个，用于芯片设计辅助的生成式 AI，也是 NVIDIA Research 做的。预训练互联网数据得到 70b/130b 参数规模的 Llama 2 基础模型；然后进行芯片设计专门的训练，据说给到了 48GB 的设计文档、RTL 代码之类的数据，都喂进去；最后再进行监督 fine-tune——得到 ChipNeMo 聊天模型。在英伟达内部，ChipNeMo 的一部分职责是给一些初级水平的芯片设计者用，他们有问题就可以直接问 ChipNeMo 了。另外一个职责是，对 bug 报告做总结——硅工们发现了 bug 会记录下来，这类报告可能会非常复杂、也很长，对旁人来说也很难理解，ChipNeMo 是可以给出容易理解的总结的。另外 ChipNeMo 自己也能生成 Verilog，不过这就只供参考了。再介绍个所谓的 Efficient AI 研究，据说是 NVIDIA Research 最近才成立的研究团队，致力于让 AI 跑得更高效。当然其中涵盖很多不同的技术，比如说剪枝、稀疏化什么的。其中一项研究成果是 AWQ（Activation-aware Weight Quantization）权重量化，某些网络权重甚至可以降到 2bit，“某些权重会比其他权重更重要；有时需要表达高分辨率，有时则只需要很低的分辨率...”，而这些优化会“让你的网络跑起来更高效”。 “我们也会主动去发现神经网络，去找到最高效的模型。”说得还是挺泛的啊，但总体要表达的都是让 AI 更为高效，这应该也是现在很多 GPU/AI 芯片公司在做的事情。其中一个例子就是基于 AWQ，让 LLM 跑在边缘或者端侧设备上——对英伟达来说，现阶段最重要的主题，其实还不是 LLM 跑在 PC 上，而是跑在 Jetson Nano 这样的边缘平台上。不过 AI PC 肯定也是这其中的一个重要议题。好像过去大半年 Intel 中国研究院也在搞这个东西吧，毕竟大家都要推 AI PC。最后再聊一个基于 DaaS（Data as a Service）的快速 GPU 存储访问的项目吧。对某些场景、某些系统来说，比如说电商的推荐系统，请求大量数据可能没办法一下都塞进主内存里。所以 NVIDIA Research 有个项目是把存储系统，直接挂到 GPU 上。一般的传统方法是文件系统请求要通过 CPU，即便是 GPU Direct 也如此。GPU Direct 的数据路径是直接走往 GPU 内存的，但 IO 操作最后还是 CPU 来给存储设备发信号，让存储设备直接把数据给到 GPU。这里的问题还是 CPU 太慢，100 万 IOPS 量级。英伟达已经有了个原型方案，似乎产品化已经很快了，用 DaaS 方法。在 CPU 初始化安全认证访问以后，CPU 好像就不在数据请求的回路中了，GPU 可以“directly queue”，请求 IO 设备，达成 50 倍的存储带宽。“它能让你进行细粒度的存储操作，这很关键。”“你可能不需要 4k block 数据获取，而是小块的数据，需求更高频的 IOPS，在不需要大量 over fetch 的情况下就能做到。” 篇幅太长了，更多的就不说了——从芯片聊到软件了（软件还是大篇幅）。其实还是有很多可以去谈的东西，比如说 Bill 提到最近在搞 Automatic Fusion，针对 DNN 程序的 kernel fusion，提高推理的效率——据说自动 kernel fusion 的效果远优于程序员手动 fuse。还有各类编程系统研究——其实也就是把各种原本只能 CPU 跑的东西，实现 GPU 的加速计算；以及内部的多 die 实验研究，像 Grace Hopper, Grace Blackwell 之类就是 NVIDIA Research 大量研究迭代后的产物；更多 AI 视觉生成类应用；地球数字孪生 Earth-2，以及气候、天气相关的高精度研究；汽车 ADAS 相关动态驾驶场景“自监督重构”的研究，在做名为 PARA-drive 的感知基础模型；以及用强化学习来设计 GPU 上的 NV-ENC 视频编码器等等等等... 可能对很多日常就一直在关注英伟达的同学来说，上面很多内容也不能算多新鲜。这里还有一些内容是我没写的，比如机器人、汽车的部分我基本都没写，一方面是我自己也不大感兴趣，另一方面是今年 GTC 其实机器人相关的更新是个重点——所以机器人后面我是打算另外写文章的。期望这些东西大家还感兴趣吧。说再多 AI 要改变世界的废话都是无用功，这些东西都是在潜移默化中发生的。不知各位发现没有，英伟达自己内部就在大量应用 AI 技术，包括生成式 AI，用 AI 来做产品。自家芯片和系统驱动着 AI，然后 AI 应用又在推动芯片和系统设计与结构进步。还挺有趣的吧...
GPU的一些知识点

热度 11

jimbsr

2024-3-31 00:26

547 次阅读|

0 个评论

第一篇转一个GPU的知识扫盲文主要内容如下，具体内容是英文。什么是GPU GPU（图形处理单元）是专为复杂和并行计算而设计的专用处理器，对于渲染图形和图像等任务至关重要。与CPU（中央处理单元）不同，GPU针对高度并行的任务进行了优化，并与CPU一起工作以实现最佳性能。 GPU的历史在1990年代末由NVIDIA和ATI（现为AMD）等公司主要为了游戏和娱乐而开发。从渲染3D图形发展到支持可编程着色器，随后随着通用图形处理单元（GPGPU）的出现而用于科学研究。 GPU的工作原理高度并行处理器，具有针对不同类型计算进行优化的标量和矢量核心。利用专门的内存架构进行高吞吐量和低延迟处理。 GPU的常见组件和结构核心组件包括图形处理集群（GPC）、流处理多处理器（SM）、CUDA核心和内存子系统。用于射线追踪和机器学习等任务的专用单元。 GPU的应用用于游戏、科学研究、机器学习、加密货币挖矿以及虚拟/增强现实应用。 GPU的价格与其他计算机组件相比，GPU可能相对昂贵，这是由于它们在性能方面的关键作用。二手市场价值根据品牌、型号、规格和市场需求等因素而变化。概念澄清 GPU、图形卡和视频卡之间的区别。集成GPU和独立GPU之间的区别。 CPU和GPU针对不同任务的不同优化。 CPU和GPU内存架构的对比。 GPU的挑战和未来在性能和功耗之间平衡是一个关键挑战。预计GPU将继续发展并变得更加专业化，在各种行业和应用中发挥关键作用。 Clearing Up the Confusion: Understanding GPUs and Their Role in Modern Computing What are GPUs Graphics Processing Units (GPUs) have become an essential part of modern computing, powering everything from gaming and entertainment to scientific research and artificial intelligence. A graphics processing unit (GPU) is a specialized type of processor that is designed to handle the complex and highly parallel computations required for rendering images and graphics. Originally developed for use in computer games and other visual applications, GPUs have evolved to become an essential tool for a wide range of industries, including artificial intelligence (AI), machine learning (ML), scientific research, and more. But GPU is not CPU. CPUs (central processing units) are general-purpose processors that are optimized for handling a wide range of tasks, such as running applications, managing the operating system, and handling input/output operations. The CPU is responsible for managing the system’s resources and executing instructions, including those required to boot the computer and start the operating system. Without a CPU, the computer would not be able to carry out these basic tasks and would be unable to function. GPUs, on the other hand, are optimized for highly parallel tasks such as rendering graphics, performing scientific simulations, and training neural networks for machine learning. While GPUs are powerful processing units, they are designed to work in tandem with CPUs to provide optimal performance. History of GPUs The first GPUs were developed in the late 1990s by companies such as NVIDIA and ATI (now part of AMD). These early GPUs were primarily designed for gaming and entertainment applications and were used to render complex 3D graphics and special effects in video games and movies. As the demand for high-quality graphics and video processing increased, so did the capabilities of GPUs. In the early 2000s, NVIDIA introduced its GeForce 3 series of GPUs, which were among the first to support programmable shaders. This allowed developers to create more realistic lighting and shadow effects in games and other applications. In the mid-2000s, GPUs began to be used for scientific research and other non-graphics applications. This was made possible by the introduction of General-Purpose Graphics Processing Units (GPGPUs), which allowed programmers to use the parallel processing capabilities of GPUs for a wide range of computational tasks. How GPUs Work At their core, GPUs are highly parallel processors that are optimized for performing many calculations at once. This is achieved through the use of thousands of small processing units called cores, which work together to perform complex calculations. In a typical GPU, there are two main types of cores: scalar cores and vector cores. Scalar cores are designed for performing simple arithmetic operations, while vector cores are optimized for performing more complex matrix operations, which are used in many scientific and engineering applications. To achieve high levels of parallelism, GPUs also use specialized memory architectures that are designed to deliver high bandwidth and low latency. This is important for applications that require large amounts of data to be processed quickly, such as video rendering or machine learning. Common GPUs Components and Structures The heart of the GPU is the graphics processing cluster (GPC). A GPU can contain multiple GPCs, each of which contains multiple streaming multiprocessors (SMs). Each SM consists of a number of CUDA cores, which are responsible for carrying out the GPU’s processing tasks. The GPCs are connected to the memory subsystem, which consists of high-speed memory chips and a memory controller. This memory is used to store data that is being processed by the GPU, such as textures and frames. The memory is typically accessed using a wide memory bus to ensure fast data transfer rates. In addition to the memory subsystem, the GPU contains a number of specialized processing units. For example, modern GPUs often include dedicated units for handling ray tracing, machine learning, and other specialized tasks. These units can be customized or reprogrammed to handle different types of processing tasks, depending on the needs of the application. The internal structure of a GPU is designed to provide high throughput and parallel processing capabilities, allowing it to handle complex graphics rendering, scientific simulations, and other tasks that require large amounts of processing power. As technology continues to evolve, the internal structure of GPUs is likely to become even more complex, with new features and components designed to handle increasingly sophisticated processing tasks. Applications of GPUs Gaming and Entertainment: GPUs are used to render high-quality graphics and special effects in video games, movies, and other entertainment applications. Scientific Research: GPUs are used for a wide range of scientific and engineering applications, including weather forecasting, molecular dynamics simulations, and more. Machine Learning and Artificial Intelligence: GPUs are essential for training and running complex neural networks, which are used in applications such as image and speech recognition, natural language processing, and more. Cryptocurrency Mining: GPUs are often used for mining cryptocurrencies such as Bitcoin and Ethereum, which require large amounts of computing power to perform complex calculations. Virtual and Augmented Reality: GPUs are used to render high-quality graphics and video in virtual and augmented reality applications, allowing users to immerse themselves in virtual environments. GPU Prices Compared to other components of a computer, GPUs can be relatively expensive. While the price of a GPU can vary widely depending on the specific model and brand, it is not uncommon for a high-end GPU to cost more than other components such as the CPU (Central Processing Unit), RAM (Random Access Memory), or storage drives. For gaming or professional computing like AI and cryptocurrency mining, the GPU is a critical component for performance and productivity, so their GPUs are high-end ones. Hence, the used high-end GPUs can have resale value, depending on the specific model, condition, and market demand. The value of a used GPU will generally depend on the same factors that affect the price of a new GPU, such as the brand, model, specifications, and age.Some high-end GPUs, such as those designed for gaming or professional use, may retain their value relatively well even after being used for a certain period. However, older or lower-end GPUs may have less resale value, especially if they are several generations old or have outdated specifications. It’s worth noting that the resale value of a used GPU can fluctuate based on market demand and other factors, so it’s important to research the current market prices and conditions before selling a used GPU. Anyway, it is always good to sell GPUs online than dump them as e-waste. Concept Clarifications GPU, Graphics Cards, and Video Cards are often used interchangeably, but there are some subtle differences. A GPU is the processing unit itself, while a graphics card or video card refers to the physical card that contains the GPU and its associated memory and other components. In other words, a graphics card or video card is the hardware that houses the GPU. Integrated GPU and discrete GPU refer to different types of GPUs. An integrated GPU is built into the processor (CPU) itself and shares the same memory as the CPU. It is generally less powerful than a discrete GPU, but can still handle basic graphics tasks such as video playback. A discrete GPU, on the other hand, is a separate card that is plugged into the computer’s motherboard and has its own dedicated memory. It is more powerful than an integrated GPU and is necessary for more demanding graphics tasks such as gaming, video editing, and scientific simulations. While GPUs and CPUs are both processors, they are optimized for different types of tasks. CPUs are designed to handle a wide range of general-purpose tasks, such as running applications, managing the operating system, and handling input/output operations. GPUs, on the other hand, are optimized for highly parallel tasks such as rendering graphics, performing scientific simulations, and training neural networks for machine learning. The main difference between computer (CPU) memory and GPU memory is their architecture. CPU memory is typically based on a hierarchical architecture with a small amount of fast cache memory closest to the CPU and larger, slower memory further away. This is designed to minimize the time it takes for the CPU to access frequently-used data. GPU memory, on the other hand, is designed to handle large amounts of data simultaneously and is based on a flat architecture with a large amount of memory that can be accessed quickly in parallel. This is necessary for applications such as video rendering and machine learning that require large amounts of data to be processed quickly. Challenges and Future of GPUs One of the main challenges facing GPU developers is the need to balance performance with power consumption. While GPUs are highly efficient at processing large amounts of data, they also consume a lot of power, which can be a limiting factor for applications that require low power consumption. To address this challenge, GPU manufacturers are developing new technologies such as low-power architectures, specialized circuits for specific applications, and more efficient memory architectures. Looking to the future, GPUs are expected to play an increasingly important role in a wide range of industries and applications. As the demand for high-performance computing continues to grow, it is likely that GPUs will continue to evolve and become even more specialized, making them an essential tool for the development and advancement of technology.

更多...

标签: gpu