tag 标签: 服务器

相关帖子
相关博文
  • 2025-3-20 13:47
    182 次阅读|
    0 个评论
    PCIe 5.0应用环境逐步成形,潜在风险却蠢蠢欲动? 随着人工智能、云端运算蓬勃发展,系统对于高速数据传输的需求不断上升,PCI Express(PCIe)成为服务器应用最广的传输技术,尤其在高效能运算HPC(High Performance Computing)及AI服务器几乎皆导入了最新的PCIe 5.0规格,使得数据传输的双向吞吐量达到了128GB/s,让这两类的服务器能够发挥最大的效能。不过随着PCIe 5.0的频率达到16GHz,PCB板因为高频而导致讯号衰减加剧的特性,使得厂商面临很大的技术挑战。 如何降低讯号衰减、增快讯号传递,已成为产业界迫切需要解决的问题。对此,相关业者于设计中会导入更多的高频缆线以延伸PCIe通道的长度,让所有的高速装置能够整合进一台服务器里面。 高频缆线「这些特性」藏危机? 当高频缆线导入数量越来越多时,高频缆线的质量验证变的越来越重要。影响高频缆线质量的特性包含Insertion Loss,Return Loss及Crosstalk,当这些特性不好时会有下面的潜在风险: ☒ Insertion Loss Insertion Loss过大时会导致讯号衰减加剧,进而影响传输距离及带宽。 ☒ Return Loss Return Loss过大时会导致讯号的反射及干扰,进而影响讯号的质量。 ☒ Crosstalk Crosstalk会导致讯号被干扰而失真,降低讯号质量。 上述的潜在风险可能导致讯号降频传输及误码率过高,进而使整台服务器效能降低,更严重者将导致装置功能失效或造成系统重启的风险。 高频缆线的价格为一般缆线的几十甚至几百倍,少则几十块美金,多则上百元美金,因此当高频缆线的质量出问题时,所损失的金额是非常巨大的。高频缆线的质量验证在之前是一个很耗时的工作,一条缆线的量测时间可高达八小时以上,这使得采购者很难去要求整批全数地验证。 Allion Cable-Connector Multiport System Series 主要的目的为 实现高频缆线全数质量验证的可行性 ,以上述的例子,它能将八小时的量测时间缩短到三分钟内,使得采购每一批缆线时能够验证每一条的质量,厂商也能利用此自动化套解决方案达到全数的工厂履历,并能追溯到每一条的质量记录,创造同业之间的优势。
  • 热度 1
    2025-3-6 17:00
    277 次阅读|
    0 个评论
    服务器应用环境与客户需求 PCIe 5.0高速接口技术的成熟驱动着生成式AI与高效能运算等相关应用蓬勃发展。在随着企业对服务器性能的要求日益严苛,服务器更新换代的周期也持续加快。在此背景下,白牌与DIY(Do It Yourself)服务器市场迎来了新的发展契机,但同时也面临着更趋复杂的技术挑战。 传统上,白牌与DIY服务器以其高度客制化与成本效益优势受到市场青睐。然而,随着PCIe 5.0等高速技术的导入,服务器系统的复杂度大幅提升,对组装技术与组件兼容性也就提出更高的要求。举个简单的例子来说,PCIe 5.0的高速数据传输能力对主板的散热、供电设计以及PCB布局均提出了严苛的挑战。倘若组装不当,便容易产生系统不稳定、性能下降甚至硬件损坏的潜在风险。 此外,生成式AI、深度学习等新兴应用也对服务器性能提出了多元化的需求,包含大容量内存、高带宽网络、以及强大的GPU加速能力等等。而这也使得服务器配置的灵活性与扩展性变得格外重要。 因此,想要克服上述挑战,白牌与DIY服务器用户需审慎考虑以下因素: 组件兼容性:不同厂商的组件规格可能存在差异,若搭配不当,容易导致系统不稳定。 散热设计:PCIe 5.0装置功耗较高,需搭配高效能的散热系统,以确保系统稳定运作。 供电设计:高性能服务器对电源的要求极高,需选择足够功率且稳定的电源供应器。 软件支持:操作系统、驱动程序与应用软件的兼容性对系统性能有着重要影响。 总结来说,白牌和DIY服务器市场的需求和应用正在因应新技术的进步而快速演变。厂商必需在成本和性能之间找到平衡,同时确保系统部件的高兼容性与稳定性,才足以因应未来的趋势与挑战。 背景与技术痛点 以本次分享的个案例子,该厂商推出可区分市场的主板兼容性列表,并计划通过兼容性计划来确保DIY后产品的稳定性。始料未及的是他们却遭遇到难以突破的技术痛点。 技术痛点一:技术能力不足 该厂商在电子工程(EE)和系统质量保证(SQA)测试能力上较为缺乏。不仅限制了其在服务器机壳设计和测试过程中的能力,更无法针对产品在实际应用中的性能和稳定性进行全面验证。 技术痛点二:内部资源限制 厂商并无建立测试实验室的计划,这也意味着客户无法自主进行深入的产品性能测试和验证。此外,客户也缺乏整合SQA、EE、Power、Reliability和Cable / Connector 测试的全面能力,而这些都是确保服务器机壳能够支持高效能运算和稳定性的关键因素。 技术痛点三:市场差异化挑战 尽管厂商计划推出「主板兼容性列表」和「关键零组件建议列表」,以此与竞争对手进行产品区隔。然而在缺乏全面测试能力的情况下,实在难以保证所有兼容产品的稳定性,而这一点很有可能会对市场信任与客户满意度产生负面影响。 技术痛点四:项目的时间压力 尽管厂商内部各单位(如研发、工程、FAE和业务)都支持该计划,麻烦的是,由于客户欠缺全面的测试和验证资源,因此在实际启动和实施上可能会面临到困难,从而影响项目推进的速度和效果。 解决方案 为了有效因应客户在服务器机壳稳定性与兼容性方面的技术挑战,以下是我们的具体方案: 协助开发测试计划及第三方报告 ☑ 需求分析:进行深入沟通,全面了解其产品特性、性能需求及目标市场,从而为后续的测试计划提供基础。 ☑ 方案设计:根据具体需求,量身设计测试方案,包括测试项目、测试环境以及测试流程,确保系统稳定性得到全面评估。 ☑ 报告撰写:提供详细的测试报告,报告内容涵盖测试结果、数据分析及改善建议,帮助厂商能更好地理解测试过程及其影响。 多方位测试,测试范围:针对服务器机壳、电源供应单元(PSU)、储存背板等关键组件进行全面测试,确保DIY组装后的系统稳定性。 进阶测试项目 可靠性测试(Reliability Testing) 震动与冲击测试 电源循环测试 系统压力测试 温湿度测试 高加速寿命测试 讯号完整性测试(Signal Integrity Testing) 针对建议选用的主板进行讯号完整信测试,涵盖PCIe、SAS与SATA等讯号测试,确保数据传输稳定性。 完成以上测试,面对高速技术挑战和市场需求变化时,能更加顺畅无碍地实现产品目标,并在白牌和DIY服务器市场中脱颖而出.
  • 2025-3-6 16:23
    2 次阅读|
    0 个评论
    前篇文章 『服务器散热效能不佳有解吗? (二)』 说明我们如何进行服务器的散热测试,提供数据以及后续的改善与评估。 本篇文章重点将延伸至散热架构三个重点中的GPU导风罩,对服务器散热有何影响。 服务器的散热技术在当前阶段主要采用 气冷 和 液冷 两大方案。 气冷依赖空气的对流进行散热;而液冷则利用液体流动带走热量。在气冷系统中,尤其需要谨慎设计导风罩,以确保有效引导风流,这对整体散热效果至为关键。在服务器开发过程中,厂商时常提供初版的导风罩进行散热初步验证,并根据测试数据对导风罩进行修改。 实际案例分享 从GPU进风口的冷却风流分散不集中(预定路径为红箭头,但部分风流可能从旁边蓝箭头处流失),可能导致机台的散热效率降低,进而使机箱内温度升高,进而引起相关部件因高温而运作不正常的问题。 透过在导风罩中添加档片并进行验证,藉由测试数据的分析,可确认此改进方案的可行性。一旦获得验证结果,厂商通常会将这项变更应用到后续的导风罩设计中,以进一步提升服务器的散热效能。这种有效的散热技术优化不仅有助于维持稳定的运作状态,且能够提高服务器的整体性能和可靠性。 我们对于服务器散热架构的关注程度不仅体现在测试能提供长期稳定的环境,更在于及时反馈。当散热架构遇到问题或状况时,我们致力于立即将这些信息反馈给厂商,以协助他们解决可能存在的挑战。 同时,我们积极参与改善的过程,透过多年累积的丰富经验,提供厂商实用的建议。这包括在短时间内完成各种散热架构的验证,以确保改进方案的实施不会影响产品的生产周期。我们期望透过迅速且有效的改进流程,为厂商提供高质量的散热解决方案,同时不耽误产品的制造进度,使厂商能够更加信心满满地推出优秀的服务器产品。
  • 热度 3
    2025-1-24 16:58
    485 次阅读|
    0 个评论
    前篇文章中 『服务器散热效能不佳有解吗?』 提到气冷式的服务器其散热效能对于系统稳定度是非常重要的关键因素,同时也说明了百佳泰对于散热效能能提供的协助与服务。 本篇将为您延伸说明我们如何进行评估,同时也会举例在测试过程中发现的问题及改善后的数据。 AI服务器的散热架构三大重点: GPU导风罩:尝试不同的GPU导风罩架构,用以集中服务器进风量,加强对GPU的降温效果。 GPU托盘:改动GPU托盘架构,验证出风面积大小对GPU散热的影想程度。 CPU导风罩:尝试封闭CPU导风罩间隙,集中风流,验证CPU降温效果。 我们会先与您讨论现况,并实际确认散热架构后,将开始进行温度监控的热电偶布点,完成布点后,开始执行加压程序及温度数据的收集。加压过程中会有不同部件的加压(ex. GPU or CUP)及加压的程度 (ex. 30%~100%),同时也会尝试对风扇的转速控制或制造风扇的故障来模拟各种情境以收集相关的数据做分析,以确保服务器在遇到突发状况时仍能够保持散热的稳定性。 百佳泰针对此项目尝试了两个散热架构的数据收集,经过分析后确认散热架构1的表现较符合预期,测试结果如下图: 在数据收集的过程中,我们也发现了一个异常的现象,在收集PSU布点的电热偶数据中发现:温度的曲线并非是越靠近中心温度越高,有两个点呈现相反的状态。经过分析、与客户讨论后找出其实际原因是因为热风回流所导致,而发生的地方就是在PSU附近的机壳侧面或缝隙。数据数据及过程如下: 改善前PSU温度异常 : 靠近核心的Temperature_2温度 竟低于 外侧温度 Temperature→ 可能的原因为机构设计导致积热/热回流等散热问题 改善后系统PSU温度正常 : PSU核心Temperature_3温度 靠近核心的Temperature_2温度 外侧温度Temperature_1 百佳泰对于服务器散热架构的评估服务有丰富的经验及相关的能力,能够协助客户尽速完成各种架构的评估及最终方案的选定。同时,百佳泰亦建置下列各种不同热负载的Walk-in Chamber,能满足各类型的服务器进行散热架构评估。 13KW Walk-in Chamber Temperature Range: -20 ℃ ~ 80 ℃ 20KW Walk-in Chamber Temperature Range: -40 ℃ ~ 150 ℃ 65KW Walk-in Chamber Temperature Range: -40 ℃ ~ 90 ℃
  • 热度 1
    2025-1-10 17:21
    308 次阅读|
    0 个评论
    【哔哥哔特导读】英伟达GB200 NVL4高功耗芯片亮相,超算散热革新加速。UQD快速接头作为液冷关键部件,于变局中登场,迎来机遇曙光。 在 2024 年美国超级计算大会(SC24)这场备受全球关注的科技盛会中,英伟达推出了全新的硬件产品——GB200 NVL4超级芯片。该芯片展现出了较为出色的性能表现,在业界引起了广泛关注,并预计于2025年下半年正式进入市场。 ▲英伟达GB200 NVL4超级芯片 回溯至 2024 年 3 月,GB200 NVL4的初次亮相便成为了高速铜缆发展的关键驱动力,开启了技术联动的新篇章。如今,人工智能大模型呈爆发式发展,推动芯片产品加速更新迭代。 由于GB200 NVL4芯片性能提升与功耗增长并存,相关的散热问题成为一个显著的挑战。在高速铜缆发展之后,液冷散热解决方案具备成为市场新机遇的可能性,其发展态势值得进一步关注和研究。 4颗GPU,2颗CPU 性能更强!但功耗也不“拉下” 英伟达新推出的GB200 NVL4 模块引起了广泛关注。它基于原有的 GB200 Grace Blackwell Superchip AI 解决方案,进行了较为显著的扩展与优化,为高性能计算和人工智能相关工作负载的处理带来了新的可能性。 GB200 NVL4 被设计成一种单服务器解决方案,集成了两个 Grace CPU 和四个 Blackwell B200 GPU,并配备 4 - GPU NVLINK 域以及 1.3T 相干内存。 具体来看,GB200 NVL4四个 Blackwell B200 GPU 配置了 768GB 的 HBM3E 内存,能够提供 32TB/s 的组合内存带宽;GB200 NVL4两个 Grace CPU 则具备 960GB 的 LPDDR5X 内存。GB200 NVL4这样的内存配置组合,为应对具有一定复杂性和高强度的高性能计算以及 AI 工作负载提供了较为有力的支持。 从架构方面而言,GB200 NVL4 所采用的 Blackwell 架构进一步提升 GPU 的利用率和扩展性,在一定程度上优化了计算资源的分配和利用效率。此外,借助 NVLink 实现的高带宽 GPU 通信机制,提升整体的计算效率和任务执行的流畅性。 在性能表现上,GB200 NVL4 相比前代 GH200 NVL4 超级芯片,模拟性能有较为明显的提升。GB200 NVL4达到了约 2.2 倍的提升幅度,训练性能和推理性能也分别提升了约 1.8 倍。 然而,需要注意的是,性能提升的同时伴随着功耗的增加。GB200 NVL4 的功耗达到 5400W,大约是 GB200 NVL2 型号功耗的两倍。 GB200 NVL4如此高的功耗水平,意味着需要采用适当的散热解决方案,以保证模块在长期运行过程中能够维持稳定的温度,避免因过热而导致性能下降或故障等问题。英伟达自 B100 起就采用液冷散热技术,GB200 NVL72 机架也配备了液冷系统,这体现了行业在散热技术方面的一种趋势。 据媒体消息,GB200 NVL4 预计将被应用于配有定制液冷系统的服务器机架中,以保障该模块在运行时能够维持在适宜的工作温度范围内。 UQD 快速接头 液冷系统的关键支撑 当下,随着芯片性能的持续提升,功耗也在不断增加,这促使数据中心和服务器对散热技术提出了更高要求,液冷技术因此得到大规模应用,市场前景广阔。 据Data Bridge Market Research 分析,2022 年数据中心液体冷却市场规模达到 22.6 亿美元,预计到 2030 年将大幅增长至 134.5 亿美元,在 2023 年至 2030 年的预测期内,复合年增长率可达 24.96%。 然而,液冷在实际应用中,漏水问题一直是最为关键的隐患,而接头部位更是漏水的高发区域。在这种情况下,UQD 快接头凭借无泄漏、高流量、低流阻、热插拔等优势,成为保障数据中心高效运行与维护的关键组件。 UQD快接头标准是一种专门针对数据中心液冷应用的开放标准防喷快换接头,由英特尔发起倡议,并在 OCP(开源计算项目)框架下进行开发。 依据Mark Sprenger, Intel Corporation发布的通用快速断开(UQD)规范修订版 1.0,UQD 快接头具有特定的物理特性,且包含02/04/06/08 四种尺寸,同时明确了流量等级、温度额定值、压力等级、爆破压力额定值、断开时液体损失、流量系数为UQD快接头的关键指标,以确保其性能满足数据中心液冷系统的严格要求。 在规范中,UQD快速接头具体性能要求包括: l 尽可能降低手动插接连接器的耦合与解耦力; l 具备 5 年保质期和 10 年使用寿命; l 插槽须能承受 5000 次接通和断开循环; l 在 0 psi 条件下,不同尺寸的每个耦合 / 分离循环的最大流体损失需控制在一定范围内;并且在不同尺寸下,流速、压力和温度均要符合相应要求。 目前,UQD快接头市场主要由欧美企业占据主导地位。在国内,也有部分企业积极布局,例如强瑞技术的快速密封接头产品已配套公司的液冷测试治具及设备,并成功交付客户使用;英维克的 UQD快接头不仅满足英特尔的标识与端接要求,还通过了相关测试和互换性验证;中航光电的 UQD 系列直推式流体连接器采用直推式锁紧结构与平面密封结构,展现出良好的密封性能。 ▲用于数据中心机架服务器与分水器之间、分水器与管道系统之间连接的UQD系列直推式流体连接器能够实现快速锁紧与分离。图/中航光电官网 随着液冷技术在各领域的进一步深入应用,UQD 快速接头的市场需求呈现出不断增长的趋势。2024年7月,Digtimes报道,英伟达液冷 AI 服务器因UQD 供货紧张,导致出货受阻。 而TrendForce集邦咨询最新研究显示下半年英伟达新一代Blackwell GB200服务器也将于第三季度进入量产出货阶段。预期GB200及B100等产品将于今年第四季度至2025年第一季度正式放量。UQD 快速接头的需求有望进一步扩大,其市场潜力值得关注。 小结 随着芯片性能提升、功耗增加,液冷技术应用规模日益扩大,市场前景广阔。而在液冷技术应用中,UQD 快速接头扮演着关键角色。 展望未来,随着数据中心向更高性能、更大规模迈进,人工智能应用场景不断拓展,UQD 快速接头将迎来更为广阔的天地,其市场潜力仿若一座亟待挖掘的宝藏,值得全球科技从业者与投资者密切关注。 本文为哔哥哔特资讯原创文章,未经允许和授权,不得转载
相关资源