tag 标签: cpu

相关帖子
相关博文
  • 热度 14
    2021-11-20 16:47
    2729 次阅读|
    0 个评论
    有关联发科 Dimensity 9000 发布会,给各位提取一些媒体 Q&A 环节有趣、有料的问答: 1.Cortex-A510 小核心在实现上,是共享的矢量管线设计,还是独立的?(回答:应该是 dependent instantiation,但不确定) 2.为什么 Cortex-A710 核心的 L2 cache 采用 512KB?(回答:是基于功耗性能的权衡考量)(这题我会答啊,Arm 官方给 A710 的推荐 L2 cache 大小就是 256KB/512KB。而且联发科给 X2 也配了 Arm 推荐的 1MB L2 cache) 3.ISP 部分是上一代的规模化扩展,还是架构上的重新设计?(回答:it's a completely re-design on the pipeline) 4.APU 部分的效率核心(flexible core)用的是不是 Cadence 的 DSP IP?性能核心的脉动阵列规模是多大(What are the size of the systolic array for the performance core?)?(回答:IP 是我们自己的,不是 DSP 架构;第二个问题,it's not systolic) 5.Modem 支持毫米波吗?(回答:不支持) 6.手机会持续成为联发科增长的最大业务吗?(回答:the quick answer is yes, mobile will be important, but we also got several different growth engine.)(回答 2:Mobile is really doing great for us when growing more than 100 % year over year, and occupies 57 % of our revenue...But mobile in many ways, especially the flagship mobile SoC, it's our technology driver. Our CPU Geekbench or AI...I don't know how to name those benchmarks...it is very complicated.(此处全场大笑)...we are getting faster and faster being deploying those technologies into our other applications or other markets.) 7.PPT 上提到联发科在发展高级封装技术,具体是什么?(回答前面提到了 2.5D/3D 封装的价值...后面有一句话比较关键:we are working with our very advanced foundry partner working on that 3D packaging technology. We look forward to come out some solution within 3 years.) 8.对 Nvidia 收购 Arm 是怎么看的?(回答:听到这个问题有点意外......(全场笑)) 9.在供货问题上,是否考虑通过 adding additional foundries or growing your capacity within TSMC 来扩张产能?(回答:I think given the revenue size, I think you can assume we pretty much work with globally every foundry partner. We do have our policy about different location, be across different process node. But in general, we do still aggressively are looking for...I will say new...because actually they're all been there for quite some time, but we do actively looking for a different partner and through from time to time. 不过在尖端工艺方面,台积电仍然是最重要的合作伙伴之一) 10.有没有计划推基于 Arm Neoverse 的服务器芯片?(几位高层听到这个问题有点懵圈,这位提问的记者发音 server 比较诡异,所以第一下大家都没听懂,然后主持人修正了一下 server 的发音...回答者:哦,server......回答的前面部分提到我们现在主要还是边缘设备供应商,但在往企业领域发展的问题上,会是渐进式的,也是战略方向之一。不过在方式上,会是 ASIC 业务模型为先-似乎是说和互联网公司的一些合作。So we will move in that direction, but we want to do that in a very solid manner.)
  • 热度 3
    2021-11-5 21:35
    2865 次阅读|
    10 个评论
    国产DPU,弯道超车?
    11月4日,芯片巨头英伟达股价周四大涨12.04%,收于298.01美元,创去年3月以来最大单日涨幅,市值首次突破7000亿美元,达到7450亿美元,超过伯克希尔哈撒韦公司,市值位居全美第七,,超过台积电的5921.4。英特尔和三星的市值分别“仅仅”为2010和4000 。11/8-11/11 芯片巨头英伟达即将举行GTC2021全球大会,当之无愧的AI和计算的全球盛会,英伟达在国内同行跟进GPU发展的时候,其已经推出的DPU概念已经在产业界和资本界火得一塌糊涂。无出左右,跟进GPU的资本也会大量继续跟进DPU的发展,而中科院计算所也最近推出了《专用数据处理器(DPU)白皮书》,正式阐述了中国科技界和产业界对于DPU的态度,综合国内和国外的产业形势,简单去分析DPU的发展状况. 国外篇: 一. GPU龙头大哥英伟达 英伟达推出的BlueField系列DPU,在支持网络处理、安全和存储功能的同时,实现网络虚拟化、硬件资源池化等基础设施层服务。BlueField DPU既是一个承担高带宽(100Gbs/200Gbs/400Gbs)的网络处理器,同时也是一个独立的嵌入式处理器,它管理着众多加速器引擎,比如加密解密、正则表达式匹配以及存储加速等等。BlueField DPU也可以通过ARM核运行嵌入式Linux系统,处理一定控制面的任务,具有一定的通用能力。英伟达 2020年推出BlueField-2系列 DPU,并计划在2022年推出性能更强的BlueField-3 DPU。 二. 传统CPU巨头英特尔 英特尔的IPU(Infrastructure Processing Unit)是一种具有强化加速和以太网连接的网络设备,可使用紧密耦合的专用可编程内核来加速和管理基础设施。 IPU提供完整的基础设施卸载,并通过充当运行基础设施应用程序的主机的控制点来提供额外的安全层。通过使用IPU,可以从服务器卸载与运行基础设施任务相关的开销。云服务供应商(cloud service provider,CSP)软件在IPU本身上运行,而租户的应用程序在服务器CPU上运行。这不仅释放了服务器上的资源,同时优化了整体性能,而且为CSP提供了一个单独且安全的控制点。IPU将基于硬件的数据路径(包括 FPGA)与处理器内核相结合,使得基础设施以硬件的速度处理,能够跟上不断提高的网络速度和软件实现控制平面功能的灵活性。IPU具有以下三个优势:基础设施功能和租户工作负载物理分离允许用户完控制CPU;供应商可以将基础设施任务完全卸载给IPU,有助于提高CPU资源利用率,最大化收益;实现完全无磁盘服务器架构的云数据中心。 三. 网络芯片巨头博通/Marvell 2021年6月28日Marvell发布了基于5nm工艺的OCTEON 10系列DPU,搭载了算力强劲的ARM Neoverse N2核,并且配备了多种硬件加速模块,包括加解密、包处理及人工智能推理加速器。同时为了提供用户友好的可编程接口,提高应用开发效率,Marvell配套硬件设计了包括DPDK、Marvell ML toolchain等在内的软件开发平台。 博通NetXtreme-S BCM58800是一种单芯片SmartNIC解决方案,在板级生产方面的成本较低。然后,他们在集群配置中部署了主频为3GHz的8个Arm v8 A72核心,逻辑单元能够以高达90千兆/秒的速度卸载加密,同时卸载擦除编码和RAID等存储处理。最后,博通还采用了具有神秘色彩的TruFlow技术,这是一个可配置的流加速器,用于将常见的网络流过程转移到硬件中。博通的产品更多被视为智能网卡。 四.全新创新公司Fungible Fungible成立于2015年,目前拥有约200名员工,总筹资超过3亿美元。其他投资者包括Battery Ventures,Mayfield Fund,Redline Capital和Walden Riverwood Ventures。其新资本将用于加速产品开发。思科系统(Cisco Systems)四位资深工程师创办,前任总裁 John Chambers 担任董事长的Pensando,Juniper Networks CTO 兼联合创始人创办的 Fungible。 针对以数据为中心(data-centric)应用的处理,Fungible研发了F1 DPU处理器和TrueFabric互联技术。TrueFabric是由Fungible首先提出的新型大规模数据中心网络互联标准,这种Fabric互联协议基于标准的UDP/IP/Ethernet协议栈构建。RoCEv2是一种当前数据中心网络中主流的互联网络协议,该协议同样基于UDP/IP/Ethernet搭建,对终端提供高性能的RDMA Read/Write服务,而TrueFabric对接入点提供高性能Send/Receive服务。Fungible F1 DPU原生支持TrueFabric,因此F1 DPU可以用于大规模TrueFabric数据中心网络,不同类型的服务器都可以将Fungible DPU作为网络接入点。 从技术路线来源和传承来看,从事高性能计算计算加速的方案:基于GPU和FPGA的加速的技术经验,来实现数据处理器的方案,以英伟达,英特尔为主要的参与厂家,赛灵思则是被认为智能网卡的产品,基础的技术线路和方案比较接近。 另外一种技术线路来源则是从事数据交换,网络通信的厂家的方案:更多的方案是基于网络通信和数据交换/数据处理的经验和方案,以博通和Marvell厂家为主,未来基于ARM内核方案。 Fungible是思科的童鞋干的,更多倾向于网络技术方案,ARM内核方案。这两类厂家之前竞争是集中在网卡,也就是服务器网卡,英特尔网卡/博通网卡/迈络思网卡是市场上的主流网卡供应商。而AI计算,智能计算和算力的概念联系上以后,该产品被上升到计算架构的高度,并被媒体吹嘘到了突破摩尔定律的路径,究竟是这些国际大厂的忽悠赚钱的故事,还是真正的技术颠覆有待未来应用,但是热钱是不愿意放过这么好的故事概念的。 国内篇 一、 中科院系(中科驭数) 概述:所有的大芯片和计算芯片,都无法绕过中科院计算所,CPU有龙芯,DSP有中科本原,不过GPU好像是没有怎么参与。但是国内的DPU领先的厂家也就是数中科驭数,目前有自研的DPU架构,2019年第一代产品已经流片,第二代产品也是研发中待流片,支撑公司运行的也是智能网卡。技术方案和路线,并不是太清晰。 团队:中科驭数成立于2018/4/25日,创始了鄢贵海,北大到中科院计算所博士后,一直从事计算理论:专用计算架构、机器学习和金融计算;联合创始人兼CTO卢文岩及首席科学家李晓维也是中科院计算所,高级副总裁张宇是北大背景,在亚马逊等从事科研工作。 融资:2021年7月份A轮融资,上亿元,具体不详,由华泰创新领投、灵均投资以及国新思创跟投,本轮融资将主要用于第二代DPU芯片K2的流片以及后续的研发迭代。 二、 GPU企业加持(云脉芯联) 概述:GPU对于壁仞科技也是个新的赛道,但是考虑到高速计算和智能计算,DPU是无法绕开的赛道,就开始继续布局,一站式。壁仞科技要投资云脉芯联,技术路线无法确认。ARM,ASIC,FPGA还是GPU方案。 团队:云脉芯联成立于2021/5/23日,CEO刘永锋,创始团队由长期致力于数据中心网络领域技术和市场的领军人物以及来自世界名企的软硬件系统和芯片研发资深专家组成。 融资:10月22日,DPU初创企业云脉芯联宣布获得数亿元天使轮投资,由IDG资本、壁仞科技、字节跳动等共同投资。目前看,公司处于建立阶段,主要肯定用于人员组建和办公等研发费用。 三、IP企业(芯启源) 概述:IP企业也进入GPU赛道,因为有IP核的优势,所以IP企业比较多参与这类高热门的芯片。 团队:芯启源成立于2015年,其期初是从事IP和EDA的企业,创始人卢笙本科毕业于上海交通大学,并取得美国Lamar University工程科学硕士学位。20年来专注在半导体领域,先后在Broadcom、Marvell、ArtX等公司担任重要岗位,带领团队在芯片研发、管理等领域做出卓著业绩。公司其他核心团队成员均在芯片领域深耕多年,具有极其丰富的行业经验和广泛的产业资源。芯启源拥有一支世界一流的研发管理团队,在湖州、上海、南京、香港、美国硅谷等地均设有子公司和研发中心。据悉,芯启源研发团队中大多来自Marvell、Broadcom、Intel、中兴通讯、百度等国内外顶尖芯片厂商,在芯片设计、网络通讯、云数据中心有着成熟丰富的经验。目前已经推出商用智能网卡产品。 融资:近日,芯启源宣布完成数亿元的Pre-A4轮融资,本轮融资由 中国互联网投资基金 领投, 华润资本润科基金、兴旺投资、允泰资本、正海资本 跟投 ,老股东熠美投资(上海市北高新大数据基金) 继续跟投。据悉,此次融资将进一步支持芯启源在下一代DPU芯片的研发投入,加速在5G、云数据中心的生态布局,持续强化芯启源在国内这一领域的领跑地位。今年6月,芯启源刚宣布完成数亿元的Pre-A3轮融资。 四、全新初创企业(大禹智芯、云豹智能、星云智联) 1. 大禹智芯 团队:北京大禹智芯成立于2020/5/20,团队来自一流的互联网企业:Patrick,大禹智芯首席科学家。10年以上芯片及FPGA研发经历,硅谷一线芯片公司担任芯片架构师,先后任全球两家头部云计算公司智能网卡软硬件团队负责人。李爽,大禹智芯创始人兼CEO。曾任职美团云总经理、阿里巴巴集团网络部总监、百度系统技术委员会主席;曾主导参与云计算战略和互联网巨头技术平台搭建,多次正确预判了技术范式与业务形态的发展路径;王昕溥,大禹智芯CTO。曾任职美团云技术总监、阿里云和蚂蚁金服网络产品研发负责人、百度CDN平台研发负责人,云计算领域专家,拥有多年大型互联网/云基础设施技术领导经验;百度工作期间成功研发**代CDN系统;阿里巴巴工作期间自主研发负载均衡设备实现对F5替换,完成云VPC、云DDoS防火墙、SSLoffload加速卡定制集成,阿里云DNS产品等高性能网络组件研发工作。高亚滨,大禹智芯COO。曾任职思科XaaS与云协作业务大中华区总经理、阿里巴巴全球技术战略合作总监;具备多年ToB服务及技术战略合作经验;拥有担任多家企业的销售负责人、产品总经理、战略合作等市场核心岗位的经历。 融资:2021年7月,大禹智芯宣布完成数千万元Pre-A轮融资,由华义创投和奇绩创坛投资,本次融资金将用于 DPU 产品的研发、生产投入以及高端人才的引入。作为国内领先 DPU 创业公司,大禹智芯在成立之初就获得了天使轮融资,由中科创星和惟一资本联合投资。 2. 云豹智能 团队:深圳云豹智能有限公司成立2020/8/28日,由原RMI公司(后被Netlogic/Broadcom收购)co-founder Sunny Siu博士联合业界精英联合创立,核心团队来自阿里巴巴、海思、Broadcom、Intel和Arm等,拥有中国*有经验的DPU芯片和软件设计团队;云豹智能芯片和解决方案面向云计算服务商、新型互联网公司、5G运营商及大型企业,为解决云计算新技术需求,提供中国***款高性能云原生DPU SoC芯片和解决方案。 融资:云豹智能投资方包括红杉、腾讯、华业天成和耀途,深创投等,具体金额不详,目前应该处于天使轮融资,暂时无具体产品推出。 3.星云智联 团队:珠海星云智联有限公司成立于2021/3/22日,星云智联在业界首屈一指的技术团队带领下,汇集来自硅谷、以色列、加拿大的计算通信领域芯片和软件顶级专家,必将成为未来云计算和数据中心基础互联通信架构和DPU芯片的领导者。星云智联这支过往成功的实现了多领域通信与网络芯片开发的团队, 是目前国内唯一达到了全球领先水平,真正有能力开发出DPU及其生态系统的团队。 具体的创始人,技术领军人物不详细。暂时无产品,也无流片。 融资:2021年4月,DPU芯片研发商星云智联宣布完成数亿元天使轮融资,融资高瓴,鼎晖和华登国际零头,2021年7月,PRE-A轮由老股东鼎晖VGC(鼎晖创新与成长基金)领投;现有投资方高瓴创投(GL Ventures)、华登国际继续追加投资;BAI资本、复星(旗下复星锐正资本、复星创富)、华金投资、金浦投资(旗下金浦科创基金)、嘉御基金、松禾资本、沃赋资本等多家投资机构跟投。,目前看是天使轮融资。2021年8月30,A轮,美团战略投资部,数亿金额。 4.益思芯科 团队:益思芯科技(上海)有限公司 成立于2020/7/13日,技术团队由国内外网络、存储、系统领域的核心专业人员、研发人员组成,在网络、交换、存储及高性能CPU方面领域具有深厚的技术实力。益思芯科技的创办人黄益人先生是美国 CNEX Labs(曾获美国戴尔 Dell、思科 Cisco Systems、微软、Seagate、三星、Micron 等机构的战略投资)的联合创始人和 CTO;拥有近三十年芯片设计经验,毕业于上海交通大学,后留学美国密歇根理工大学,曾在思 科系统(Cisco Systems)、Sandforce 和华为美国研究所Futurewei负责交换机芯片、固态硬盘控制器、智能网 卡的架构与设计;拥有 几十 项美国专利发明,其中包括 NVMe over Ethernet、 Interlaken 等协议相关专利。 融资:8月25日消息,国内 DPU 芯片领军企业益思芯科技(上海)有限公司(以下简称“益思芯科技”)完成 Pre-A 轮融资。本轮融资由联想创投、栎芽资本(Oakseed Ventures)联合领投,励石创投、鼎心资本、东方富海、一旗力合强力跟投。 5.其他生态链 互联网厂家里面,腾讯,百度,字节,美团都有资本布局DPU,但是未来怎么应用DPU在数据中心,都没有确定方案。阿里自称神龙DPU,目前看算是布局的比较早的厂家。 深鉴科技把自己的产品定义成DPU,是数据处理单元,而非数据处理芯片,跟主流的DPU概念不一样。 ICT硬件厂家:华为有自己的智能网卡产品,仅限于智能网卡;浪潮也是基于英伟达bluefield推出智能网卡产品和加速产品,新华三和曙光都有基于英伟达bluefield的服务器整机产品,从理论上推测应该是小量产品,配合英伟达的合作行为。 国产GPU中已经有成熟商用和军用的产品,虽然比起英伟达有不少距离,但是国产DPU中暂时还没有拿得出手的产品,未来到底鹿死谁手还是未知数,也不清楚市场和客户对该类产品最终认可和应用结果,但是务实的研发和推出产品是对中国半导体和资本负责任的态度,才有可能取得成功。目前DPU也未像CPU和GPU那样受到生态强弱的影响,DPU厂家更多是考虑技术因素,您可以适配X86架构,ARM架构,MIPS架构,也可以适配美国巨头,也可以适配中国飞腾,龙芯,兆芯,海光,申威,从起跑线来看,同欧美厂商有5年左右的差距,追赶存在可能,中国科技界不希望这个盛会只是英伟达的独唱,中国人陪太子读书,创业成了资本圈钱的游戏和割韭菜的把戏,中国的半导体大芯片需要“长期主义”,需要有人“卧薪尝胆”。
  • 热度 6
    2021-7-11 21:29
    3015 次阅读|
    1 个评论
    这两年的笔记本PC,性能提升幅度相当的insane
    对 PC 处理器市场熟的同学其实应该知道,从 2019 年到现在,虽然半导体行业整天在说什么摩尔定律停滞,PC 处理器性能这三年算是飞跃式发展的,而且这个趋势预计还能再延续至少 2 年。 我在之前的文章里提过这一点,整体颇有“你方唱罢我登场”的这种鬼魅态势,尤其苹果还来掺了一脚——未来一段时间还要掺好几脚;万年老二的 AMD 则竟然雄起了;就是这么的奇特。 今天看 Hardware Canucks 的一则对比,链接在文末,大家可以去看看。比的是 2019 年和今年的两款游戏本,价格是顶配 3500 美元档的,对比结果还是比较惊人的。2019 款 ROG Zephyrus S17(i7-8750H,16GB RAM,RTX 2080 Max-Q),和 2021 款 ROG Zephyrus S17(i9-11900H,16GB RAM,RTX 3080)。 2021 款还比 2019 款轻一点,三围上 2021 款比 2019 款稍微在厚度上多出一点点,长宽都是变小的。而且 2019 款为了散热,有比较诡异的设计方案,就是键盘上面一大片是空白的(跟有双屏的那个设计类似),而 2021 款的就是个正常 17 寸笔记本。 这件事听起来颇有些诡异,就是摩尔定律停滞其实是个的的确确存在的事实。现在每年新推的 CPU、GPU 什么的,性能虽然在进步,但其实功耗的“进步”也非常惊人;效率提升是大前提,另一方面大家对性能的追求不会停,所以看看现在的游戏本配的电源都多少瓦的功率。 不过从系统设计的角度来看,据说这两年的散热解决方案有长足进步,就是散热扣具整体都比以前轻、小,噪音更低。看起来九曲十八弯,算是系统层面的升级精华。所以你真的用起来,就是温度更低、性能强一档,而且因为能配更大的电池(2021 款是 90Whr,2021 款是 76Whr),所以续航也更好——但整机重量却变轻了。 这事是不是六成功劳要归结给 OEM 厂商(或者中间层的解决方案厂商)。 处理器 2 年的性能和效率提升之惊人,在散热和其他系统设计的加持下,感觉跟做梦一样,包括 CPU 和 GPU。下面的曲线图和柱状图对比的,主要是 AutoDesk Maya 高负载下,2021 款和 2019 款的差别。其中黄色曲线是 2019 款跑在 Turbo 模式下,而其他几个颜色的曲线是 2021 款分别跑在 Turbo、Performance 和 Silent 不同的性能模式下。 这几张图对比的分别是 CPU 频率、功耗、核心温度,设备噪音、笔记本表面温度,还有续航。这种变化,感觉放在 2015 年前后是不敢想象的。你想想,这还叫摩尔定律停滞,是不是疯了?(虽然我感觉主要是系统设计带来全方位的大幅提升) 不过这两代产品,尤其今年笔记本模具在系统设计上的变化,大概率也是 CPU、GPU 厂商逼出来的,就是那么高的功耗和温度,用老的设计是真的不行了,所以带来了整机的提升。所谓的“更薄、更轻、更强”,是完全没在打折扣的。 但这是否也意味着,以前 OEM 厂商基本上没在干活儿?还不赶紧开除一波硬件工程师??? 很多媒体整天喜欢说,这对用户来说是好事啊!以我们这些很短视的人类的角度来看,真的不是什么好事,就好像今年你买个笔记本,明年就要被淘汰了一样,真的特么糟心。以前笔记本用个五年没问题吧,现在呢???估计就软件厂商会可怜我们。 有兴趣的去看原视频吧,还有更多对比,包括 GPU、游戏性能之类的: I WASN'T Expecting This! 2019 vs 2021 Gaming Laptops
  • 热度 13
    2021-6-16 07:18
    775 次阅读|
    0 个评论
    处理器结构及简易自制CPU
    1971年4004 cpu商用,晶体管数2250只,频率740KHz,与ram4001,rom4002,reg4003组成MCS4,一块mcu,具有数据处理,内存,数据存储,外部接口,DIP16管脚的微型计算机电脑。至今已有50年。 这里给一个CPU模拟结构图,个人可以此自制cpu,是比较现实。 此模拟套件使用一片译码器为主,ram内存作数据存储,计数器作指令地址,寄存器作数据缓冲,加法器作计算单元,成本在十几块钱内,也可以缩简集成电路数,改用贴片,价钱低至十元内。 2020年低价的可再开发的单片机 stc15w20x sop 16管脚封装 内存256字 存储2k字 主频78MHz 人民币1.4元 stm32f103c6t8 qftp64管脚封装 内存20k 存储16k字 主频78MHz 人民币6.8元,因某种原因,6,7年来的这一价格在年底飃升。 今年ibm已制造出2nm线CPU。 自由 去除限制 经典 最远的 简单点 真 智 纯 善 YWXQ
  • 热度 6
    2021-6-8 18:54
    4317 次阅读|
    2 个评论
    把CPU三级缓存堆到192MB,AMD与台积电的合谋
    专栏又很久很久没更文章了,这周趁着不需要给 EE Times China 供稿的空档,这篇文章就更在我个人的面包板和知乎专栏上吧;捕捉的其实是上个礼拜的热点了。水平有限,纯做半导体技术爱好者之间的内容共享。 在 HotChips 2019 之上, Lisa Su 曾经呈现过下面这张图(这张图是大神官同学友情找到的…),是在过去 10 年间,造成处理器性能提升的主要因素。其中包括编译器改进、微架构迭代、更大的 die size 等,而处理器性能提升的最重要因素,占到 40% 比重的乃是制造工艺技术的改进。 虽然我知道制造工艺改进对于芯片性能与效率提升很重要(摩尔定律嘛),但没想到会这么重要。不过我也提过,AMD 如今在桌面 CPU 市场的风生水起,最重要的恐怕还是台积电的助力;而其 CPU 微架构在 Intel 面前大概也没有什么独特的优势。 比如说 AMD 锐龙处理器在桌面 CPU 市场率先应用了 chiplet 方案,把原本的大 die 切成一个个小 die,采用 chiplet 的方案“串联”起来,所以我们看到 AMD 锐龙处理器也比同价位的 Intel 酷睿处理器更能堆核心,在多线程性能上有相当的领先优势。 前不久的 Computex 2021 大会上,AMD 又抛出了几枚足以对 Intel 造成威慑力的炸弹,其中有一个与制造工艺又有很大的关系,即处理器上的 3D V-Cache,让处理器的 L3 cache 能比较容易地堆到 192MB 大小,并且演示借此在游戏上获得 15% 的性能提升。 这项技术本质上是 2.5D/3D 封装技术,借此机会也恰好聊聊台积电的 3DFabric 技术,或者说真正用人话来谈谈台积电的 2.5D 和 3D 封装技术,未来有机会的话可以着重介绍介绍 Intel 的封装技术。 毕竟 3D 封装技术不是被人称作 More than Moore's Law 之类的么,也是此前很多媒体喊了很久的让摩尔定律在芯片制造业延续的重要解决方案。(叠在一起,是不是也算单位面积内的晶体管数量翻番之类的...不过感觉叠层越往后越是几何级数增长...呃...多虑了。 当三级缓存叠在 CPU 上方 我们知道 AMD 最新的 Zen 架构处理器普遍在用多 chiplet(或者说多 die)的方案,每个 chiplet 上都有几个 CPU 核心——多加几枚 chiplet,也就自然多出不少处理器核心。这么做的好处在于更小的 die size,能获得更高的芯片制造良率和成本效益。这些 chiplet 之间还需要藉由一枚 IO die(cIOD)来做通讯、互联,就像下图这样: 这里的 CPU die(或者Compute Dies)可以按照需要做删减,做成不同规格的处理器卖出去。不过 AMD Zen 架构处理器的这种 chiplet 封装方案并不稀罕,虽然它的确是 AMD 在这两代产品中克敌制胜的法宝,但它充其量也就是个 2D 封装方案。如果用 Intel 的总结,那么这种方案更偏于直接在 package substrate 基板上走线,完成多 chiplet 之间的互联,便宜而密度低。 当然这不是本文要讨论的重点。Computex 大会上,Lisa Su 拿出了一颗全新的锐龙 9 5900X 处理器原型产品,如下图所示。其中有一片 die 看起来是略有“异样”的: 左上角的那片 die(被称作 CCD,core complex die)之上堆叠了额外的 64MB SRAM 三级缓存——注意,是叠在原本的 CCD 上面的,尺寸为 6 x 6mm,这种垂直堆叠的 cache 被 AMD 称作 3D V-Cache。这颗芯片应该只是作为演示之用的,以表明左右两颗 CCD 看起来有显著不同。 据说未来的成品,每一片 CCD 都可以叠 96MB SRAM(以前只能做到 32MB),那么对于一颗 12 或 16 核心的锐龙 5000 处理器而言,就能比较轻松地堆出 192MB 的 L3 cache(想当年,Windows XP 的推荐安装内存大小才 128MB,如今消费级处理器 cache 都这么大了…)。这就属于比较地道的 3D 封装技术了。 关键是上方的 SRAM 和下方的 CCD,采用 hybrid bonding + TSV(Through Silicon Via,硅通孔)连接——TSV 负责传递电力和数据。 (2021.6.9 增加:经过同学的提醒,台积电这个工艺的亮点就在于 hybrid bonding,各位可以去看一看他针对 3D V-Cache 的回答;以下在部分表述上做了调整...) 上方那片 cache die 与下方的 CCD 在尺寸上还是不同的,所以就需要额外的结构硅来达成上下层的同等应力。 AMD 宣称如此一来,这种 L3 cache 的总带宽能够超过 2TB/s,虽然考虑到更大容量的访问延迟也会增加。Cache 本身容量和带宽增加实则都有助于整体性能的提升。 AMD 在主题演讲中演示的是用这种采用了 3D V-Cache 的处理器与传统方案做比较,对比的是 12 核的锐龙 9 5900X 处理器,一颗是一般的 64MB L3 cache,另一颗就是 192MB L3 cache;处理器主频都固定在 4GHz,配的 GPU 未知。 对比的游戏包括了 DOTA 2、战争机器 5、英雄联盟、堡垒之夜等,均设定在 1080p 分辨率下,不同的游戏有着平均 15% 的帧率提升。果然是印证了前年 Lisa Su 所说的,工艺技术的变化对于推升处理器性能起到了主要作用。 而且这种采用 3D V-Cache 技术的锐龙处理器预计会从今年年末开始量产,定位于高端型号。看来 3D 封装技术的 CPU 来到我们消费者身边还挺快。 2.5D 与 3D 封装之间 不知道这项技术会带来哪些副作用,比如说延迟,比如说堆叠散热问题(不仅是下层 CCD 更不易散热,也包括增加的厚度带来对散热方案的影响),比如说功耗(无论是 cache 需要经由下层通往主存,还是更高的带宽本身带来更高的功耗问题),以及更大的 cache 是否对游戏之外的其他使用场景带来质的变化。 据说堆叠的这部分 SRAM,在密度上高于 AMD 锐龙处理器原本的 L3 cache,原因是采用了台积电优化过的 7nm SRAM 库。而且台积电原本的技术还可以堆更多层 die。 Lisa Su 还提到 3D V-Cache 的这种封装技术,相比于传统的 2D 封装在互联密度上提升 200 倍;相比 micro-bump 技术也有 15 倍的密度领先——此前 解读 Intel Lakefield 处理器的文章 ,谈到过 Intel 的 Foveros 3D 封装技术,这种技术所用的就是 micro-bump 做互联的(当然下文也会提到台积电的 3DFabric 后端封装方案也用 micro-bump);并且比 micro-bump 有 3 倍以上的互联效率领先。Lisa Su 说这是行业内最先进和最具弹性的 active-on-active 芯片堆叠技术。 3D V-Cache 在封装上的实质,应该就是台积电的某种前端 3D 封装技术,如 CoW(chip-on-Wafer)。这两年有关 2.5D 和 3D 封装的话题也算是相当活跃。那么所谓的 2D、2.5D、3D 封装,尤其后两者究竟有什么区别呢? 很多日常关注半导体新闻的同学,对于台积电 CoWoS、InFO,Intel 的 EMIB、Foveros 这些晶圆级(wafer-level,相对于 package 级和系统级而言)封装技术应当都有所耳闻。它们时而 2.5D,时而 3D,好像非常神秘的样子。 举一些比较现成的例子,2016 年英伟达面向数据中心或 HPC 市场的 Pascal 架构 P100 GPU,在 GPU 四周就封装了 4 片 HBM 存储芯片——这是采用 CoWoS 封装的一个典型例子,现在英伟达的数据中心 GPU 也差不多是这样。从上面这张图就不难发现,这类封装的不同芯片仍然处在同一平面内。 不过 CoWoS 封装和前文提到的 AMD Zen 的 chiplet 方案还是不同的,多芯片(或者多个chiplet)下面有个 interposer (硅中介层)做互联支持,而不是暴力地直接从 substrate 走线的(下图第一个方案),形如下面这张图中的第二个方案(顺带一提,下图的第三个方案就是 Intel 的 EMIB): 类似有 interposer 硅中介层这类封装方案,一般称其为 2.5D 封装(也有称其为 3D 封装的)。这类方案中颇具知名度的芯片,除了英伟达 GPU 以外,还有赛灵思比较早就在用的 Virtex FPGA,去年富士所推的 HPC 芯片 A64FX(富岳超算)也在其中。当然 CoWoS 并不是台积电唯一的 2.5D/3D 封装技术。 至于真正的 3D 封装,那就是类似于 AMD 的 3D V-Cache(以及 Intel 的 Lakefield)这种 chiplet 可以垂直堆叠的方案了——虽然这么说也不尽然,但大致上就是这么回事。 台积电的 3DFabric 为了对晶圆级的 2.5D/3D 封装技术做品牌上的归一化,去年台积电发布了一个新的品牌名: 3DFabric。3DFabric 分成两大块,分别是前端芯片堆叠技术,如 CoW(Chip on Wafer,AMD 这次发布的 3D V-Cache 应当就属于 CoW);还有后端封装技术,包括 InFO、CoWoS。 前端的“芯片堆叠(Chip Stacking)”就属于名副其实的 3D 方案,毕竟 die 都叠起来了——CoW 和 WoW 这两者也被统称为 SoIC(System on Integrated Chips)。SoIC 的本质是设计把芯片“粘”在一起的介面(interface),就像前文提到 AMD 把 SRAM“粘”在处理器核心 die 上面。当然这个过程还是相当复杂的。 台积电此前宣传中提到芯片之间面对面的 SoIC bonding 相比于用 micro-bump 连接(Intel 的 EMIB 和 Foveros 都是 micro-bump 连接),至多减少了 35% 的热阻。台积电宣传中也提到了高出很多的互联密度(台积电宣传中提到 bonding 间距可以达到了 0.9μm,对芯片的 BOEL 互联做扩展;不过实际 N7/N6 工艺下的 SoIC bonding 间距大约在 9μm 左右,N5 则可下探到 5μm)——似乎比 Intel 的 micro-bump 间距要小(Lisa Su 宣传相比 micro-bump 方案有 15 倍的密度领先,不知具体对比的是谁),随晶体管工艺节点迭代,bonding 间距也会随之发生变化;与此同时有更高的效率(pJ/bit 更低)。 内容选读添加: SoIC 是 hybrid bonding 封装的一个重要实施方案,相比 micro-bump,也是实现更小的 bonding 间距,以及芯片之间数十倍通讯性能和效率的关键。 铜 hybrid bonding 技术比较早见于索尼 CIS 图像传感器的应用(逻辑电路层与像素层的 bonding),Xepri 比较知名的 DBI 也是。针对更复杂的先进芯片封装,台积电是 hybrid bonding 封装技术的主要推进者。 上面这张图是 Xperi 的 die-to-wafer 的 hybrid bonding 流程示意图,整个过程在 fab 进行,帮助各位理解吧... Semiconductor Engineering 的这篇文章对 Xperi 的 die-to-wafer hybrid bonding 做了大致的解释,有兴趣的同学可以去看看。 不过应用 SoIC 技术的不同芯片需要从头做配合设计,所以其弹性就没那么高;不像其他 micro-bump 的方案,不同的芯片可以是来自完全不同的制造商,连 interposer 本身都可以。 而后端的封装,实则主要就属于我们常说的 2.5D 封装,如前文提到的把两片 die 放到同一个封装内,die 可以并列放在一个平面上,然后用各种方案做连接,比如说硅中介 interposer——也就是一大片硅片位于所有 die 之下,如英伟达的 GPU+HBM。硅中介本身可以是被动的(即只用于 die-to-die 连接,而没有主动电路),也可以是主动的(active)。 CoWoS 如前面图中提到的,还可以进一步细分,这里探讨的主要是 CoWoS-S;而 CoWoS-L 与 Intel EMIB 类似的,互联依靠的是 LSI(local silicon interconnets)和 RDL(redistribution layer),die 与 die 之间的连接是“本地化”的连接,用的是硅 bridge 和 RDL,应该能够实现更高的成本效益(就像前文中 Intel 的 PPT 提到的)。 除了这种 side-by-side 式把多 die 放在硅中介上的方案,在后端封装上也可以用 die-on-die 垂直堆叠的方式,但和前端的 SoIC 实施方案有区别。台积电后端封装的垂直堆叠也采用 micro-bump(而前文谈到了,SoIC 是 die 之间金属层的对齐和 bonding),如此一来就能实现更具弹性的芯片搭配,在密度和效率方面自然是不及 SoIC 的。 值得一提的是,台积电的前后端技术是可以混合使用的,即前端做芯片堆叠和后端再做封装。CoWoS 的全称是 Chip-On-Wafer-on-Substrate,这个词组的前面半截就是前端的 CoW。Wikichip 在对 CoWoS 的介绍中,就将其与 CoW 放在了一起,提到一方面做 side-by-side 的多 die 封装,另一方面通过 CoW 把芯片再 3D 堆叠起来,就像下面这样: 来源:Wikichip 另外,CoWoS 本身的进化还体现在 interposer 硅中介层能做多大的面积——这一层做得越大,则能够容纳的 chip 数量自然也就越多。在此前 探讨 GPU 的 die 尺寸过大的一篇回答 里,提到光刻机所能做出最大的 die size 是有个极限的,这个极限叫做 reticle limit(或 reticle size)。CoWoS 技术本身就在不停突破 reticle limit,台积电此前就已经实现了所谓的 multi-reticle 尺寸的硅中介技术,也就是让硅中介层 interposer 面积更大。 去年台积电就宣布 interposer 层(CoWoS-S)的尺寸 2023 年可以达到 4x reticle size,突破 3000mm²,主要是对叠加更多的 HBM 存储资源有意义。 除了 CoWoS 之外,前面那张台积电 3DFabric 的图,后端的封装技术还有个 InFO(Intergrated Fan Out)——也应该是比较知名的封装技术了,在 SoC 的标准 floorplan 之外 fan out(好像被译作扇出)出额外的连接。通常在一颗芯片的逻辑电路部分之外,容纳了更多需要的 pin-out 连接。 InFO 的存在也有些年头了,这同样是一种晶圆级的封装解决方案。这类方案采用 RDL 和 TIV(through-InFO vias,貌似是指贯穿封装的 via 通孔)实现连接。 比较知名的应该是 iPhone 6s 的 A10 芯片,就用上了 InFO_POP 封装——替代传统封装级的 POP。不过不知道具体是怎么做的,TechInsights 有做一份 A10 芯片拆解的报告就提到了这一点,但报告是收费的,有兴趣的同学可以花几千美金去购买…… 来源:Wikichip 看 Wikichip 的介绍,InFO_POP 受限于存储带宽,后续台积电有更新一个 3D-MUST-in-MUST(Multi-Stack)封装技术,把多个垂直堆叠的存储芯片通过高密度 RDL 和小间距的 TIV,以 InFO 的方式做多个存储芯片的垂直堆叠,形如上面这张图。大概苹果 A10 也有类似的结构吧。 前两年台积电对 InFO 封装似乎有更多的划分,比如说 InFO_POP 是为移动 AP(应用处理器)准备的;另外 InFO_AiP(Antenna-in-package),面向的是 RF 前端模块应用,InFO_MUST(Muti-stack)则针对基带 modem;还有什么 InFO_oS(on substrate)、InFO_MS(memory on substrate)、InFO_UHD(ultra-high-density)等各种应用。 看去年台积电更新的图,InFO 大方向就分成了两块即 InFO-R 和 InFO-L,不知道是把上面这些应用整合成了大方向的两个,还是去掉了一些方案——可能在具体的封装策略上,InFO 和 CoWoS 的分工也有了一些调整。 这里 InFO-R(InFO_oS)是在 die 和 micro-bump 之间增加 RDL 层,将多个 die 放到一个封装内;InFO-L 则是用 LSI 连接多个 die,和 CoWoS-L 类似。 各种封装方案有对应的应用领域,之前台积电把 CoWoS 定位于 AI、networking、HPC,而 InFO 定位于 networking 和移动应用,现在看来可能是有变化的。 具体的介绍差不多就是这些了。这篇文章的后两部分,属于针对 AMD 3D V-Cache 的延伸,算是开阔下我们这些技术爱好者的视野吧。这些此前只放在嘴上谈的东西,不知不觉间就已经应用到消费电子产品上了;比如年底就要量产的 192MB L3 cache,当然不同 SKU 也不一定是 192MB 就是了。虽然可能光堆个 L3 cache 也没什么大不了,不过感觉 Intel 腹背受敌的现状,还真是相当严峻啊。 参考来源: TSMC Dishes on 5nm and 3nm Process Nodes, Introduces 3DFabric Tech - Tom's Hardware, https://www.tomshardware.com/news/tsmc-5nm-4nm-3nm-process-node-introduces-3dfabric-technology AMD Demonstrates Stacked 3D V-Cache Technology: 192 MB at 2 TB/sec - AnandTech, https://www.anandtech.com/show/16725/amd-demonstrates-stacked-vcache-technology-2-tbsec-for-15-gaming Chip-on-Wafer-on-Substrate (CoWoS) - TSMC - Wikichip, https://en.wikichip.org/wiki/tsmc/cowos Introducing TSMC 3DFabric: TSMC’s Family of 3D Silicon Stacking, Advanced Packaging Technologies and Services - TSMC, https://www.tsmc.com/english/news-events/blog-article-20200803 3DFabric: The Home for TSMC's 2.5D and 3D Stacking Roadmap - AnandTech, https://www.anandtech.com/show/16051/3dfabric-the-home-for-tsmc-2-5d-and-3d-stacking-roadmap TSMC Announces 2x Reticle CoWoS For Next-Gen 5nm HPC Applications - Wikichip Fuse, https://fuse.wikichip.org/news/3377/tsmc-announces-2x-reticle-cowos-fornext-gen-5nm-hpc-applications/ TSMC Talks 7nm, 5nm, Yield, And Next-Gen 5G And HPC Packaging - WikiChip Fuse, https://fuse.wikichip.org/news/2567/tsmc-talks-7nm-5nm-yield-and-next-gen-5g-and-hpc-packaging/2/
相关资源