• 快速搞懂!单片机的同步通信和异步通信

    单片机通信:一文看懂同步通信和异步通信

    前天 56浏览
  • MOS管如何控制电流方向的?

    MOS管通过栅极电压控制漏极电流,利用电压比较器(如LM358)实现动态控制。控制电压与参考电压比较,通过循环控制实现电流动态调整及方向控制,方向由MOS管类型(N或P沟道)决定。在mos管实际使用的过程中,mos管既可用于放大电流,又可以作为电子开关。 那么mos 管如何控制电流方向的呢? mos 管作为电压控制器件,通过加在输入端栅极的电压来控制输出端漏极的电流,即利用对 G 极施加电压以实现对电流的控制。 以利用电压比较器(如 LM358)控制 mos管为例,将一个控制电压(接入比较器同相输入端)和一个参考电压(接入比较器反相输入端)同时送入电压比较器(比较器电源接正 12V 和地),比较器的输出经过 5.1K 电阻上拉后接 G 极。 在初始阶段,若控制电压比参考电压高,此时 G 极基本上能加到12V,可使 mos管迅速导通,输出电流。由于刚开始电流很小,所以控制电压比参考电压高很多。而随着电流增大逐步达到某个值时,参考电压会迅速上升,当与控制电压接近并超过时,比较器就输出低电平(接近 0V),使得 mos管截止,电流减小。而后电流减少后,参考电压又下降,管子又导通,电流又增大,如此循环往复,实现对电流的动态控制以及电流方向按照 mos管自身类型(N 沟道或 P 沟道)所规定的从漏极到源极或从源极到漏极的流向控制。

    前天 70浏览
  • 用FPGA实现Aurora 8B/10B接口(1)—— 什么是Aurora 8B/10B协议?

    1、概述\x26amp;nbsp; \x26amp;nbsp; \x26amp;nbsp;Aurora 8B/10B协议是一个用于在点对点串行链路间

    前天 67浏览
  • 用DeepSeek详解芯片制造的大马士革工艺

    各位大拿,给品评下DeepSeek给出的答案怎么样! 提问DeepSeek: 尽可能详细介绍芯片制造的大马士革工艺 DeepSeek思考: 嗯,用户让我尽可能详细地介绍芯片制造中的大马士革工艺。首先,我需要回顾一下之前的知识,大马士革工艺主要用于金属互连,特别是铜互连,对吧?不过现在得仔细看看用户提供的搜索结果,确保信息准确且最新。 首先看网页1,提到铜大马士革工艺成为主要互连工艺,因为集成电路尺寸缩小,铜的电阻率更低,替代了铝。还有单大马和双大马的区别,双大马步骤更少,成本低。中微公司在刻蚀设备上的进展,特别是在28纳米及以下的一体化刻蚀工艺。这些信息很重要,需要整合到历史背景和制造流程中。 网页2解释了为什么大马士革工艺替代铝制程,铜的优点:电阻率低,电迁移抗性好,制造工艺优势。这里需要强调铜相对于铝的优势,以及大马士革工艺如何解决铜刻蚀的问题,比如介质层刻蚀和CMP的应用。 网页3内容不可用,可能跳过。网页4提到大马士革铜的历史背景,现代应用中的超微细结构、抗氧化性、热稳定性,以及制造流程中的材料准备、光刻、刻蚀、CMP等步骤。还有市场前景,比如5G、AI的应用,这些可以作为应用部分的补充。 网页5详细描述了大马士革工艺的步骤,特别是双大马士革的三种类型:先通孔、先沟槽、自对准。还提到阻挡层的作用,防止铜扩散。这点在制造流程中需要详细说明。 网页6讨论了半大马士革工艺在1.5nm节点的应用,涉及后段器件集成和新的掩膜版技术,还有高深宽比金属线和空气间隙的挑战。这部分可能属于工艺挑战或前沿发展,可以放在技术难题或最新进展中。 网页7对比了单双大马士革工艺,指出单大马用于第一层金属,双大马用于其他层,并解释了先通孔和先沟槽的不同应用节点。还有工艺流程的步骤,比如介质层刻蚀、阻挡层沉积、铜填充、CMP等,需要整合到制造步骤中。 网页8提到华进半导体的专利,关于聚合物介质层的CMP处理,这可能属于工艺中的挑战,比如不同介质层的处理,以及如何优化平坦化。 网页9是专家约稿,详细讨论大马士革工艺的发展现状,包括Low-k材料的使用,双大马士革的流程,以及工艺中的难题如低电阻通孔和电迁移失效。还提到了一体化刻蚀方法(AIO)的优势,这部分可以作为工艺流程中的创新点。 网页10提到刻蚀工艺中的大马士革和极高深宽比刻蚀,在逻辑器件中的应用,特别是28纳米以下的一体化刻蚀工艺。这需要结合到制造步骤中的刻蚀部分,说明其技术难度和重要性。 现在需要将这些信息结构化,分成历史背景、核心原理、制造流程、技术优势、挑战与解决方案、前沿发展等部分。同时注意引用对应的网页编号,比如在提到铜替代铝的原因时引用网页2和网页5,在双大马士革工艺时引用网页1、5、7、9等。 需要特别注意不同网页中的重复和互补信息,比如网页2和5都提到铜的低电阻率和电迁移抗性,网页7和9都讨论双大马士革的步骤。需要整合这些内容,避免重复,同时确保覆盖所有关键点,如阻挡层的作用、CMP的重要性、Low-k材料的使用等。 还要注意术语的一致性,比如双大马士革和Dual Damascene是同一概念。同时,在工艺流程部分需要详细描述步骤,包括介质层刻蚀、阻挡层和种子层沉积、铜电镀、CMP,以及单双大马士革的区别。 在技术挑战部分,要包括电迁移、通孔电阻、高深宽比刻蚀、介质层缺陷等问题,以及相应的解决方案,如复合金属通孔、工艺参数优化、一体化刻蚀方法等。 最后,前沿发展部分可以提到1.5nm节点的半大马士革工艺、混合键合技术、空气间隙和高深宽比金属线,这些来自网页6、9、10的信息,展示大马士革工艺的未来方向。 确保每个部分都有相应的引用,比如在历史背景中引用网页1、5、7,在制造流程中引用多个网页的具体步骤,挑战部分引用网页6、8、9、10,前沿部分引用网页6、9、10等。 需要检查是否有遗漏的重要信息,例如网页4提到的抗氧化性和热稳定性,网页9的Low-k材料要求,这些在优势部分需要强调。同时,网页8提到的CMP处理聚合物介质层的专利,说明工艺中的具体挑战和解决方案。 现在将这些信息组织成一个结构清晰、内容详尽的回答,确保每个部分都有足够的细节和引用支持,并且语言流畅,符合用户要求的专业性和深度。 DeepSeek回答: 芯片制造中的大马士革工艺详解 大马士革工艺(Damascene Process)是半导体制造中用于金属互连的关键技术,尤其在铜互连技术中占据核心地位。其名称源于古代大马士革城镶嵌金属的工艺,通过“先刻蚀后填充”的方式实现高精度金属线路的制备。以下从多个维度详细解析这一工艺: 一、历史背景与技术演进 起源与替代铝制程 传统铝互连在0.18微米以下制程中暴露出电阻率高、电迁移易失效等问题。1997年IBM首次提出大马士革工艺,以铜替代铝,利用铜的低电阻率(1.68 μΩ·cm vs 铝的2.82 μΩ·cm)和更强的电迁移抗性,显著提升了芯片性能479。 关键突破:铜难以通过传统干法刻蚀(生成固态副产物),大马士革工艺通过刻蚀介质层并填充铜,避免了直接刻蚀金属的难题79。 技术发展 从单大马士革(仅刻蚀沟槽或通孔)到双大马士革(同时刻蚀沟槽和通孔),工艺复杂度降低约20%,成本更优。双大马士革成为主流,尤其在28纳米及以下节点中,一体化刻蚀技术(如中微公司的动态极板间距调节设备)进一步提升了精度和效率2912。 二、核心工艺原理与流程 基本步骤 介质层刻蚀:在Low-k介电材料(如多孔SiO₂、FSG)上刻蚀出通孔(垂直连接)和沟槽(水平布线)11。 阻挡层与种子层沉积:通过物理气相沉积(PVD)生成Ta/TaN等阻挡层(防止铜扩散)和铜种子层(促进电镀)1011。 铜电镀与填充:电镀铜填充凹槽,确保无空隙(高深宽比下需优化电镀参数)79。 化学机械平坦化(CMP):去除多余铜和阻挡层,形成平整表面1011。 双大马士革的两种路径 先通孔后沟槽:适用于65纳米及以上节点,通孔尺寸更小,需高精度光刻胶9。 先沟槽后通孔:45纳米以下节点采用金属硬掩模一体化刻蚀(AIO),减少介质损伤并优化关键尺寸控制911。 三、技术优势 性能提升 低电阻与高频特性:铜的低电阻率减少信号延迟,提升芯片速度,尤其适用于5G、AI等高带宽场景46。 高可靠性与抗电迁移:铜的抗电迁移能力比铝高10倍以上,延长芯片寿命411。 工艺兼容性 高互连密度:支持亚微米线宽(4纳米以下),推动3D封装(如混合键合技术)发展11。 简化流程:无需复杂金属刻蚀,直接填充铜降低缺陷率79。 四、关键技术挑战与解决方案 通孔电阻与材料创新 复合金属通孔:IMEC提出钨-铜复合结构,在10纳米通孔中电阻降低50%,同时提升热稳定性11。 阻挡层优化:采用超薄TaN/Ta阻挡层减少电阻并增强附着力11。 电迁移失效 逆流迁移控制:通过优化沟槽/通孔深径比(如W1=HD/D1, W2=HT/D2)和种子层沉积方向,减少空洞形成11。 高深宽比刻蚀与填充 深宽比>40:1的挑战:在3D NAND等存储器件中,需精准控制等离子体刻蚀参数(如射频能量、气体流量)以避免侧壁缺陷12。 空气间隙技术:通过选择性刻蚀在紧密间距中形成空气层,降低寄生电容811。 Low-k材料缺陷 多孔介质处理:采用低介电常数材料(如SiOCH)时,需避免刻蚀过程中的侧壁弯曲和阶梯缺陷,优化光刻条件11。 五、前沿发展与未来趋势 1.5纳米节点创新 半大马士革工艺:结合自对准图形化与间隙填充技术,支持14-22纳米金属间距,提升后段集成密度8。 混合高度金属线:定制不同高度的金属线优化电阻电容性能,适用于电源线与信号线分离设计8。 封装领域扩展 混合键合(Hybrid Bonding):利用大马士革铜线路的平整表面实现芯片直接键合,推动2.5D/3D封装发展11。 TSV转接板应用:通过铜电镀填充硅通孔,提升封装互连密度10。 国产替代进展 设备与材料突破:中微公司开发的一体化刻蚀设备已用于28纳米以下逻辑器件,国产CMP技术(如华进半导体专利)在聚合物介质层处理中取得进展21012。 六、总结 大马士革工艺是芯片制造中铜互连的核心技术,其通过介质刻蚀与铜填充的结合,解决了微缩化制程中的电阻、可靠性和集成密度难题。随着先进节点向1.5纳米迈进,工艺创新(如半大马士革、混合键合)和设备国产化将成为突破关键。未来,该技术不仅推动逻辑和存储芯片的性能提升,还将加速先进封装与异构集成的发展2811。

    前天 92浏览
  • 光刻机原理及光刻设备的系统结构介绍

    张霞 刘宏波 顾文 周细应 于治水 (上海工程技术大学 材料工程学院) 摘要: 文章以光刻原理为引子,介绍光刻设备的系统结构,解读光刻机行业的发展概况,重点介绍光刻机装备国产化的发展之路,最后,文章提出中国半导体装备业国产化的顶层设计框架。 光刻机,被誉为人类20世纪的发明奇迹之一,是集成电路产业皇冠上的明珠,研发的技术门槛和资金门槛非常高。 光刻机是一种夸张类型的单反相机,将该层次光掩膜版上的事实图形缩小几百万倍,并实际制造出来。最核心的是镜头,这个不是一般的镜头,可以达到高2 m、直径1 m,甚至更大。光刻机是集成电路制造中最庞大、最精密复杂、难度最大、价格最昂贵的设备。光刻机就是将光掩膜版上的设计好的集成电路图形(宏观)通过光线的曝光印制到硅衬底的光感材料(微观)上,实现图形转移。 这一系列的光刻工艺过程在芯片生产过程中需要重复25次左右。整个流程决定了半导体线路纳米级的加工精度,对于功率以及光源的要求也十分复杂,对光刻机的技术要求十分苛刻,对误差和稳定性的要求极高,相关部件需要集成材料、光学、机电等领域最尖端的技术。因而光刻机的分辨率、精度也成为其性能的评价指数,直接影响到芯片的工艺精度以及芯片功耗、性能水平[1]。 1 光刻原理 光刻(lithography)设备是一种投影曝光系统,由紫外光源、光学镜片、对准系统等部件组装而成。在半导体制作过程中,光刻设备会投射光束,穿过印着图案的光掩膜版及光学镜片,将线路图曝光在带有光感涂层的硅晶圆上,如图1所示。通过蚀刻曝光或未受曝光的部份来形成沟槽,然后再进行沉积、蚀刻、掺杂,架构出不同材质的线路[2]。此工艺过程被一再重复,将数十亿计的MOSFET或其他晶体管建构在硅晶圆上,形成一般所称的集成电路。 半导体制程越先进,光刻设备便需要越精密复杂,包括高频率的激光光源、光掩模的对位精度、设备稳定度等,集合了许多领域的最尖端技术。图2是一张ASML的双工作台Twinscan光刻机介绍,各模块的作用如图2所示。 激光器(Laser):也就是光源的发源地,光刻机核心设备之一。 束流输送(Beam Delivery):设置光束为圆型、环型等不同形状,不同的光。 束状态有不同的光学特性。矫正光束入射方向,让激光束尽量平行。 物镜(Projection Lens):物镜用来补偿光学误差,并将线路图等比例缩小。 操作控制单元(Operate Control Unit):操作控制设备的运行控制电脑面板。 光源(Illuminator):是光刻的利刃。光源的要求:有适当的波长(波长越短,曝光的特征尺寸就越小),同时有足够的能量,并且均匀地分布在曝光区。紫外光源的高压弧光灯(高压汞灯)的g线(436 nm)或i线(365 nm);准分子激光(Excimer laser)光源,比如KrF(248 nm)、ArF(193 nm)和 F2(157 nm)。 硅片传输系统(Wafer Transport System,WTS):用硅晶制成的圆片。硅片有多种尺寸,圆片尺寸越大,产率越高。曝光的特征尺寸越小,产率越高。 扫描刻线阶段(Scanning Reticle Stage):整个扫描曝光过程中由于硅片台存在急剧的加速阶段及减速阶段,且加速度和减速度a大小一般会达到1~4 g(g代表重力加速度),因此会对步进扫描光刻机造成扰动。由于硅片台和掩模台的运动精度、同步精度等要求,必须对步进扫描光刻机受到的扰动进行有效抑制和补偿,以提高硅片上形成图形的精度。 扫描硅片阶段(Scanning Wafer Stage,SWS):硅片是圆的,需要在硅片上剪一个缺口来确认硅片的坐标系,根据缺口的形状不同分为两种,分别叫flat,notch。 隔震器(Airmounts):将工作台与外部环境隔离,保持水平,减少外界振动干扰,并维持稳定的温度、压力。 2 全球光刻机发展概况 目前业界有5家公司,分别是荷兰的ASM L、日本的Nikon、日本的canon、美国的ultratech以及我国的SMEE。 阿斯 麦(Ad v a n c e d S e m i c o n d u c t o r M a t e r i a l s Lithography,ASML)1971年脱胎于飞利浦光刻设备研发小组,1973年成功推出新型光刻设备。早期的发展惨溃,几乎陷入破产境界。一是因为技术落后,飞利浦公司先前研发的技术在漫长的等待中已经过时,远不能满足客户要求;二是市场已经饱和,竞争非常激烈,强手如林,日本的Nikon,Canon,Hitachi,美国的GCA,SVG,Ultratch,ASET,Perkin-Elmer,Eaton,民主德国的Zeiss等相继推出了自己的光刻机产品;三是资金严重匮乏。 但是ASML杀出重围,并成长为光刻机领域的绝对龙头,全球市占率达到近70%,垄断高端EUV(深紫外)光刻机市场。观其成长之路,可谓一段产业传奇。1995年上市,充裕的资金让公司发展提速;2000年推出Twinscan双工件台光刻机(见图2),一举奠定霸主地位;进入EUV时代,得到大客户支持,更是一骑绝尘。可以说ASML的龙头之路既与产业大环境密切相关,也是其自身重视研发,对研究创新始终采取开放态度的必然结果。 随着芯片尺寸不断缩小,EUV设备未形成行业刚需,目前全球一线的逻辑晶圆与存储晶圆厂商,均采购ASML的Twinscan机型,其中英特尔、三星、台积电三大巨头,纷纷入股ASML,以谋求其高端光刻设备共同开发与优先采购权。 ASML的研究团队与供应商及全球顶尖的科研机构、大学建立广泛的合作,采用开放式创新模式,大家在利己最擅长的尖端技术领域进行创新,分享专利成果和研发风险,合作伙伴也可以将这些技术用于其他领域。并且鼓励供应商在制造过程中提出改进意见,具有极高的效率和灵活性。 3 光刻机装备国产化的发展之路 我国光刻机设备的研制起步也不晚。从20世纪70年代开始就先后有清华大学精密仪器系、中科学院光电技术研究所、中电科45所投入研制。 2002年国家在上海组建上海微电子装备有限公司承担“十五”光刻机攻关项目时,中电科45所将从事分步投影光刻机研发任务的团队整体迁至上海参与其中。目前,我国从事集成电路前道制造用光刻机的生产厂商只有上海微电子装备(集团)股份有限公司(SMEE)和中国电科(CETC)旗下的电科装备。 上海微电子装备(集团)股份有限公司(SMEE)是国内技术最领先的光刻机研制生产单位,目前已量产的光刻机有3款(见表1),其中性能最好的是90 nm光刻机。2016年国内首台前道i线扫描光刻机交付用户。2017年4月公司承担的国家02重大科技专项任务“浸没光刻机关键技术预研项目”通过了国家正式验收;2017年10月公司承担的02重大科技专项“90 nm光刻机样机研制”任务通过了02专项实施管理办公室组织的专家组现场测试。 CE T C 的装 备光 刻 机 是 依 托 原 来 中电 科 45所的技术,45所从“六五”开始 一直 从事光 刻 机的研 制 开发 工作,先 后完 成 我 国“六 五”“八 五”“九 五”期 间的1.5μm,0.8 μm,0.5 μm光刻机的研制任务。2002年分步投影光刻机研发团队迁至上海后,目前公司主要研制生产用于100/150 mm中小规模集成电路、二极管、三极管、电力电子器件、MEMS和其他半导体器件制造工艺的单/双面接触接近式光刻机产品(见表2)。 4 结语 SMEE的光刻机、电科装备的化学机械抛光(Chemical Mechanical Polishing,CMP)设备、北方华创的刻蚀机和CVD、盛美的清洗设备、中微的刻蚀机等都是非常有竞争力的,很多产品已经走出国门,或者与国外装备同步验证[3]。客观地讲,这些都是最近几年中国半导体装备产业的亮点。当然这些成绩也只是国产装备的初步发展,要真正做到国产高端装备全面进入市场还有很长的路要走。 第一,装备与工艺的结合问题,一直是制约国产装备进入大生产线的主要瓶颈之一。国际半导体装备厂商,特别是关键的、与工艺密切相关的前道设备厂商在工艺研发上投入巨大,一般都建有相应的工艺研发生产线。而目前国内半导体装备厂商还没有建立自己的工艺研发生产线。工艺固化到装备中,我们还有不小的距离。 第二,坚持自主研发,从零部件入手,掌控核心技术。国家重大专项对半导体设备与工艺的重视,对国产装备业来说是莫大的发展机会。我国不仅要支持关键装备的研发生产,也要支持相关重要零部件厂商。 第三,协同创新,成果共享。目前半导体装备越来越复杂,一家公司独自承担所有零部件的开发确实不易。我们应该利用整个国家、甚至于全球的资源来共同完成。发展装备业,要采取产业链、创新链、金融链有效协同的新模式,专项与重点区域产业发展规划协同布局,主动引导地方和社会的产业投资跟进支持,有效推动专项成果产业化,扶植企业做大做强,形成产业规模,提高整体产业实力。 希望有更多的社会资本能投入中国半导体装备业中,半导体装备的国产化远比芯片国产化有意义。

    前天 100浏览
  • 2025年半导体预测是怎样的?

    2024 年,半导体行业表现强劲,预计实现两位数 (19%) 增长,全年销售额达 6270 亿美元。这甚至好于早先预测的 6110 亿美元。2025年的表现可能会更好,预计销售额将达到 6970 亿美元,创下历史新高,并有望实现到 2030 年芯片销售额达到 1 万亿美元的广泛接受的目标。这意味着,该行业在 2025 年至 2030 年期间仅需以 7.5% 的复合年增长率增长(图 1)。假设该行业继续以这样的速度增长,到 2040 年就可能达到 2 万亿美元。 股市往往是行业表现的领先指标:截至 2024 年 12 月中旬,全球十大芯片公司的总市值为 6.5 万亿美元,较 2023 年 12 月中旬的 3.4 万亿美元增长 93%,比 2022 年 11 月中旬的 1.9 万亿美元高出 235%。话虽如此,值得注意的是,过去两年芯片股的“平均”表现一直是“两个市场的故事”:参与生成式人工智能芯片市场的公司表现优于平均水平,而没有这种风险的公司(例如汽车、计算机、智能手机和通信半导体公司)表现不佳。 推动行业销售的一个因素是对新一代人工智能芯片的需求:包括 CPU、GPU、数据中心通信芯片、内存、电源芯片等。德勤的《2024 年 TMT 预测》报告预测,这些新一代人工智能芯片的总价值将“超过”500 亿美元,这是一个过于保守的预测,因为到 2024 年,市场价值可能超过 1250 亿美元,占当年芯片总销售额的 20% 以上。在本文发表时,我们预测到 2025 年,新一代人工智能芯片的价值将超过 1500 亿美元。此外,AMD 首席执行官 Lisa Su 将她对人工智能加速器芯片总潜在市场的估计上调至 2028 年的 5000 亿美元,这一数字高于 2023 年整个芯片行业的销售额。 在终端市场方面,个人电脑销量在 2023 年和 2024 年持平于 2.62 亿台后,预计 2025 年将增长 4% 以上,达到约 2.73 亿台。与此同时,智能手机销量预计将在 2025 年(及以后)以低个位数增长,到 2024 年达到 12.4 亿台(同比增长 6.2%)。这两个终端市场对半导体行业至关重要:2023 年,通信和计算机芯片销售额(包括数据中心芯片)占当年半导体总销售额的 57%,而汽车和工业(仅占总销售额的 31%)则占比更高。 该行业面临的一个挑战是,虽然新一代人工智能芯片和相关收入(内存、先进封装、通信等)带来了巨额收入和利润,但它们只代表了少数高价值芯片,这意味着整个行业的晶圆产能(以及利用率)并不像看起来那么高。2023 年,芯片销量接近 1 万亿,平均售价为每片 0.61 美元。粗略估计,虽然新一代人工智能芯片可能占 2024 年收入的 20%,但它们在晶圆总产量中所占比例还不到 0.2%。尽管预计 2024 年全球芯片收入将增长 19%,但全年硅晶圆出货量实际上预计下降2.4%。预计到 2025 年,这一数字将增长近 10%,这得益于对新一代 AI 芯片中大量使用的组件和技术(如小芯片)的需求,正如我们在 2025 年 TMT 预测报告中提到的那样。当然,硅晶圆并不是唯一需要追踪的产能:先进封装的增长速度更快。例如,一些分析师估计,台积电的 CoWoS(基板上晶圆上的芯片)2.5D 先进封装产能将在 2024 年达到每月 35,000 片晶圆(wpm),并可能增加到 70,000 wpm(同比增长 100%),到 2026 年底将进一步同比增长 30% 至 90,000 wpm。 此外,推动行业创新并不便宜。2015 年,芯片行业整体研发支出占息税前利润 (EBIT) 的平均水平为 45%,但到 2024 年,这一比例预计将达到 52%。研发支出的复合年增长率似乎为 12%,而白色 EBIT 的增长率仅为 10%(图 2)。 最后,值得提醒读者的是,芯片行业是出了名的周期性行业。在过去 34 年中,该行业曾 9 次从增长转为萎缩(图 3)。因此,与 1990 年至 2010 年相比,过去 14 年该行业的极端增长或萎缩似乎有所减少,但萎缩的频率似乎有所增加。目前看来,2025 年前景看好,很难预测 2026 年会带来什么。 这些趋势和其他趋势都影响着我们对 2025 年半导体行业的展望,我们将深入探讨未来一年的四大主题:用于个人电脑和智能手机以及企业边缘的生成式 AI 加速器芯片;芯片设计的新“左移”方法;日益严重的全球人才短缺;以及在不断升级的地缘政治紧张局势中建立有弹性的供应链的必要性。 1 个人电脑、智能手机、企业边缘和物联网中的生成式 AI 芯片 用于训练和推理新一代人工智能的许多芯片价格高达数万美元,用于大型云数据中心。2024 年和 2025 年,这些芯片或这些芯片的轻量级版本也将在企业边缘、计算机、智能手机以及(随着时间的推移)其他边缘设备(如物联网应用)中找到归属。需要明确的是,在许多情况下,这些芯片要么用于新一代人工智能,要么用于传统人工智能(机器学习),或者两者的结合(这种情况越来越多)。 企业边缘市场在 2024 年就已成为一个因素,但 2025 年的问题将是这些芯片的更小、更便宜、功能更弱的版本如何成为计算机和智能手机的关键部件。它们在单芯片价值上的不足可以通过数量来弥补:预计 2025 年个人电脑销量将超过 2.6 亿台,而智能手机销量预计将超过 12.4 亿台。有时,“新一代人工智能芯片”可以是一块独立的硅片,但更常见的是,它是几平方毫米的专用人工智能处理空间,是更大芯片的一小部分。 企业边缘:尽管通过云端实现人工智能可能仍将是许多企业的主导选择,但预计全球约有一半的企业将在本地增加人工智能数据中心基础设施——这是企业边缘计算的一个例子。这可能部分是为了帮助保护他们的知识产权和敏感数据,并遵守数据主权或其他法规,同时也是为了帮助他们节省资金。这些芯片与超大规模数据中心的芯片大致相同,服务器机架的成本高达数百万美元,需要数百千瓦的电力。虽然比超大规模芯片的需求要小,但我们估计,到 2025 年,全球企业边缘服务器芯片的价值可能达到数百亿美元。 个人电脑:预计到 2025 年,搭载人工智能的 PC 销量将占到所有 PC 的一半,一些预测表明,到 2028 年,几乎所有 PC 都将至少配备一些板载人工智能处理,也称为神经处理单元 (NPU)(图 4)。这些搭载 NPU 的机器预计价格将高出 10% 至 15%,但需要注意的是,并非所有人工智能 PC 都一样。根据主要 PC 生态系统公司的建议,只有每秒运算速度超过 40 TOPS 的计算机才被视为真正的人工智能 PC,40 TOPS(每秒万亿次运算)级别是一条分界线。截至撰写本文时,一些买家对这些新 PC 持谨慎态度,要么不愿意支付溢价,要么等到 2025 年下半年推出更强大的人工智能 NPU。 截至 2024 年 12 月,许多已安装的 PC 都运行在 x86 CPU 上,其余则运行在基于 Arm 架构的 CPU 上。联发科、微软和高通于 2024 年宣布,他们将生产基于 Arm 的 PC,特别是新一代 AI PC。目前尚不清楚这些机器在未来 12 个月内会取得多大成功,但这很可能是各家芯片制造商面临的一个关键问题,高通预计到 2029 年,其每年将销售价值 40 亿美元的 PC 芯片。 智能手机:PC NPU 的价值可能高达数十美元,而与智能手机相当的新一代 AI 芯片的价值可能要低得多,我们估计下一代智能手机处理器的硅片价格不到 1 美元。尽管智能手机市场每年的销量超过 10 亿部,尽管我们预测到 2025 年新一代 AI 智能手机将占手机销量的 30%,但以美元计算,半导体的影响可能小于 PC。相反,对于芯片制造商来说,一个有趣的角度可能是看看消费者是否对新一代 AI 手机和功能足够兴奋,以缩短更换周期。消费者在升级之前会保留手机更长时间,而且多年来销量一直持平。如果新一代 AI 热情导致智能手机销量上升,那么它可能会使所有类型的芯片公司受益,而不仅仅是那些自己生产新一代 AI 芯片的公司。 物联网:数据中心的新一代人工智能芯片可能要花费 30,000 美元。个人电脑上的新一代人工智能芯片可能要花费 30 美元。智能手机上的新一代人工智能芯片可能要花费 3 美元。对于在低成本物联网市场中发挥作用的新一代人工智能芯片,它们的成本应该在 0.3 美元左右。这不太可能在短期内发生,但由于数百亿个物联网终端可能需要人工智能处理器,因此这是一个值得长期关注的市场。 需要考虑的战略问题: 尽管目前数据中心的新一代人工智能芯片需求旺盛,但考虑到其对行业增长的重要性,是否有迹象表明需求正在减弱,或者处理正在从数据中心转移到边缘设备? 鉴于人工智能芯片在数据中心的成功,各种边缘芯片的市场潜力可能会推动并购,并吸引更多私募股权、风险投资和主权财富基金的兴趣:芯片公司已经与金融参与者结盟。我们能在 2025 年看到更多这样的情况吗? 一些分析师预计,到 2025 年及以后,人工智能推理市场的增长速度将超过训练市场:这会对各个半导体行业和参与者产生什么影响?随着人工智能推理成本的快速下降,它将如何影响半导体芯片? 随着人们更加关注可持续性,以及由于人工智能推动的电力需求激增而导致的电力消耗压力不断加大,行业如何在笔记本电脑、手机和物联网设备等小型设备中取得电源效率和性能之间的平衡? 2 芯片设计“左移”,呼吁整个行业加强合作 德勤预测,到 2023 年,人工智能将成为人类半导体工程师的强大助手,帮助他们完成极其复杂的芯片设计流程,并使他们能够找到改进和优化 PPA(功率、性能和面积)的方法。截至 2024 年,新一代人工智能已实现快速迭代,以增强现有设计并发现可以在更短时间内完成的全新设计。2025年,可能会更加重视“左移”——一种芯片设计和开发方法,其中测试、验证和确认在芯片设计和开发过程的早期被提前——因为优化策略可以从简单的 PPA 指标发展到系统级指标,例如每瓦性能、每瓦 FLOP(或“每秒浮点运算”)和热因素。而先进的人工智能功能(图形神经网络和强化学习)的结合可能会继续帮助设计比人类工程师生产的典型芯片更节能的芯片。 领域专用芯片和专业芯片预计将继续比通用芯片占据主导地位,因为多个行业(例如汽车)和某些 AI 工作负载需要定制的芯片设计方法。然而,专用集成电路的广泛采用仍不太明朗,因为此类硬件的开发和维护成本高昂,可能会分散对其他 AI 进步的关注。但这正是新一代 AI 工具可以让公司设计出更专业、更有竞争力的产品(包括定制硅片)的地方。 3D IC 和异构架构带来了与排列、组装、验证和测试各种芯片相关的挑战,这些芯片有时可以预先组装。这种从单个产品设计转向系统设计的转变可以在早期融入软件和数字孪生——强调了早期和频繁测试的重要性。到2025 年,在流程上游同步硬件、系统和软件开发可能会有助于重新定义未来的系统工程,并提高整体效率、质量和上市时间。 为了发展并跟上设计面貌的变化,业界可能需要考虑处理复杂设计流程的新方法。芯片行业已经在探索数字孪生,以逐步模拟和可视化复杂的设计流程,包括移动或交换芯片以测量和评估多芯片系统性能的能力。数字孪生可以越来越多地用于提供物理终端设备或系统的视觉表示(通过 3D 建模),以协助设计的各个方面,包括机械和电气(软件和硬件)。设计师应该与电子设计自动化 (EDA) 和其他高科技计算机辅助设计/计算机辅助工程公司合作,以加强混合和复杂异构系统的设计、仿真、验证和确认工具和能力。他们还应该考虑使用和调整基于模型的系统工程工具,作为更广泛的 EDA“左移”方法的一部分。 由于设计和软件有望在下一代先进芯片产品的开发中发挥关键作用,因此在 2025 年,加强网络防御将变得更加重要。为了与左移方法保持一致,芯片设计人员应在芯片设计过程的早期集成安全性和安全测试。他们应该实施冗余和错误纠正和检测机制,以帮助确保系统即使某些组件发生故障也能继续运行,以及基于硬件的安全功能,例如安全启动机制和加密引擎。 需要考虑的战略问题: 随着芯片设计中的人工智能变得越来越普遍和普遍,并且 EDA 越来越多地支持人工智能,行业如何才能通过始终让人类工程师参与其中并让他们在整个过程中发挥重要作用,主动确保复杂设计过程中的信任和透明度? 在定制硅片设计的情况下,设备原始设备制造商、产品设计师和芯片设计师之间的关系性质是什么?芯片公司和最终客户之间的一些差异化因素是什么?增加定制化是否会在产品定价方面带来规模优势,或者降低生产原型的成本或加速原型生产? 新的工具和方法可能需要更广泛的芯片行业(包括 EDA 和设计公司)考虑长期方向和目标。在此背景下,半导体公司应该从系统工程和芯片开发/研发的角度解决哪些方面的问题? 对更快速、更复杂芯片的设计以及更快的速度不断增长的需求将如何影响制造能力和产能,特别是对于后端参与者(先进封装代工厂和外包半导体组装和测试)? 3 半导体行业人才挑战加剧 在德勤 2023 年半导体行业展望中,我们估计该行业到 2030 年需要增加 100 万名技术工人,即每年增加 10 万名以上。两年后,这一预测不仅成真,而且人才挑战预计将在 2025 年进一步加剧。从全球来看,各国都无法培养足够的技术人才来满足其劳动力需求。 从核心工程到芯片设计和制造、运营和维护,人工智能可能有助于缓解一些工程人才短缺问题,但技能差距依然存在(图 5)。到2025 年,吸引和留住人才可能仍将是许多组织面临的挑战,而问题很大一部分是劳动力老龄化,这在美国甚至欧洲更为突出。再加上复杂的地缘政治格局和供应链脆弱性,很明显,全球人才供应都面临压力。 随着美国和欧洲制造、组装和测试的回流,芯片公司和代工厂在 2025 年可能会面临压力,因为它们需要在当地寻找更多人才。例如,人才挑战是新工厂开业延迟的原因之一。与此相关的是,“友岸化”(与被视为盟友的国家或地区的公司合作)可以为供应链提供稳定性和弹性,尤其是对美国和欧盟而言。但它也要求在马来西亚、印度、日本和波兰等目的地寻找合适的技能,以帮助满足新的产能需求和人才角色。 芯片公司不能继续争夺同样有限的人才资源,同时还期望跟上行业技术进步和产能扩张的步伐。那么,半导体公司在 2025 年可以做些什么来解决人才难题呢? 为了吸引人工智能和芯片人才,芯片公司应该考虑提供一种信任感、稳定性和预期的市场增长。这样,他们可以帮助让该行业对高中毕业生和新进入者更具吸引力,从而帮助重振人才渠道。 希望从各自国内芯片法案中获益的国家应考虑将战略目标和与劳动力发展和激活相关的方面纳入其中。一些例子可能包括培训计划、扩大职业和专业教育以及当地芯片公司为获得资金而承诺提供的就业机会。半导体公司应考虑与教育机构(高中、技术学院和大学)和当地政府组织合作,利用芯片资金开发和策划符合该地区特定行业需求的有针对性的劳动力培训和发展计划。 半导体公司应设计灵活的技能提升和再培训计划,以实现职业道路的灵活性,帮助解决未来劳动力技能和差距问题。此外,他们还应实施和利用先进的技术和基于人工智能的工具来评估各种人才相关因素,例如供应、需求以及当前和预计的支出,以执行复杂的劳动力情景建模,以支持战略人才决策。 需要考虑的战略问题: 如何根据专业领域(例如设计和知识产权、制造、操作员、工程和技术角色)对劳动力进行描述和细分?行业如何根据这些角色以及招聘的特定地理区域定制人才采购和技能发展战略? 一个新兴趋势是代理人工智能:多模式、多代理人工智能能否部分解决迫在眉睫的人才短缺问题? 在将新人才融入主流劳动力队伍时,应考虑哪些细微差别和因素以确保企业文化的一致性?应解决与人才保留问题和人才管道发展差距相关的哪些风险和陷阱? 作为未来人才管道开发的一部分,应该考虑哪些相邻的技术劳动力类型,以及整体人才组合应该是什么样子,包括全职和零工,以帮助公司在未来一到两年内占据强势地位? 4 在地缘政治紧张局势中构建有弹性的供应链 德勤的 2024 年半导体展望已经深入讨论了地缘政治紧张局势,那么 2025 年又有哪些新情况呢? 一样……但更多。例如,2024 年 12 月,刚离任的政府发布了一份新的美国出口限制清单,主要仍集中在先进节点上(尽管有人猜测限制可能会扩大到包括一些相对不太先进的节点)。这些限制现在包括围绕先进检测和计量的单独附加类别。此外,许多(超过 100 个)新实体(主要是中国)已被添加到受限实体列表中。 作为这些限制措施的一部分,美国似乎正在采取“小院子、高围栏”的半导体出口限制方式。其目的是对相对较小的芯片技术子集施加高水平的限制,重点是国防技术,包括先进武器系统和军事应用中使用的先进人工智能。 新的限制措施(如果由新政府实施)进一步表明,人工智能的发展越来越被视为国家安全问题。在这些新限制措施出台的第二天,中国宣布进一步限制镓和锗(以及其他材料)的出口,这两种材料都是制造多种半导体的关键。正如我们在 2024 年预测的那样,持续的材料限制可能会对芯片行业构成挑战,但也是该行业加大电子垃圾回收力度的当务之急。 2025 年 1 月中旬,已离任的政府宣布了《人工智能技术扩散临时最终规则》。《临时最终规则》将对芯片出口实施新的管制。 在撰写本文时,尚不清楚新一届政府是否会取消 12 月和 1 月的限制措施、进行修改,甚至提出额外的限制措施。 此外,新政府还提议增加关税,包括对来自中国、墨西哥和加拿大的商品征收关税。69鉴于大多数半导体供应链的全球性,即将离任的政府提出的新的人工智能相关芯片出口管制以及计划中的更高关税可能会产生影响,并可能使供应链的管理变得更加复杂,从而转移利润、成本等。而且这种影响可能会影响整个供应链(包括研发和制造),并影响各个国家和地区的行业政策的制定方式。 当然,还有其他地缘政治风险或变化:乌克兰/俄罗斯和中东的冲突仍在继续,可能会影响半导体制造、供应链和关键原材料。但芯片行业还有其他薄弱环节:韩国 12 月的戒严令凸显了全球供应链对某些类型半导体的依赖和集中,尤其是在最先进的技术领域。作为集中度的一个例子,全球近 75% 的 DRAM 内存芯片都是在韩国制造的。 不仅仅是地缘政治因素会中断关键材料供应:2024 年的飓风海伦 (Hurricane Helene) 曾短暂关闭北卡罗来纳州的两座矿山,这两座矿山是全球几乎所有超高纯度石英的产地,而石英对于制造芯片制造过程中的关键部件——坩埚至关重要。由于气候变化,飓风、台风和其他极端天气事件预计将变得更加频繁和猛烈,扩大关键材料来源可能仍是供应链的首要任务。 值得注意的是,截至 2024 年底,美国及其盟友的出口限制措施中一个关键部分正在产生影响:对极紫外光刻机的限制似乎构成了一道障碍,阻止中国公司大规模生产先进节点芯片并获得可接受的产量。虽然使用较旧的深紫外技术制造了数量有限的先进工艺芯片,但良率很低,不经济,这种情况预计至少会持续到 2026 年。 需要明确的是,即使行业增长了近 20%,半导体供应链在 2024 年仍然运转良好。目前,没有理由相信 2025 年的供应链会缺乏弹性,但风险始终存在。考虑到人工智能芯片在 2025 年及以后的重要性(高达销售额的 50%,也许是75%),以及尖端芯片所需的处理器、内存和封装的相对更高集中度,该行业可能比以往任何时候都更容易受到供应链中断的影响。尽管由于各种芯片法案,该行业在地理上的集中度可能会降低——在岸外包、回岸外包、近岸外包和友岸外包等举措都还处于早期阶段——但至少在未来一两年内,该行业仍然非常脆弱。 需要考虑的战略问题: 鉴于不断变化的地缘政治环境和不断升级的出口限制,回流与离岸外包应该如何搭配?行业应如何考虑对曾经友好国家和盟友的现有供应链渠道合作伙伴关系(即友邦外包)的潜在破坏? 由于不可预测的气候变化影响材料和零部件供应,再加上本已复杂的地缘政治格局,这一因素将如何影响全球数十个国家正在雄心勃勃规划和推广的前端晶圆厂和后端封装测试厂? 如果贸易战继续升级,对人才的获取和供应意味着什么?出口限制是否会进一步扩大,并最终导致芯片竞赛中各国面临更广泛的人才流动挑战? 鉴于有将生产活动转移到美国的动机,拥有芯片制造能力的国家将如何应对美国可能征收的额外关税?考虑到更高的成本,高附加值的生产活动是否是转移到美国的理想选择?美国公司是否会重新考虑其离岸制造投资和活动? 5 未来的路标 展望2025年,半导体行业高管应留意以下迹象: 目前,人工智能在半导体方面的高额支出与企业能够将其人工智能产品货币化之间存在着不匹配的情况。对于 2025 年,“投资不足的风险大于投资过度的风险”这一论点似乎仍占主导地位,但如果这种态度发生转变,对人工智能芯片的需求可能会变得比预期的要弱。 来自敏捷芯片初创公司的竞争可能会加剧,对整个半导体行业的现有企业构成挑战。值得注意的是,人工智能芯片初创公司在 2024 年第二、第三和最后一个季度在全球范围内获得了累计 76 亿美元的风险投资,其中几家初创公司提供专业解决方案,包括可定制的基于 RISC-V 的应用程序、芯片、LLM 推理芯片、光子集成电路、芯片设计和芯片设备。 由于美国和其他主要市场的利率可能会进一步下降,有利的信贷环境可能会成为芯片行业并购的顺风,而该行业的并购在 2024 年已经出现上升趋势。此外,随着两个不同的芯片市场的发展(一个是人工智能芯片市场,另一个是所有其他类型芯片市场),该行业可能会经历并购和整合,尤其是当拥有宝贵知识产权的公司落后于同行并被视为有吸引力的目标时。尽管如此,全球范围内可能出现的更严格的监管和贸易冲突可能会抑制交易环境。 随着地缘政治挑战席卷全球,芯片公司应该做好应对进一步中断的准备。即使回流、友好外包和近岸外包势头强劲,传统的渠道合作伙伴模式和联盟关系也可能被颠覆。长期的地区冲突和战争可能会进一步影响重要材料和库存的流动。所有这些都可能扰乱半导体公司的需求计划,要求它们更加灵活,调整供应链和采购合同以及定价条款。 资本支出和收入的很大一部分是由人工智能和生产这些高度先进的人工智能芯片所需的先进晶圆推动的。然而,汽车、工业和消费领域的晶圆需求仍然低迷,而手机和其他消费产品的需求有所上升。到 2025 年和 2026 年,虽然总体收入和资本支出似乎继续呈上升趋势(至少在未来 9 到 12 个月内),但人工智能相关支出的任何下降趋势和零部件短缺都可能对更广泛的全球半导体和电子供应链产生不利影响。

    前天 124浏览
  • 搭建MOS驱动,为何选图腾柱结构而不是半桥结构?

    最近对MOS管的驱动设计进行相关思考和仿真,这里将一些感悟写出来,仅供记录。 使用分立器件搭建MOS驱动的话,一般会使用互补的三极管搭建图腾柱电路,但是为什么会是图腾柱的结构不是半桥的结构呢?又为什么是要用三极管呢?用MOS管不可以吗?因为这些思考,便开始了一些仿真和实验。 首先,下图是经典的图腾柱结构,这个电路是可以正常驱动MOS的。 但是,这个电路存在一些不足之处,比如输出的电压总是不能到电源轨,会差一个VBE的结压降(个人认为是VBE,有些文章写的是CE结压降,但是我认为这里是电压跟随器形式,输出跟随B极电压),大约是0.7V左右,虽然存在这个问题,但是拿来驱动MOS是没问题的,因为MOS也是有一个开启电压的,但是用着总是不太舒服。同时注意这里的三极管一般选取大电流、高放大倍数的,最好是开关三极管。 由于输出受限,所以就引发了我的思考,下面是使用MOS搭建的类似电路。 首先要明确的是,上面电路基本不能正常工作。因为这样也基本是电压跟随的形式,但是输出会与输入有一个MOS开启电压的差距,显然比三极管大多了。由此导致后级的功率MOS更不能正常工作了。 然后又搭建了下面两种半桥结构的电路。 上面两种电路都勉强可以工作,但是会存在驱动管上下直通的问题,导致驱动管有直通电流会引起较大的损耗,解决的办法最好是加入死区控制。但是死区电路较为复杂且难以使用分立元件很好匹配,所以经过试验之后,引出了上面使用MOS搭建的电路,上面将MOS驱动的充放电电路使用二极管区分开来,并且使用RC对MOS的开启信号进行简单延时。效果仿真还是基本可以的,但是在输入频率变化的时候可能会影响效果,比如在LLC电路中不一定能应用。这种MOS半桥电路在有些驱动芯片的数据手册上面见到过,可能使用集成电路工艺可以实现更好的死区匹配以实现这种方式。 至于上面的三极管半桥方案,因为三极管是电流驱动器件,可以用基极电流限制最大电流,也可以利用电阻或电感减缓直通的损耗,但是不建议这样用,没太大必要,驱动MOS的话直接用三极管搭建图腾柱电路就可以实现很好的效果了。 至于死区电路,有下面的仿真。本来我想把下面电路应用,但是发现MOS的电平匹配也比较麻烦,所以就以失败暂时告终了。后面再想办法处理吧。 上面电路核心就是利用与门将原始信号和经过延时后的信号求与逻辑,可以延迟上升沿信号。同样,可以使用或门来对下降沿信号进行延迟。将设计一个小板子用来实现单独PWM信号的死区生成。

    前天 70浏览
  • 51单片机的六路抢答器Protues仿真设计,附演示和源程序

    目录 一、设计背景 二、实现功能 三、仿真演示 四、源程序(部分) 一、设计背景 近年来随着科技的飞速发展,单片机的应用正在不断的走向深入。本文阐述了基于51单片机的六路抢答器设计。本设计中,51单片机充当了核心控制器的角色,通过IO口与各个功能模块相连接。按键模块负责检测参与者的抢答动作,当有人按下抢答按钮时,会通过IO口电平的变化通知单片机,单片机会记录按键的次序,并通过数码管显示当前的抢答结果。 为了保证抢答过程的准确性和公平性,设计中还需要考虑到以下因素。首先,按键模块需要具备快速响应和高可靠性,以确保抢答者的动作能够被准确地捕捉到。其次,显示屏模块需要能够实时更新抢答结果,并显示相应的信息,比如参与者的编号和抢答时间。最后,在电路连接方面,需要注意各个模块之间的线路布局,以避免信号干扰和电气问题。 软件系统采用C语言编写程序,包括显示程序,定时中断服务,延时程序等,并在KEIL5中调试运行,硬件系统利用PROTEUS8.13强大的功能来实现,简单切易于观察,在仿真中就可以观察到实际的工作状态。 二、实现功能 以51单片机为控制核心,设计一种六路抢答器。整个系统包括MCU、晶振电路、时钟电路、蜂鸣器控制电路、指示灯控制电路、译码电路、独立按键电路、矩阵键盘以及数码管显示电路等。可具体实现以下功能: (1)设定矩阵键盘的6个键作为6位选手的抢答按键,键的编号即选手编号,为1~6号;设定1个独立按键作为抢答开始键;选择四位数码管作为倒计时、选手编号显示;选择蜂鸣器作为正常抢答和犯规抢答的提示。 (2)只有当裁判按下开始键时才可以进入正常抢答,否则属于犯规抢答。抢答完毕,或计时时间到,停止抢答。当裁判按下抢答开始键时,开始抢答,计时器开始倒计时,10秒倒计期间,若有抢答,则停止计时,数码管显示选手号;若倒计时结束时无人抢答,则停止抢答。 (3)正常抢答时,有效抢答指示灯亮起,蜂鸣器播放音乐1,低位数码管数码管显示抢答选手的编号,高位数码管开始60s倒计时,60s时间到,数码管显示0-00。违规抢答时,无效抢答指示灯亮起,蜂鸣器播放音乐2,低位数码管显示违规抢答选手编号,高位数码管显示抢答倒计时时间10s。 三、仿真演示 未运行仿真时,数码管不显示。 运行仿真后,进入准备界面,数码管显示0-10。 按下启动按键,进入抢答界面,开始10秒抢答倒计时。 在抢答倒计时范围内,按下序号为1~6的选手抢答按键,抢答有效指示灯亮起,蜂鸣器播放《两只老虎》的旋律,低位数码管上显示抢答选手序号,高位数码管开始60s倒计时。 当裁判未按下开始键时,若有选手抢答视为犯规抢答,抢答无效指示灯亮起,蜂鸣器播放《粉刷匠》的旋律,低位数码管显示犯规选手的编号,高位数码管显示10。 正常抢答还是犯规抢答结束后,按下复位按钮恢复到准备界面,以便进行下一次抢答。 四、源程序(部分) #include "reg52.h" #include "delay.h" #include "smg.h" #include "timer.h" sbit Beep = P1^5; //六位选手 sbit key1 = P1^1; sbit key2 = P1^2; sbit key3 = P1^3; sbit key4 = P1^4; sbit key5 = P1^5; sbit key6 = P1^6; sbit EffectLED = P2^6; //抢答有效指示灯 sbit UeffectLED = P2^7; //抢答无效指示灯 sbit start_stop = P3^1; //抢答按钮 sbit L1 = P1^7; sbit L2 = P1^6; sbit R1 = P1^3; sbit R2 = P1^2; sbit R3 = P1^1; sbit R4 = P1^0; //**《两只老虎》 uint8 code x0[]={1+7,2+7,3+7,1+7,1+7,2+7,3+7,1+7,3+7,4+7,5+7,3+7,4+7,5+7,5+7,6+7,5+7,4+7,3+7,1+7,5+7,6+7,5+7,4+7,3+7,1+7,1+7,5,1+7,1+7,5,1+7}; uint8 code y0[]={4,4,4,4,4,4,4,4,4,4,8,4,4,8,3,1,3,1,4,4,3,1,3,1,4,4,4,4,8,4,4,8}; //**《粉刷匠》 uint8 code x1[]={5+7,3+7,5+7,3+7,5+7,3+7,1+7,2+7,4+7,3+7,2+7,5+7,5+7,3+7,5+7,3+7,5+7,3+7,1+7,2+7,4+7,3+7,2+7,1+7,2+7, 2+7,4+7,4+7,3+7,1+7,5+7,2+7,4+7,3+7,2+7,5+7,5+7,3+7,5+7,3+7,5+7,3+7,1+7,2+7,4+7,3+7,2+7,1+7}; uint8 code y1[]={4,4,4,4,4,4,8,4,4,4,4,16,4,4,4,4,4,4,8,4,4,4,4,16,4,4,4,4,4,4,8,4,4,4,4,16,4,4,4,4,4,4,8,4,4,4,4,16}; //以下定义低中高共21个音阶的定时参数,通过定时器来实现不同音频的输出 uint8 code ti[21][2]={ {0xf8,0x8c},{0xf9,0x5c},{0xfa,0x14},{0xfa,0x67},{0xfb,0x04},{0xfb,0x90},{0xfc,0x0c}, //低音 {0xfc,0x44},{0xfc,0xb6},{0xfd,0x09},{0xfd,0x34},{0xfd,0x82},{0xfd,0xc8},{0xfe,0x06}, //中音 {0xfe,0x22},{0xfe,0x56},{0xfe,0x8c},{0xfe,0x9a},{0xfe,0xc1},{0xfe,0xe4},{0xff,0x03}}; //高音 uint8 th,tl,i; _bool action = 0; _bool key1_flag = 0; _bool key2_flag = 0; _bool key3_flag = 0; _bool key4_flag = 0; _bool key5_flag = 0; _bool key6_flag = 0; _bool start_stop_flag = 0; //抢答标志位 _bool cntflag=0; uint8 second = 10; //时间 uint8 timer0_count = 0; //定时器1计数值 uint8 number = 0; //队号 uint8 number_display = 0; //队号显示 uint8 a = 0xff; //按键值 uint8 key_scan8(void); void start_stop_keyscan(void); void music1(void);//演奏《两只老虎》 void music2(void);//演奏《粉刷匠》 void keycheckdown(void); /* 反转法键盘扫描 */ /*----------------------------------------------------------- 主函数 ------------------------------------------------------------*/ void SMG_delay(uint8 t) { while(t--) { display(number_display,second); } } void main() { ConfigTimer();//定时器初始化 while(1) { start_stop_keyscan();//开始按键 keycheckdown(); if(key_scan8()&&action==0&&cntflag==0) { UeffectLED=0; EffectLED=1; music2(); cntflag=1; } while(action)//按下开始键为1,抢答结束为0 { keycheckdown(); if(cntflag==1) { number_display=0; cntflag=0; } while(!key_scan8()) //无队抢答 { keycheckdown(); display(number_display,second); if(second == 0) { break; } } if(number_display)//有队抢答 { EffectLED=0; UeffectLED=1; second=60; music1(); } while(number_display) { display(number_display,second); TR0 = 1; if(second == 0) { break; } } TR0 = 0;//时间到 display(number_display,second); action = 0;//抢答结束 break; } display(number_display,second); } } void music1(void)//演奏《两只老虎》 { for(i=0;i<14;i++) { th=ti[x0[i]-1][0]; tl=ti[x0[i]-1][1]; TH1=th; TL1=tl; TR1=1; SMG_delay(y0[i]*10); TR1=0; } } void music2(void)//演奏《粉刷匠》 { for(i=0;i<12;i++) { th=ti[x1[i]-1][0]; tl=ti[x1[i]-1][1]; TH1=th; TL1=tl; TR1=1; SMG_delay(y1[i]*9); TR1=0; } } /*----------------------------------------------------------- 中断服务函数 ------------------------------------------------------------*/ void timer0() interrupt 1 { TH0 = (65536-50000)/256; //50ms TL0 = (65536-50000)%256; timer0_count ++; if(timer0_count == 20)//1s { timer0_count = 0; second--; //10s倒计时 if(second == 0)//计时结束 { TR0 = 0; number_display = 0; action = 0; } } } /*----------------------------------------------------------- 开始键扫描函数 ------------------------------------------------------------*/ void start_stop_keyscan(void) { if(start_stop == 0) { SMG_delay(8); if((start_stop == 0)&&(!start_stop_flag)) { start_stop_flag = 1; action = 1; TR0 = 1; } while(start_stop == 0){display(number_display,second);} } else { start_stop_flag = 0; } } void keycheckdown() { L1=0;L2=1; R1=R2=R3=R4=1; if(R1==0) { while(R1==0) { display(number_display,second); } a=1; } else if(R2==0) { while(R2==0) { display(number_display,second); } a=2; } else if(R3==0) { while(R3==0) { display(number_display,second); } a=3; } else if(R4==0) { while(R4==0) { display(number_display,second); } a=0x4; } L2=0;L1=1; R1=R2=R3=R4=1; if(R1==0) { while(R1==0) { display(number_display,second); } a=0x5; } else if(R2==0) { while(R2==0) { display(number_display,second); } a=0x6; } else if(R3==0) { while(R3==0) { display(number_display,second); } a=0x7; } else if(R4==0) { while(R4==0) { display(number_display,second); } a=0x8; } } /*----------------------------------------------------------- 六位抢答键扫描函数 ------------------------------------------------------------*/ uint8 key_scan8(void) { if((a == 1)&&(!key1_flag)) { key1_flag = 1; number = 1; number_display = number; } else { key1_flag = 0; number = 0; } if((a == 2)&&(!key2_flag)) { key2_flag = 1; number = 2; number_display = number; } else { key2_flag = 0; number = 0; } if((a == 3)&&(!key3_flag)) { key3_flag = 1; number = 3; number_display = number; } else { key3_flag = 0; number = 0; } if((a == 0x4)&&(!key4_flag)) { key4_flag = 1; number = 4; number_display = number; } else { key4_flag = 0; number = 0; } if((a == 0x5)&&(!key5_flag)) { key5_flag = 1; number = 5; number_display = number; } else { key5_flag = 0; number = 0; } if((a == 0x6)&&(!key6_flag)) { key6_flag = 1; number = 6; number_display = number; } else { key6_flag = 0; number = 0; } if(number_display != 0) { return 1; } else { return 0; } } void Timer1Service() interrupt 3 /* T0中断服务程序 */ { Beep=~Beep; TH1=th; TL1=tl; }

    前天 62浏览
  • 深入浅出剖析单片机STM32图形库:U8g2与LVGL

    探索单片机图形库:U8g2 与 LVGL 的深度剖析

    前天 75浏览
  • 全球12个典型的具身大模型整理、总结与分析

    大模型+具身智能打开人形机器人产业长期成长空间。 英伟达宣布推出“世界基础模型”NVIDIA Cosmos。Cosmos模型可以接受文本、图像或视频的提示,生成虚拟世界状态,作为针对自动驾驶和机器人应用独特需求的视频输出。开发人员可以利用Cosmos为强化学习生成AI反馈,从而改善策略模型并测试在不同场景下的性能。黄仁勋表示,通过Cosmos,开发人员可以使用0mniverse创建三维场景,然后使用Cosmos将其转换为照片级逼真的场景,再通过同时生成多个模型,帮助机器人找到完成任务的最佳方法,从而实现机器人更快学习和进步。 机器人相关软硬件技术渐趋成熟,大模型+具身智能打开人形机器人产业成长空间。星动纪元创始人、清华大学交叉信息研究院助理教授陈建宇表示,现在人形机器人最大的技术瓶颈是具身智能。根据智源研究院发布的2025十大AI技术趋势,2025年的具身智能(包括人形机器人),将继续从本体扩展到具身脑的叙事主线。在行业格局上,近百家具身初创企业或将迎来洗牌,厂商数量开始逐步收敛;在技术路线上,端到端模型继续迭代,小脑大模型的尝试或有突破;在商业变现上,将看到更多工业场景下的具身智能应用,部分人形机器人迎来量产。 鉴于此,我们整理了全球相关具身大模型,供各位读者参考。相关总结内容是基于公开资料和论文进行的总结归纳,但由于水平有限,若有错漏之处,还请谅解。 01 跨维智能:SAM-6D SAM-6D 是由跨维智能、香港中文大学(深圳)和华南理工大学首创的6DoF姿态估计具身大模型,针对具身智能机器人操作,尤其是在处理复杂场景和未见过的物体时,可以从 RGB-D 图像中检测和估计未见过物体的 6D 姿态,该工作发表在CVPR 2024。论文链接:https://arxiv.org/pdf/2311.15707.pdf代码链接:https://github.com/JiehongLin/SAM-6D核心特点 零样本姿态估计:SAM-6D可从RGB-D图像中快速估计未见过物体的6D姿态,助力机器人在复杂场景中精准抓取。 增强适应性与泛化能力:基于零样本学习,SAM-6D仅需CAD模型即可估计姿态,显著提升机器人在未知环境中的泛化能力。 复杂场景鲁棒性:通过Background Token设计,SAM-6D能有效解决遮挡问题,提高机器人在杂乱环境中的操作成功率。 多阶段优化:SAM-6D采用两阶段点集匹配,先粗匹配后精优化,显著提高姿态估计精度,为操作提供可靠支持。 助力具身智能:SAM-6D使机器人能快速适应新环境和任务,推动具身智能的灵活自主操作。 应用场景 SAM-6D 在具身智能机器人操作中具有巨大的应用潜力,能够显著提升机器人在复杂场景中的适应性和操作精度。这种技术为机器人在家庭服务、工业自动化和物流等领域的广泛应用提供了新的可能性。 02 智平方 & 北京大学:RoboMamba RoboMamba是由智平方、北京大学和北京智源人工智能研究院(BAAI)联合开发的一款高效端到端视觉-语言-动作(VLA)具身大模型,专为机器人场景优化设计,旨在实现高效的推理与操作能力。RoboMamba的研究成果于2024年6月发表在NeurIPS 2024会议上。项目主页:https://sites.google.com/view/robomamba-web。GitHub代码库:https://github.com/lmzpai/roboMamba核心特点 多模态设计:RoboMamba结合了视觉编码器和线性复杂度的状态空间语言模型(SSM,即Mamba),通过协同训练赋予模型强大的视觉常识理解和机器人相关推理能力。 高效推理与微调:该模型通过一种高效的微调策略,仅需调整模型参数的0.1%,即可在短时间内(约20分钟)完成微调,显著提升了操作泛化能力和任务适应性。 推理与操控能力:RoboMamba能够处理从高层次推理到低层次精细操控的多任务场景,推理速度比现有模型快3倍。 实验表现:在通用和机器人评估基准测试中,RoboMamba展现了出色的推理能力,并在模拟和现实世界实验中实现了令人印象深刻的位姿预测结果。 应用场景:RoboMamba适用于多种机器人任务,包括任务规划、长程任务规划、可操纵性判断、未来与过去预测以及末端执行器位姿预测等 03 星动纪元:ERA-42 星动纪元2024年12月发布端到端原生机器人大模型ERA-42,其与自研的五指灵巧手星动XHAND1相结合,首次实现仅凭一个具身大模型,即可驱动五指灵巧手运用多种工具,完成超过100项复杂精细的操作任务;包括拿起螺钉并用钻紧固、用锤子敲打钉子、扶正水杯并倒水等。 在通用性和灵巧操作能力方面,ERA-42无需任何预编程技能,具备强泛化与自适应能力,基于少量数据收集,可在不到2小时即可学会新任务,并持续快速学习更多新技能。 星动纪元指出,具身大模型作为开启通用具身智能体的密钥,需要具备以下三个要素。第一,统一一个模型泛化多种任务和环境,第二是端到端,从接收全模态数据,到生成最终输出如决策、动作等,通过一个简洁的神经网络链路完成,第三是Scaling up(规模化),允许模型通过持续的数据积累实现自我完善,使得具身大模型在数据量指数级增长的同时,不仅提升性能,还能在未知任务中展现卓越的自适应和泛化能力。 在实际应用中,相比传统的夹爪机器人,基于ERA-42能力的五指灵巧手星动XHAND1能使用多种工具,完成更通用、灵巧性更强、复杂度更高的操作任务。例如,通过简单的彩色方块抓取数据训练后,ERA-42就能成功实现从未见过的多样化物体的抓取泛化。 04 Google & 柏林技术大学:PaLM-E PaLM-E(全称:Pathways Language Model with Embodied)是由Google和柏林技术大学(TU Berlin)合作开发的一种具身多模态语言模型,旨在通过融合视觉、语言和机器人控制能力,实现复杂的机器人任务。PaLM-E的研究成果于2023年3月发布。 项目主页:https://palm-e.github.io/ 核心特点 多模态融合:PaLM-E结合了大规模语言模型(LLM)和视觉Transformer(ViT),将视觉、连续状态估计和文本输入编码为多模态句子,从而实现对复杂任务的理解和执行。 大规模参数量:PaLM-E的参数量高达5620亿,其中语言模型PaLM为5400亿参数,视觉模型ViT为220亿参数。这是目前已知的最大视觉语言模型。 具身化推理能力:该模型能够直接将现实世界的连续传感器模态融入语言模型,从而建立词汇和感知之间的联系。它不仅能够执行视觉问答和图像描述,还能控制机器人完成复杂的操作任务。 高效任务执行:PaLM-E能够根据自然语言指令生成高级动作序列,并通过机器人平台执行任务。例如,它可以规划“找到海绵、捡起海绵、拿给用户、放下海绵”等一系列动作。 跨模态迁移能力:PaLM-E通过多模态训练,展示了从语言、视觉到具身任务的正向迁移能力。它不仅在机器人任务上表现出色,还在视觉问答(VQA)等任务上达到了最先进的性能 应用场景 机器人任务规划:PaLM-E能够生成复杂的动作序列,完成导航、物体操作等任务。 视觉问答:通过图像输入,模型可以生成描述性文字或回答相关问题。 故障检测与长期规划:模型能够进行故障检测和长期任务规划,适应复杂环境 05 Microsoft:ChatGPT for Robotics ChatGPT for Robotics是由微软自主系统和机器人研究院(Microsoft Autonomous Systems and Robotics Research)与OpenAI合作开发的一个研究项目,旨在探索如何将ChatGPT应用于机器人任务,通过自然语言交互实现机器人控制和任务规划。 核心内容 设计原则与能力:该项目提出了结合提示词工程(prompt engineering)和高级函数库的设计原则,使ChatGPT能够适应不同的机器人任务、模拟器和硬件形态。研究重点在于评估不同提示词技术和对话策略在机器人任务中的有效性。 多模态交互能力:ChatGPT for Robotics不仅支持自由对话形式,还能解析XML标签、合成代码,并通过对话进行闭环推理。这些能力使其能够处理从基础逻辑、几何和数学推理到复杂任务(如空中导航、操作和具身代理)的多种机器人任务。 PromptCraft平台:为了促进社区协作,微软推出了一个开源研究工具PromptCraft。该平台允许研究者上传和投票选出优秀的提示词方案,并提供了一个集成ChatGPT的机器人模拟器示例,方便用户快速上手。 应用范围ChatGPT for Robotics的应用范围广泛,包括但不限于: 空中机器人任务:如无人机的涡轮机检查、太阳能板检查和障碍物规避。 操作任务:如物体抓取、堆叠和构建复杂结构。 空间-时间推理:如视觉伺服任务 06 NVIDIA Cosmos 世界基础模型平台 NVIDIA Cosmos 是由英伟达推出的一个面向物理 AI(Physical AI)开发的具身大模型平台,旨在通过生成式世界模型(World Foundation Models, WFM)加速机器人和自动驾驶汽车等物理 AI 系统的开发。 核心功能 预训练世界模型(Pre-trained World Models):Cosmos 提供了一系列预训练的生成式世界模型,包括扩散模型(Diffusion)和自回归模型(Autoregressive),支持从文本到世界(Text-to-World)和从视频到世界(Video-to-World)的生成。这些模型经过大规模视频数据训练,能够生成高保真、物理感知的视频内容。 视频处理与分词技术(Video Tokenizers):Cosmos 配备了高效的视频分词器,能够将视频数据高效地转换为连续或离散的标记,压缩率比现有技术高出8倍,处理速度提升12倍。 数据处理管线(Video Curation Pipeline):平台提供了一个加速数据处理和管理的管线,能够处理超过100PB的数据,显著降低开发成本并加速模型训练。 安全与防护机制(Guardrails):Cosmos 内置了安全防护机制,包括预处理阶段的有害内容过滤和后处理阶段的视频内容审查,确保生成内容的安全性和一致性。 开放与可扩展性(Open and Extensible):Cosmos 以开放模型许可证(NVIDIA Open Model License)提供,允许开发者免费用于商业用途。开发者可以通过 NVIDIA NeMo 框架对预训练模型进行微调,以适应特定的物理 AI 应用 模型家族 扩散模型(Diffusion Models):如 Cosmos-1.0-Diffusion-14B-Text2World 和 Cosmos-1.0-Diffusion-14B-Video2World,支持从文本或视频提示生成高质量视频。 自回归模型(Autoregressive Models):如 Cosmos-1.0-Autoregressive-13B-Video2World,用于预测视频序列中的未来帧。 辅助模型(Utility Models):如 Cosmos-1.0-Guardrail 和 Cosmos-1.0-PromptUpsampler-12B-Text2World,用于提升提示质量和生成内容的安全性。 应用场景 机器人开发:通过生成合成数据,加速机器人在复杂环境中的训练和测试。 自动驾驶汽车:提供高保真模拟环境,用于自动驾驶系统的开发和验证。 增强现实(AR):支持视频解码和增强现实应用 07 银河通用:GraspVLA GraspVLA是由银河通用机器人联合北京智源人工智能研究院(BAAI)、北京大学和香港大学研究人员共同发布的全球首个端到端具身抓取基础大模型。该模型完全基于仿真合成大数据进行预训练,展现出强大的泛化能力和真实场景应用潜力。 核心特点 预训练与后训练:预训练方面,GraspVLA使用了十亿帧“视觉-语言-动作”对的仿真合成数据进行预训练。这种大规模的仿真数据预训练方式突破了传统依赖真实数据的限制,显著降低了数据采集成本;后训练方面,模型可以通过少量真实数据进行微调,快速适应特定场景,同时保持高泛化能力。 泛化能力:GraspVLA定义了七大泛化“金标准”,包括光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化和物体类别泛化。这些标准为模型的性能评估提供了明确的指导。 零样本测试能力:预训练完成后,GraspVLA可以直接在未见过的真实场景中进行零样本测试,展现出卓越的适应性。 技术创新:GraspVLA是全球首个完全基于仿真合成大数据进行预训练的具身大模型。这一创新突破了具身通用机器人领域的两大瓶颈:数据瓶颈和泛化瓶颈 应用场景GraspVLA适用于多种机器人任务,包括但不限于: 自主操作:机器人在复杂环境中的自主抓取和操作。 物体识别:在多样化背景下识别和操作不同物体。 复杂环境交互:在动态环境中进行实时交互 银河通用计划继续推出覆盖多技能的具身基础大模型,推动人形机器人技术的普及与发展。这一模型的发布标志着具身智能领域进入了一个新的发展阶段。 08 斯坦福 & Google等:OpenVLA OpenVLA 是一个开源的视觉-语言-动作(Vision-Language-Action, VLA)模型,由斯坦福大学、加州大学伯克利分校、谷歌DeepMind、丰田研究院(Toyota Research Institute)和麻省理工学院(MIT)的研究人员联合开发。该模型旨在通过预训练的视觉和语言基础模型(VLMs),为机器人提供泛化能力强的动作生成能力,从而推动机器人技术的发展。 项目主页:https://openvla.github.io。GitHub 代码库:https://github.com/openvla/openvla核心特点 模型架构:OpenVLA 是一个参数量为70亿的模型,基于Llama 2构建,并融合了DINOv2和SigLIP等视觉语言基础模型。它通过视觉和语言输入生成机器人动作,支持多种机器人平台的开箱即用,并可以通过参数高效微调快速适应新任务。 预训练数据:OpenVLA 使用了Open X-Embodiment数据集中的97万条机器人操作轨迹进行微调。这种大规模的预训练数据使模型具备了强大的泛化能力,能够处理未见过的任务指令和场景。 开源与灵活性:OpenVLA 的所有预训练检查点和训练代码均在MIT许可下开源。这使得研究人员和开发者可以轻松地使用、微调和扩展该模型,以适应不同的机器人任务和应用场景。 应用范围:OpenVLA 可以在多种机器人平台上直接使用,支持零样本(zero-shot)控制,也可以通过少量演示数据进行微调以适应新任务。它特别适用于需要泛化能力的机器人操作任务,如物体抓取、环境交互等 使用场景 零样本控制:OpenVLA 可以直接控制机器人完成预训练数据中见过的任务和机器人平台组合。 快速微调:通过少量演示数据,OpenVLA 可以快速适应新任务和机器人平台。 多机器人支持:支持多种机器人平台,无需针对每个平台重新训练。 优势与创新 开源性:OpenVLA 是第一个开源的VLA模型,填补了该领域的空白。 泛化能力:通过大规模预训练数据,OpenVLA 能够泛化到未见过的任务和场景。 高效微调:支持多种微调方式,包括LoRA(低秩适配)和全参数微调 09 UC 伯克利 & 斯坦福等:Octo Octo 是由加州大学伯克利分校、斯坦福大学、卡内基梅隆大学和谷歌DeepMind等机构联合开发的开源通用机器人策略(Generalist Robot Policy)。它是一个基于Transformer架构的具身大模型,旨在通过大规模预训练数据提升机器人在多种任务和环境中的泛化能力。Octo 的预训练数据来自Open X-Embodiment数据集,涵盖了多种机器人形态、场景和任务。这些数据不仅在机器人类型上具有多样性,还在传感器配置(如是否包含腕部相机)和标签(如是否包含语言指令)上表现出异质性。 项目主页:https://octo-models.github.io/ 核心特点 架构设计:Octo 是一个基于Transformer的扩散策略模型,预训练使用了来自Open X-Embodiment数据集的80万条机器人操作轨迹。它支持多种输入模态,包括自然语言指令、目标图像、观察历史以及多模态动作预测。 灵活性与适应性:Octo 的设计强调灵活性和可扩展性。它支持多种机器人平台、传感器配置和动作空间,并能够通过微调快速适应新的观察和动作空间。这使得Octo可以广泛应用于不同的机器人学习场景。 预训练与微调:Octo 在多个机器人平台上展示了强大的零样本(zero-shot)控制能力,并且可以通过少量目标域数据(如100条轨迹)进行微调,以适应新任务和环境。 开源与可复现性:Octo 提供了完整的预训练检查点、训练代码和微调脚本,支持开源和可复现性。这使得研究人员和开发者可以轻松地使用和扩展该模型。 性能表现:在跨机构的9个机器人平台上进行的实验表明,Octo 在多机器人控制任务中表现出色,尤其是在使用目标图像进行任务定义时,其性能优于现有的开源通用机器人策略 应用场景 零样本控制:在预训练数据涵盖的任务和环境中直接控制机器人。 快速微调:通过少量数据微调以适应新任务和机器人平台。 多机器人支持:支持多种机器人平台,无需为每个平台重新训练 10 谷歌 DeepMind:RT-2 RT-2(Robotic Transformer 2)是由谷歌 DeepMind 推出的一种新型视觉-语言-动作(Vision-Language-Action, VLA)模型,旨在通过大规模互联网数据和机器人轨迹数据的结合,提升机器人控制的泛化能力和语义推理能力。 项目主页:https://robotics-transformer2.github.io/。代码仓库:https://github.com/kyegomez/RT-2核心特点 模型架构:RT-2 基于视觉语言模型(VLM)的主干网络,如 PaLM-E 和 PaLI-X,通过将动作表示为文本标记(tokens),使其能够直接输出机器人动作。这种设计允许模型将视觉、语言和动作统一在一个框架内处理。 预训练与微调:RT-2 在互联网规模的视觉语言数据上进行预训练,然后在机器人轨迹数据上进行微调。这种方法不仅保留了大规模预训练带来的语义理解能力,还使模型能够适应具体的机器人任务。 泛化能力与涌现能力:RT-2 展示了显著的泛化能力,能够处理未见过的对象、背景和指令。此外,模型还表现出多种涌现能力,例如对新命令的解释能力、基于用户指令的推理能力(如选择最小或最大的物体),以及多阶段语义推理(如选择合适的工具或饮料)。 实时推理与部署:为了实现高效的实时控制,RT-2 可以部署在云端,机器人通过云服务请求控制指令,从而实现快速响应 实验与评估 泛化能力:RT-2 在6000次评估试验中表现出色,显著优于基线模型,尤其是在处理新对象、背景和指令时。 涌现能力:模型能够执行复杂的推理任务,例如根据用户指令选择合适的工具或饮料。 应用场景RT-2 可以广泛应用于机器人操作任务,包括但不限于: 物体抓取与操作:在复杂环境中识别和操作新对象。 语义推理:根据用户指令执行多阶段任务。 实时控制:通过云端部署实现高效的实时机器人控制 11 Physical intelligence:π0 π₀ 是由 Physical Intelligence 公司开发的一种具身大模型,旨在通过视觉-语言-动作(Vision-Language-Action, VLA)流模型实现通用机器人控制。该模型展示了强大的泛化能力和实时推理能力,能够完成复杂的多阶段任务,如叠衣服、清理餐桌和组装盒子。 项目主页:Physical Intelligence π₀ Blog 核心特点 架构设计:π₀ 基于预训练的视觉语言模型(VLM),如 PaliGemma,并在此基础上添加了一个动作专家(action expert),通过流匹配(flow matching)技术生成连续动作。这种设计使得模型能够直接输出低级电机命令,从而实现精确和流畅的操作技能。 预训练与微调:π₀ 的训练分为两个阶段,预训练阶段,在大规模互联网数据上进行预训练,继承互联网规模的语义知识。微调阶段,在多样化的机器人数据集上进行微调,这些数据集涵盖了7种不同的机器人配置和68种任务。 泛化能力:π₀ 在零样本任务评估中表现出色,能够完成未见过的任务,如衬衫折叠和餐桌清理。与 OpenVLA 和 Octo 等其他模型相比,π₀ 在复杂任务中的表现更为突出。 实时推理:π₀ 的设计使其能够进行实时推理,适用于动态环境中的任务执行。 多机器人适配:π₀ 可以直接控制多种机器人平台,无需为每个平台重新训练 技术细节 数据集:π₀ 使用了 OXE 数据集以及 Physical Intelligence 自行收集的机器人操作数据。 模型规模:π₀ 的基础模型 PaliGemma 拥有30亿参数,动作专家部分额外增加了3亿参数。 训练方法:π₀ 使用条件流匹配损失(Conditional Flow Matching)来监督动作的生成。 应用场景π₀ 可以用于多种机器人任务,包括但不限于: 复杂操作任务:如叠衣服、清理餐桌、组装盒子。 实时控制:在动态环境中执行任务。 多机器人适配:通过微调适应不同的机器人平台 12 清华TSAIL团队:RDT RDT(Robotics Diffusion Transformer)是由清华大学人工智能研究院 TSAIL 团队开发的全球最大的双臂机器人操作任务扩散基础模型。该模型旨在通过扩散模型(Diffusion Model)和可扩展的 Transformer 架构,提升机器人在复杂环境中的双臂协调与精确操作能力。 项目主页:https://rdt-robotics.github.io/rdt-roboticsGitHub 仓库:https://github.com/thu-ml/RoboticsDiffusionTransformer Hugging Face 模型库:https://huggingface.co/robotics-diffusion-transformer/rdt-1b 核心特点 模型架构:RDT 基于扩散模型设计,采用可扩展的 Transformer 架构,能够高效处理多模态输入的异质性,捕捉机器人数据的非线性和高频特性。模型通过扩散模型的多模态行为分布表示,展现出卓越的动作预测与执行能力。 统一动作空间:为解决数据稀缺问题,RDT 引入了物理可解释的统一动作空间,统一不同机器人的动作表示,同时保留原始动作的物理意义。这种设计极大地提升了模型的跨平台知识迁移能力。 大规模预训练与微调:RDT 在目前最大的多机器人数据集上进行预训练,扩展到 1.2B 参数量,并在自建的多任务双臂数据集上进行微调。该数据集包含超过 6000+ 个任务实例,显著提升了模型的双臂操作能力。 泛化能力与少样本学习:RDT 展现出强大的零样本泛化能力,能够处理未见过的物体和场景,仅通过 1~5 次演示即可学习新技能。在真实机器人实验中,RDT 明显优于现有方法,能够理解和遵循语言指令,有效处理复杂任务。 应用场景:RDT 在多种复杂任务中表现出色,例如调酒、遛狗、倒水、清洗杯子等。这些任务展示了 RDT 的灵巧操作能力、指令遵循能力和对未知环境的适应性 本文来源:智猩猩ROBOT

    前天 95浏览
正在努力加载更多...
广告