吞吐量仍然是一个问题,解决方案需要多种技术的结合。 事实证明,电子束检测对于发现 5 纳米以下尺寸的关键缺陷至关重要。现在的挑战是如何加快这一流程,使其在经济上符合晶圆厂的接受度。 电子束检测因灵敏度和吞吐量之间的权衡而臭名昭著,这使得在这些先进节点上利用电子束进行全面缺陷覆盖尤为困难。例如,对于英特尔的18A逻辑节点(约1.8纳米级)和三星数百层的3D NAND存储器,缺陷检测已达到极限。 传统检测方法在 5 纳米以下开始遭遇根本性的物理限制。光学检测系统历来是缺陷检测的主力,但由于衍射极限、复杂材料堆叠导致的对比度降低以及日益细微的缺陷特征,在先进节点上表现不佳。 电子束检测提供纳米级分辨率,能够捕捉光学工具可能遗漏的微小致命缺陷,但这些优势也伴随着显著的代价。吞吐量是主要瓶颈。用单束电子束扫描整个300毫米晶圆可能需要数小时甚至数天,远远超出了现代晶圆厂严格的时间预算。 PDF Solutions先进解决方案副总裁 Michael Yu 表示:“如果想在 7nm 或 5nm 等先进节点的生产线上发现缺陷,就必须检测数十亿个结构。如果想在线上完成检测,先进的晶圆厂只能给你不到两个小时的时间,因为它们无法在工艺步骤之间将晶圆停留超过两个小时。” 实际上,这意味着传统的电子束检测工具只能对芯片或晶圆的一小部分进行采样,这可能会遗漏一些关键缺陷(在先进芯片上,这些缺陷的发生率通常只有十亿分之一)。电子束的分辨率优势也需要付出代价。为了分辨越来越小的特征,电子束电流和视野受到限制,这进一步降低了检测速度。 应用材料公司电子束缺陷控制市场主管 Ran Alkoken 表示:“先进节点的一项根本挑战是平衡检测速度和分辨率。第二代 CFE 技术在不牺牲分辨率的情况下显著提高了电流。这对于管理这些先进节点上遇到的密集缺陷图至关重要。” 冷场发射 (CFE) 等高亮度电子源有助于提高分辨率和信噪比,但只能部分弥补吞吐量差距。电子束扫描工具的速度仍然明显慢于光学扫描仪,因此必须在最关键的步骤中策略性地使用它们。 超越速度 除了速度之外,先进的节点还为电子束检测带来了物理和电气方面的挑战。特征尺寸小且复杂,意味着每个特征可用的电子更少,因此除非电子束停留更长时间或对多帧进行平均,否则图像本身就会更加嘈杂,这又会降低吞吐量。 同时,电子束会干扰样品。绝缘的低k介电材料表面在电子轰击下会积聚电荷,导致图像扭曲,甚至导致电子束偏转。如果为了获得更清晰、更快速的图像而提高电子束能量,则可能会损坏精密结构或改变缺陷特性。因此,检测人员通常会在较低的入射能量下操作,以避免电荷和损坏,但这会导致信号较弱。 “电子束检测的关键在于吞吐量,”余先生说道,“你不能在结构上花费太多时间,但同样重要的是,不要使用过高的入射能量,因为这会损坏你正在检测的结构。” 图1:晶圆中的潜在薄弱点。来源:PDF Solutions 电子束能量、驻留时间和样品安全性之间的平衡凸显了在不产生错误信号或损坏器件的情况下捕获埃级尺寸的每个缺陷是多么困难。事实上,随着特征尺寸缩小到5纳米以下,电子信号中的随机噪声和散粒噪声变得非常显著。有限数量的电子必须承担起揭示原子级空隙或线边缘粗糙度的重任,这将电子束探测器的灵敏度推向极限。 先进逻辑和存储器中的三维结构进一步增加了复杂性。现代晶体管和互连线具有显著的形貌特征,而像 3D NAND 这样的芯片则具有极深的垂直通道孔。景深限制意味着电子束可能无法一次性聚焦整个高纵横比结构。晶圆或芯片即使出现轻微弯曲或翘曲(这在经过多道工艺步骤或先进封装后很常见),某些区域也会偏离经过精细调整的电子束束柱的焦平面。结果可能会导致这些区域的缺陷模糊不清或被遗漏。如今的电子束系统通过使用动态聚焦和平台映射来解决这个问题,但在先进节点上,容错率很低。 Wooptix 首席运营官 Javier Elizalde 表示:“干涉法仍然在晶圆计量领域占据主导地位,但它也存在局限性,尤其是在封装技术不断发展的情况下。我们现在看到,对能够适应新材料、新键合方法和新工艺流程的替代测量方法的需求日益增长。” 换句话说,传统的晶圆形状测量和校正方法(通常基于干涉测量法)在处理高度翘曲的晶圆或新型薄膜堆叠时可能不再适用。波前相位成像等新型光学技术旨在通过从多个焦平面捕获相位信息来快速绘制晶圆形貌。这可以帮助电子束工具在晶圆上动态调整焦距。然而,补偿晶圆翘曲和表面形貌仍然是一项重大挑战。如果没有精确的高度图和快速的焦距控制,逻辑栅极纳米片中的多层缺陷或堆叠存储器层中的轻微错位可能会因为没有完全聚焦而无法检测到。 最后,没有任何一种检测方式能够单独解决所有这些问题,因此在先进节点,与其他技术的集成至关重要。电子束的吞吐量较低且仅面向表面,这意味着它通常必须与高速光学检测相结合才能快速扫描整个晶圆,并且必须与能够检测埋藏或内部缺陷的方法相结合。 例如,复杂的3D封装和硅通孔可能隐藏在结构深处的空洞或键合缺陷,而光学和表面电子束检测无法触及这些缺陷。X射线检测正逐渐成为这些隐藏缺陷的补充解决方案。 布鲁克产品营销总监 Lior Levin 表示:“X 射线检测在先进节点至关重要,因为它可以检测到光学方法无法检测到的埋藏缺陷。然而,随着工艺节点向 5 纳米以下发展,仅仅提高分辨率是不够的。人工智能驱动的算法对于处理复杂的衍射数据并显著提高检测精度至关重要。” 无论是利用X射线断层扫描技术检测未见空洞,还是利用电子束技术检测微小表面缺陷,单靠原始分辨率是不够的。先进节点数据的复杂性要求更智能的分析方法。在实践中,芯片制造商现在部署了一种混合策略。高容量光学工具标记晶圆上的潜在异常位置,然后电子束检查工具放大纳米级缺陷或执行电压对比度测量。X射线或声学显微镜可用于完全隐藏的界面问题,而电气测试仪则可以捕捉任何未检测到的缺陷对性能的影响。 PDF 的 Yu 表示:“在先进的前端工艺节点以及先进的封装中,即使在最高分辨率的显微镜下,缺陷也并非总是可见的。如今,将 X 射线、电子束、光学和电气测试与 AI 驱动的数据分析相结合的集成检测方法至关重要。您不能依赖单一工具。需要采取整体方法。” 这种整体理念源于必要性。随着规模扩展和新架构的出现,故障模式也愈发微妙和多样化,孤立的缺陷检测方法会留下太多盲点。其弊端在于所有这些工具产生的数据量激增,而协调这些数据并非易事。尽管如此,大家一致认为,只有充分利用每种检测方式的优势,并将结果整合在一起,晶圆厂才能在 Angstrom 时代保持良率和可靠性。 多光束系统和先进的电子光学系统 为了克服电子束的根本局限性,设备制造商正在通过多光束系统、先进的电子光学系统和计算成像技术重塑这项技术。多光束电子束检测并非采用单束电子束缓慢扫描晶圆,而是将工作量分散到多个并行扫描的子光束上。本质上,如果单束电子束每秒只能覆盖很小的区域,那么 5 x 5 束电子束阵列可以将芯片或晶圆的检测速度提高 15 倍。 这里的关键在于精心设计电子光学系统,以避免电子束之间的干扰。如果一束电子束中的电流过高,会导致电子相互排斥(库仑相互作用),使焦点模糊。多束系统通过使用多个并联的低电流电子束来避免这种情况,每个电子束都能保持良好的光斑尺寸。 每个子光束必须精确对准,并同步其信号。算法将来自多束光束的图像拼接成一张复合缺陷图。拼接必须考虑任何轻微的偏移或失真;否则,校准错误的子光束可能会在其扫描区域与相邻扫描区域的接缝处产生虚假的不匹配。 管理如此多的平行光束柱和探测器也增加了校准和维护的复杂性。实际上,多光束设备就像同时运行数十台微型扫描电子显微镜 (SEM)。早期采用多光束技术的厂商需要应对这些工程挑战,但最终的回报是革命性的。高产量晶圆厂首次可以考虑在关键层上进行在线电子束检测(在常规生产期间),而不仅仅是用于研发分析或偶尔的采样。如今,多光束系统已用于先进节点的物理缺陷检测和电压对比电学缺陷检测,能够捕捉到光学工具可能忽略的通孔、触点和互连中的细微问题。 多光束架构虽然大大加快了数据收集速度,但也使数据输出和协调要求成倍增加。一台25光束检测仪会生成25个图像流,必须实时处理和组合。海量的图像数据(可能高达每秒数兆兆位的电子信号)对系统的计算机和存储系统构成了巨大的数据压力。更重要的是,要从如此海量的数据中识别出真正的缺陷,需要先进的软件。这正是人工智能和计算成像发挥作用的地方。 布鲁克的 Levin 指出:“当我们进入 5 纳米以下时,仅仅提高分辨率是不够的。人工智能驱动的算法对于处理复杂的衍射数据和显著提高检测精度至关重要。” 在实践中,现代电子束检测平台越来越多地与机器学习模型相结合,用于分析电子图像中的微小异常。人工智能算法不再仅仅依赖于人为设定的阈值或与参考芯片的简单比较,而是能够学习识别缺陷与正常差异之间的细微特征,从而减少漏检缺陷和误报。 “基于人工智能的检测不仅能提高产量,”应用材料公司的Alkoken表示,“它还能显著减少误报,并简化缺陷分类。在生产工厂中,得益于这项功能,人工审查的工作量减少了高达50%。” 误报率的降低意味着工程师可以减少审查良性“缺陷”的时间,从而专注于真正的良率限制因素。此外,AI 可以通过在大型数据集上进行训练来更快地适应新的缺陷类型,这一点至关重要,因为每个新的工艺节点或 3D 结构都会引入不常见的故障模式。 计算技术也扩展到图像增强。例如,软件可以对电子束图像进行去噪和锐化,甚至可以通过关联多帧图像来推断缺失信息。一些电子束系统利用了设计感知算法。通过从 CAD 数据中了解预期布局,系统可以更好地区分真正的非预期异常和允许的图案变化。这种设计集成是另一个改进缺陷捕获的强大工具。 “为了解决传统光栅扫描电子束的吞吐量限制,业界正在寻求多光束系统和创新点扫描或矢量扫描方法等方法,这些方法有可能显著提高整体检查速度,”Yu 补充道。 因此,当今领先的解决方案将设计数据、工艺背景和多模式输入相结合,使电子束检测更加智能。例如,PDF Solutions 采用“DirectScan”矢量方法,利用芯片设计引导电子束到达关键位置(目标图案),而非盲目地进行光栅扫描。这种掩模设计内容、光学检测标记结果以及电子束所见内容之间的数据关联,对于管理海量数据集和查明缺陷根源至关重要。 它还有助于光束对准和导航。通过参考设计,该工具可以跳转到疑似弱图案的坐标,并确保子束阵列正确叠加,从而避免浪费时间或与地形冲突。 新型电子束工具中先进的电子光学系统并不局限于多光束。即使是单光束系统也在不断发展,配备了更先进的光源和透镜。冷场发射器提高了亮度和相干性,从而能够在更快的扫描速度下实现亚纳米分辨率。人们正在探索像差校正电子光学系统,以便在更大的场域内保持紧密聚焦。人们还对通过计算方法扩展焦深感兴趣,例如,通过捕获离焦图像堆栈并通过算法将它们组合起来,以保持特征的顶部和底部都清晰可见。然而,在实践中,这可能非常耗时。 在硬件方面,一些多光束设计采用模块化立柱,每个子光束都有自己的微型透镜和探测器,从而可以精细控制每束光束的聚焦和像散。这有助于补偿晶圆的局部曲率。击中略微凸起的芯片角的子光束可以独立调整以保持聚焦。然而,在数十束光束上实现动态聚焦是一个艰巨的控制问题。这时,像 Wooptix 的波前相位成像这样的光学计量技术可以提供帮助,它可以提前为电子束工具提供晶圆的高分辨率高度图。有了精确的形貌图,电子束的平台可以调整高度,或者立柱可以预先调整每个区域的焦距,从而动态减轻翘曲效应。 这种混合解决方案模糊了不同类型检测设备之间的界限。例如,电子束系统可能包含光学预扫描模式,用于快速对准和区域选择,而X射线工具则可能将可疑位置交给电子束进行仔细检查,所有这些都在一个集成的软件框架下完成。 结论 电子束检测的未来在于光束控制、设计数据和检测模式的智能集成,而非仅仅改进硬件本身。虽然多光束系统和冷场发射源带来了急需的速度和精度,但它们也带来了数据过载和系统复杂性。这迫使业界重新思考检测工具的设计方式、校准方式以及输出处理方式。人工智能缺陷分类和图像分析的兴起,使得我们能够跟上数据量和先进节点日益微妙的故障机制的步伐。 同时,获得检测设备的实时反馈对于加速大批量晶圆厂的工艺调整和良率提升至关重要。波前相位成像和设计感知矢量扫描等技术正在帮助弥合计量与检测之间的鸿沟,使检测设备能够更好地预测问题发生的位置,并更智能地检测这些区域。通过将光学、X射线和电子束功能整合到一个统一的分析框架下,晶圆厂正逐渐接近预测性缺陷检测的目标,从而避免任何良率限制因素被忽视。 最终,没有任何一项单一技术能够独自解决埃时代的检测挑战。但随着更紧密的集成、更智能的分析以及电子束物理学和系统设计的持续进步,电子束检测不仅有望成为研发或故障分析领域的支柱,更将成为整个生产线的支柱。
大模型+具身智能打开人形机器人产业长期成长空间。 英伟达宣布推出“世界基础模型”NVIDIA Cosmos。Cosmos模型可以接受文本、图像或视频的提示,生成虚拟世界状态,作为针对自动驾驶和机器人应用独特需求的视频输出。开发人员可以利用Cosmos为强化学习生成AI反馈,从而改善策略模型并测试在不同场景下的性能。黄仁勋表示,通过Cosmos,开发人员可以使用0mniverse创建三维场景,然后使用Cosmos将其转换为照片级逼真的场景,再通过同时生成多个模型,帮助机器人找到完成任务的最佳方法,从而实现机器人更快学习和进步。 机器人相关软硬件技术渐趋成熟,大模型+具身智能打开人形机器人产业成长空间。星动纪元创始人、清华大学交叉信息研究院助理教授陈建宇表示,现在人形机器人最大的技术瓶颈是具身智能。根据智源研究院发布的2025十大AI技术趋势,2025年的具身智能(包括人形机器人),将继续从本体扩展到具身脑的叙事主线。在行业格局上,近百家具身初创企业或将迎来洗牌,厂商数量开始逐步收敛;在技术路线上,端到端模型继续迭代,小脑大模型的尝试或有突破;在商业变现上,将看到更多工业场景下的具身智能应用,部分人形机器人迎来量产。 鉴于此,我们整理了全球相关具身大模型,供各位读者参考。相关总结内容是基于公开资料和论文进行的总结归纳,但由于水平有限,若有错漏之处,还请谅解。 01 跨维智能:SAM-6D SAM-6D 是由跨维智能、香港中文大学(深圳)和华南理工大学首创的6DoF姿态估计具身大模型,针对具身智能机器人操作,尤其是在处理复杂场景和未见过的物体时,可以从 RGB-D 图像中检测和估计未见过物体的 6D 姿态,该工作发表在CVPR 2024。论文链接:https://arxiv.org/pdf/2311.15707.pdf代码链接:https://github.com/JiehongLin/SAM-6D核心特点 零样本姿态估计:SAM-6D可从RGB-D图像中快速估计未见过物体的6D姿态,助力机器人在复杂场景中精准抓取。 增强适应性与泛化能力:基于零样本学习,SAM-6D仅需CAD模型即可估计姿态,显著提升机器人在未知环境中的泛化能力。 复杂场景鲁棒性:通过Background Token设计,SAM-6D能有效解决遮挡问题,提高机器人在杂乱环境中的操作成功率。 多阶段优化:SAM-6D采用两阶段点集匹配,先粗匹配后精优化,显著提高姿态估计精度,为操作提供可靠支持。 助力具身智能:SAM-6D使机器人能快速适应新环境和任务,推动具身智能的灵活自主操作。 应用场景 SAM-6D 在具身智能机器人操作中具有巨大的应用潜力,能够显著提升机器人在复杂场景中的适应性和操作精度。这种技术为机器人在家庭服务、工业自动化和物流等领域的广泛应用提供了新的可能性。 02 智平方 & 北京大学:RoboMamba RoboMamba是由智平方、北京大学和北京智源人工智能研究院(BAAI)联合开发的一款高效端到端视觉-语言-动作(VLA)具身大模型,专为机器人场景优化设计,旨在实现高效的推理与操作能力。RoboMamba的研究成果于2024年6月发表在NeurIPS 2024会议上。项目主页:https://sites.google.com/view/robomamba-web。GitHub代码库:https://github.com/lmzpai/roboMamba核心特点 多模态设计:RoboMamba结合了视觉编码器和线性复杂度的状态空间语言模型(SSM,即Mamba),通过协同训练赋予模型强大的视觉常识理解和机器人相关推理能力。 高效推理与微调:该模型通过一种高效的微调策略,仅需调整模型参数的0.1%,即可在短时间内(约20分钟)完成微调,显著提升了操作泛化能力和任务适应性。 推理与操控能力:RoboMamba能够处理从高层次推理到低层次精细操控的多任务场景,推理速度比现有模型快3倍。 实验表现:在通用和机器人评估基准测试中,RoboMamba展现了出色的推理能力,并在模拟和现实世界实验中实现了令人印象深刻的位姿预测结果。 应用场景:RoboMamba适用于多种机器人任务,包括任务规划、长程任务规划、可操纵性判断、未来与过去预测以及末端执行器位姿预测等 03 星动纪元:ERA-42 星动纪元2024年12月发布端到端原生机器人大模型ERA-42,其与自研的五指灵巧手星动XHAND1相结合,首次实现仅凭一个具身大模型,即可驱动五指灵巧手运用多种工具,完成超过100项复杂精细的操作任务;包括拿起螺钉并用钻紧固、用锤子敲打钉子、扶正水杯并倒水等。 在通用性和灵巧操作能力方面,ERA-42无需任何预编程技能,具备强泛化与自适应能力,基于少量数据收集,可在不到2小时即可学会新任务,并持续快速学习更多新技能。 星动纪元指出,具身大模型作为开启通用具身智能体的密钥,需要具备以下三个要素。第一,统一一个模型泛化多种任务和环境,第二是端到端,从接收全模态数据,到生成最终输出如决策、动作等,通过一个简洁的神经网络链路完成,第三是Scaling up(规模化),允许模型通过持续的数据积累实现自我完善,使得具身大模型在数据量指数级增长的同时,不仅提升性能,还能在未知任务中展现卓越的自适应和泛化能力。 在实际应用中,相比传统的夹爪机器人,基于ERA-42能力的五指灵巧手星动XHAND1能使用多种工具,完成更通用、灵巧性更强、复杂度更高的操作任务。例如,通过简单的彩色方块抓取数据训练后,ERA-42就能成功实现从未见过的多样化物体的抓取泛化。 04 Google & 柏林技术大学:PaLM-E PaLM-E(全称:Pathways Language Model with Embodied)是由Google和柏林技术大学(TU Berlin)合作开发的一种具身多模态语言模型,旨在通过融合视觉、语言和机器人控制能力,实现复杂的机器人任务。PaLM-E的研究成果于2023年3月发布。 项目主页:https://palm-e.github.io/ 核心特点 多模态融合:PaLM-E结合了大规模语言模型(LLM)和视觉Transformer(ViT),将视觉、连续状态估计和文本输入编码为多模态句子,从而实现对复杂任务的理解和执行。 大规模参数量:PaLM-E的参数量高达5620亿,其中语言模型PaLM为5400亿参数,视觉模型ViT为220亿参数。这是目前已知的最大视觉语言模型。 具身化推理能力:该模型能够直接将现实世界的连续传感器模态融入语言模型,从而建立词汇和感知之间的联系。它不仅能够执行视觉问答和图像描述,还能控制机器人完成复杂的操作任务。 高效任务执行:PaLM-E能够根据自然语言指令生成高级动作序列,并通过机器人平台执行任务。例如,它可以规划“找到海绵、捡起海绵、拿给用户、放下海绵”等一系列动作。 跨模态迁移能力:PaLM-E通过多模态训练,展示了从语言、视觉到具身任务的正向迁移能力。它不仅在机器人任务上表现出色,还在视觉问答(VQA)等任务上达到了最先进的性能 应用场景 机器人任务规划:PaLM-E能够生成复杂的动作序列,完成导航、物体操作等任务。 视觉问答:通过图像输入,模型可以生成描述性文字或回答相关问题。 故障检测与长期规划:模型能够进行故障检测和长期任务规划,适应复杂环境 05 Microsoft:ChatGPT for Robotics ChatGPT for Robotics是由微软自主系统和机器人研究院(Microsoft Autonomous Systems and Robotics Research)与OpenAI合作开发的一个研究项目,旨在探索如何将ChatGPT应用于机器人任务,通过自然语言交互实现机器人控制和任务规划。 核心内容 设计原则与能力:该项目提出了结合提示词工程(prompt engineering)和高级函数库的设计原则,使ChatGPT能够适应不同的机器人任务、模拟器和硬件形态。研究重点在于评估不同提示词技术和对话策略在机器人任务中的有效性。 多模态交互能力:ChatGPT for Robotics不仅支持自由对话形式,还能解析XML标签、合成代码,并通过对话进行闭环推理。这些能力使其能够处理从基础逻辑、几何和数学推理到复杂任务(如空中导航、操作和具身代理)的多种机器人任务。 PromptCraft平台:为了促进社区协作,微软推出了一个开源研究工具PromptCraft。该平台允许研究者上传和投票选出优秀的提示词方案,并提供了一个集成ChatGPT的机器人模拟器示例,方便用户快速上手。 应用范围ChatGPT for Robotics的应用范围广泛,包括但不限于: 空中机器人任务:如无人机的涡轮机检查、太阳能板检查和障碍物规避。 操作任务:如物体抓取、堆叠和构建复杂结构。 空间-时间推理:如视觉伺服任务 06 NVIDIA Cosmos 世界基础模型平台 NVIDIA Cosmos 是由英伟达推出的一个面向物理 AI(Physical AI)开发的具身大模型平台,旨在通过生成式世界模型(World Foundation Models, WFM)加速机器人和自动驾驶汽车等物理 AI 系统的开发。 核心功能 预训练世界模型(Pre-trained World Models):Cosmos 提供了一系列预训练的生成式世界模型,包括扩散模型(Diffusion)和自回归模型(Autoregressive),支持从文本到世界(Text-to-World)和从视频到世界(Video-to-World)的生成。这些模型经过大规模视频数据训练,能够生成高保真、物理感知的视频内容。 视频处理与分词技术(Video Tokenizers):Cosmos 配备了高效的视频分词器,能够将视频数据高效地转换为连续或离散的标记,压缩率比现有技术高出8倍,处理速度提升12倍。 数据处理管线(Video Curation Pipeline):平台提供了一个加速数据处理和管理的管线,能够处理超过100PB的数据,显著降低开发成本并加速模型训练。 安全与防护机制(Guardrails):Cosmos 内置了安全防护机制,包括预处理阶段的有害内容过滤和后处理阶段的视频内容审查,确保生成内容的安全性和一致性。 开放与可扩展性(Open and Extensible):Cosmos 以开放模型许可证(NVIDIA Open Model License)提供,允许开发者免费用于商业用途。开发者可以通过 NVIDIA NeMo 框架对预训练模型进行微调,以适应特定的物理 AI 应用 模型家族 扩散模型(Diffusion Models):如 Cosmos-1.0-Diffusion-14B-Text2World 和 Cosmos-1.0-Diffusion-14B-Video2World,支持从文本或视频提示生成高质量视频。 自回归模型(Autoregressive Models):如 Cosmos-1.0-Autoregressive-13B-Video2World,用于预测视频序列中的未来帧。 辅助模型(Utility Models):如 Cosmos-1.0-Guardrail 和 Cosmos-1.0-PromptUpsampler-12B-Text2World,用于提升提示质量和生成内容的安全性。 应用场景 机器人开发:通过生成合成数据,加速机器人在复杂环境中的训练和测试。 自动驾驶汽车:提供高保真模拟环境,用于自动驾驶系统的开发和验证。 增强现实(AR):支持视频解码和增强现实应用 07 银河通用:GraspVLA GraspVLA是由银河通用机器人联合北京智源人工智能研究院(BAAI)、北京大学和香港大学研究人员共同发布的全球首个端到端具身抓取基础大模型。该模型完全基于仿真合成大数据进行预训练,展现出强大的泛化能力和真实场景应用潜力。 核心特点 预训练与后训练:预训练方面,GraspVLA使用了十亿帧“视觉-语言-动作”对的仿真合成数据进行预训练。这种大规模的仿真数据预训练方式突破了传统依赖真实数据的限制,显著降低了数据采集成本;后训练方面,模型可以通过少量真实数据进行微调,快速适应特定场景,同时保持高泛化能力。 泛化能力:GraspVLA定义了七大泛化“金标准”,包括光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化和物体类别泛化。这些标准为模型的性能评估提供了明确的指导。 零样本测试能力:预训练完成后,GraspVLA可以直接在未见过的真实场景中进行零样本测试,展现出卓越的适应性。 技术创新:GraspVLA是全球首个完全基于仿真合成大数据进行预训练的具身大模型。这一创新突破了具身通用机器人领域的两大瓶颈:数据瓶颈和泛化瓶颈 应用场景GraspVLA适用于多种机器人任务,包括但不限于: 自主操作:机器人在复杂环境中的自主抓取和操作。 物体识别:在多样化背景下识别和操作不同物体。 复杂环境交互:在动态环境中进行实时交互 银河通用计划继续推出覆盖多技能的具身基础大模型,推动人形机器人技术的普及与发展。这一模型的发布标志着具身智能领域进入了一个新的发展阶段。 08 斯坦福 & Google等:OpenVLA OpenVLA 是一个开源的视觉-语言-动作(Vision-Language-Action, VLA)模型,由斯坦福大学、加州大学伯克利分校、谷歌DeepMind、丰田研究院(Toyota Research Institute)和麻省理工学院(MIT)的研究人员联合开发。该模型旨在通过预训练的视觉和语言基础模型(VLMs),为机器人提供泛化能力强的动作生成能力,从而推动机器人技术的发展。 项目主页:https://openvla.github.io。GitHub 代码库:https://github.com/openvla/openvla核心特点 模型架构:OpenVLA 是一个参数量为70亿的模型,基于Llama 2构建,并融合了DINOv2和SigLIP等视觉语言基础模型。它通过视觉和语言输入生成机器人动作,支持多种机器人平台的开箱即用,并可以通过参数高效微调快速适应新任务。 预训练数据:OpenVLA 使用了Open X-Embodiment数据集中的97万条机器人操作轨迹进行微调。这种大规模的预训练数据使模型具备了强大的泛化能力,能够处理未见过的任务指令和场景。 开源与灵活性:OpenVLA 的所有预训练检查点和训练代码均在MIT许可下开源。这使得研究人员和开发者可以轻松地使用、微调和扩展该模型,以适应不同的机器人任务和应用场景。 应用范围:OpenVLA 可以在多种机器人平台上直接使用,支持零样本(zero-shot)控制,也可以通过少量演示数据进行微调以适应新任务。它特别适用于需要泛化能力的机器人操作任务,如物体抓取、环境交互等 使用场景 零样本控制:OpenVLA 可以直接控制机器人完成预训练数据中见过的任务和机器人平台组合。 快速微调:通过少量演示数据,OpenVLA 可以快速适应新任务和机器人平台。 多机器人支持:支持多种机器人平台,无需针对每个平台重新训练。 优势与创新 开源性:OpenVLA 是第一个开源的VLA模型,填补了该领域的空白。 泛化能力:通过大规模预训练数据,OpenVLA 能够泛化到未见过的任务和场景。 高效微调:支持多种微调方式,包括LoRA(低秩适配)和全参数微调 09 UC 伯克利 & 斯坦福等:Octo Octo 是由加州大学伯克利分校、斯坦福大学、卡内基梅隆大学和谷歌DeepMind等机构联合开发的开源通用机器人策略(Generalist Robot Policy)。它是一个基于Transformer架构的具身大模型,旨在通过大规模预训练数据提升机器人在多种任务和环境中的泛化能力。Octo 的预训练数据来自Open X-Embodiment数据集,涵盖了多种机器人形态、场景和任务。这些数据不仅在机器人类型上具有多样性,还在传感器配置(如是否包含腕部相机)和标签(如是否包含语言指令)上表现出异质性。 项目主页:https://octo-models.github.io/ 核心特点 架构设计:Octo 是一个基于Transformer的扩散策略模型,预训练使用了来自Open X-Embodiment数据集的80万条机器人操作轨迹。它支持多种输入模态,包括自然语言指令、目标图像、观察历史以及多模态动作预测。 灵活性与适应性:Octo 的设计强调灵活性和可扩展性。它支持多种机器人平台、传感器配置和动作空间,并能够通过微调快速适应新的观察和动作空间。这使得Octo可以广泛应用于不同的机器人学习场景。 预训练与微调:Octo 在多个机器人平台上展示了强大的零样本(zero-shot)控制能力,并且可以通过少量目标域数据(如100条轨迹)进行微调,以适应新任务和环境。 开源与可复现性:Octo 提供了完整的预训练检查点、训练代码和微调脚本,支持开源和可复现性。这使得研究人员和开发者可以轻松地使用和扩展该模型。 性能表现:在跨机构的9个机器人平台上进行的实验表明,Octo 在多机器人控制任务中表现出色,尤其是在使用目标图像进行任务定义时,其性能优于现有的开源通用机器人策略 应用场景 零样本控制:在预训练数据涵盖的任务和环境中直接控制机器人。 快速微调:通过少量数据微调以适应新任务和机器人平台。 多机器人支持:支持多种机器人平台,无需为每个平台重新训练 10 谷歌 DeepMind:RT-2 RT-2(Robotic Transformer 2)是由谷歌 DeepMind 推出的一种新型视觉-语言-动作(Vision-Language-Action, VLA)模型,旨在通过大规模互联网数据和机器人轨迹数据的结合,提升机器人控制的泛化能力和语义推理能力。 项目主页:https://robotics-transformer2.github.io/。代码仓库:https://github.com/kyegomez/RT-2核心特点 模型架构:RT-2 基于视觉语言模型(VLM)的主干网络,如 PaLM-E 和 PaLI-X,通过将动作表示为文本标记(tokens),使其能够直接输出机器人动作。这种设计允许模型将视觉、语言和动作统一在一个框架内处理。 预训练与微调:RT-2 在互联网规模的视觉语言数据上进行预训练,然后在机器人轨迹数据上进行微调。这种方法不仅保留了大规模预训练带来的语义理解能力,还使模型能够适应具体的机器人任务。 泛化能力与涌现能力:RT-2 展示了显著的泛化能力,能够处理未见过的对象、背景和指令。此外,模型还表现出多种涌现能力,例如对新命令的解释能力、基于用户指令的推理能力(如选择最小或最大的物体),以及多阶段语义推理(如选择合适的工具或饮料)。 实时推理与部署:为了实现高效的实时控制,RT-2 可以部署在云端,机器人通过云服务请求控制指令,从而实现快速响应 实验与评估 泛化能力:RT-2 在6000次评估试验中表现出色,显著优于基线模型,尤其是在处理新对象、背景和指令时。 涌现能力:模型能够执行复杂的推理任务,例如根据用户指令选择合适的工具或饮料。 应用场景RT-2 可以广泛应用于机器人操作任务,包括但不限于: 物体抓取与操作:在复杂环境中识别和操作新对象。 语义推理:根据用户指令执行多阶段任务。 实时控制:通过云端部署实现高效的实时机器人控制 11 Physical intelligence:π0 π₀ 是由 Physical Intelligence 公司开发的一种具身大模型,旨在通过视觉-语言-动作(Vision-Language-Action, VLA)流模型实现通用机器人控制。该模型展示了强大的泛化能力和实时推理能力,能够完成复杂的多阶段任务,如叠衣服、清理餐桌和组装盒子。 项目主页:Physical Intelligence π₀ Blog 核心特点 架构设计:π₀ 基于预训练的视觉语言模型(VLM),如 PaliGemma,并在此基础上添加了一个动作专家(action expert),通过流匹配(flow matching)技术生成连续动作。这种设计使得模型能够直接输出低级电机命令,从而实现精确和流畅的操作技能。 预训练与微调:π₀ 的训练分为两个阶段,预训练阶段,在大规模互联网数据上进行预训练,继承互联网规模的语义知识。微调阶段,在多样化的机器人数据集上进行微调,这些数据集涵盖了7种不同的机器人配置和68种任务。 泛化能力:π₀ 在零样本任务评估中表现出色,能够完成未见过的任务,如衬衫折叠和餐桌清理。与 OpenVLA 和 Octo 等其他模型相比,π₀ 在复杂任务中的表现更为突出。 实时推理:π₀ 的设计使其能够进行实时推理,适用于动态环境中的任务执行。 多机器人适配:π₀ 可以直接控制多种机器人平台,无需为每个平台重新训练 技术细节 数据集:π₀ 使用了 OXE 数据集以及 Physical Intelligence 自行收集的机器人操作数据。 模型规模:π₀ 的基础模型 PaliGemma 拥有30亿参数,动作专家部分额外增加了3亿参数。 训练方法:π₀ 使用条件流匹配损失(Conditional Flow Matching)来监督动作的生成。 应用场景π₀ 可以用于多种机器人任务,包括但不限于: 复杂操作任务:如叠衣服、清理餐桌、组装盒子。 实时控制:在动态环境中执行任务。 多机器人适配:通过微调适应不同的机器人平台 12 清华TSAIL团队:RDT RDT(Robotics Diffusion Transformer)是由清华大学人工智能研究院 TSAIL 团队开发的全球最大的双臂机器人操作任务扩散基础模型。该模型旨在通过扩散模型(Diffusion Model)和可扩展的 Transformer 架构,提升机器人在复杂环境中的双臂协调与精确操作能力。 项目主页:https://rdt-robotics.github.io/rdt-roboticsGitHub 仓库:https://github.com/thu-ml/RoboticsDiffusionTransformer Hugging Face 模型库:https://huggingface.co/robotics-diffusion-transformer/rdt-1b 核心特点 模型架构:RDT 基于扩散模型设计,采用可扩展的 Transformer 架构,能够高效处理多模态输入的异质性,捕捉机器人数据的非线性和高频特性。模型通过扩散模型的多模态行为分布表示,展现出卓越的动作预测与执行能力。 统一动作空间:为解决数据稀缺问题,RDT 引入了物理可解释的统一动作空间,统一不同机器人的动作表示,同时保留原始动作的物理意义。这种设计极大地提升了模型的跨平台知识迁移能力。 大规模预训练与微调:RDT 在目前最大的多机器人数据集上进行预训练,扩展到 1.2B 参数量,并在自建的多任务双臂数据集上进行微调。该数据集包含超过 6000+ 个任务实例,显著提升了模型的双臂操作能力。 泛化能力与少样本学习:RDT 展现出强大的零样本泛化能力,能够处理未见过的物体和场景,仅通过 1~5 次演示即可学习新技能。在真实机器人实验中,RDT 明显优于现有方法,能够理解和遵循语言指令,有效处理复杂任务。 应用场景:RDT 在多种复杂任务中表现出色,例如调酒、遛狗、倒水、清洗杯子等。这些任务展示了 RDT 的灵巧操作能力、指令遵循能力和对未知环境的适应性 本文来源:智猩猩ROBOT
卡尔曼滤波器由一系列递归数学公式描述。它们提供了一种高效可计算的方法来估计过程的状态,并使估计均方差最小。卡尔曼滤波器应用广泛且功能强大:它可以估计信号的过去和当前状态,甚至能估计将来的状态,即使并...
LC1860C 是联芯科技有限公司自主研发的一款六核五模LTE基带芯片。采用高性能低功耗的 CMOS 技术,28nm 制造工艺,BGA 封装。LC1860C 内部集成六个 ARM A7 核处理器(其中一组四核 Cortex-A7,两组单核Cortex-A7),每组 A7 都内含 SCU,主频高达 1.5G。同时集成了三个 DSP 处理核(X1643、XC4210、TL420),专用作内部单元配置、通信协议数据处理以及音频数据处理。LC1860C 实现对 GSM、TD-SCDMA、LTE FDD、TD-LTE、WCDMA 等 Modem 功能。并集成了 LTE FDD/TD-LTE 的物理加速器,内嵌 DMA 接口,支持下行 150.752Mbps、上行 51.024Mbps 峰值速率。 LC1860C 具有优化的外部存储器接口,LPDDR2/LPDDR3/DDR3(L)存储器,数据宽度32 位。拥有一个 NFC 接口,可外接 8/16 bits NANDFlash,并提供读写数据的8-bit/15-bit/24-bit/40-bit/60-bit ECC 校验功能。一个异步扩展接口(HPI),可外接 DPRAM、SPRAM 等。拥有三个 SDMMC 接口,支持 SDMMC(3.0)/SDIO(3.0)/EMMC(4.5)协议。 LC1860C 同时拥有大量的 DMA 模块和内嵌 DMA 接口,可实现存储器与存储器、外设与存储器、外设与外设之间的高效数据交换。集成 GPU(Mali-T622)和 2D 加速器图形实现图像数据硬件加速处理;VIDEO CODEC 支持 H.264 和 MPEG4 等协议的 1080P 高清视频图像的编解码。DISPLAY 支持 2560X1600 最大分辨率;集成图像处理单元(ISP),最高支持 1300 万像素摄像头。 ADI的AD80403BBCZ,这是一颗2x2双通道RF捷变收发器,集成12bitDAC和ADC的2x2收发器。频段是2.4GHz至2.5GHz和4.9GHz至6GHz。前端是两颗SKY85809。
人工智能就其本质而言,是对人的思维的信息过程的模拟。在ChatGPT出来之后,人工智能的关注度越来越高。为增进大家对人工智能的认识,本文将对人工智能的优势、人工智能的技术予以介绍。如果你对人工智能具有兴趣...
很多朋友觉得PID是遥不可及,很神秘,很高大上的一种控制,对其控制原理也很模糊,只知晓概念性的层面,知其然不知其所以然,那么本期从另类视角来探究微分、积分电路的本质,意在帮助理解PID的控制原理
SLAM(Simultaneous Localization and Mapping)技术,即同时定位与地图构建,是机器人和无人驾驶领域的核心技术之一。