tag 标签: eFPGA

相关博文
  • 热度 4
    2024-2-29 18:45
    616 次阅读|
    0 个评论
    Achronix以创新FPGA技术推动智能汽车与先进出行创新
    全球领先的高性能现场可编程门阵列( FPGA )和嵌入式 FPGA ( eFPGA )半导体知识产权( IP )提供商 Achronix Semiconductor 公司宣布,该公司将参加由私募股权和风险投资公司 Baird Capital 举办的“ Baird 车技术与出行大会( Baird Vehicle Technology & Mobility Conference )”。 Achronix 此举是为了联络更多的创新者和投资者,共同推动更加先进的 FPGA 技术更广泛地应用于智能汽车、自动驾驶、 ADAS 和其他先进出行方式。 Baird Capital 是一家专注于全球商用技术和服务创新的知名投资公司,总部位于芝加哥市并在中国有(过)多项投资。该活动将于美国当地时间 2 月 29 日全天举办, Achronix 总裁兼首席执行官 Robert Blake 将以线上会议的方式全天参与,并将在当地时间下午 5:10 参加采用“围炉共话( Fireside Chat )”形式的圆桌会议,该活动由 Baird 的资深分析师 Tristan Gerra 主持。 Achronix 高度重视智能汽车与先进出行应用,为这些行业提供了业内独有的硬件数据处理加速器解决方案,既可以支持诸如传感器数据融合等 FPGA 传统应用,也能够支持芯片开发商针对高低阶多样化智能需求,用 eFPGA IP 去开发生命周期更长、灵活性更高的 ADAS 专用芯片( ASIC )或者系统级芯片( SoC ),以应对不同的车型定义、应用场景和运行模式在不同阶段中的需求。 为了帮助客户和生态伙伴共同应对智能汽车和先进出行领域内的挑战, Achronix 提供了从嵌入式 FPGA 硅知识产权( eFPGA IP ),到高性能、高密度、高带宽独立 FPGA 器件和基于该器件的加速卡,以及可以支持前述所有 FPGA 产品的开发工具 ACE 这样一个完整的、可演进和可扩展的全面解决方案。 这样的解决方案不仅可以高效地支持创新,还可带来独有的经济性并已经得到了市场的验证,可支持智能汽车和出行技术开发商和解决方案提供商用最高效、低延迟和可编程的技术手段,开发具备实际价值、具有长生命周期的解决方案。例如,越来越多的智能汽车和 ADAS 芯片企业正在考虑为其 SoC 或者 ASIC 导入 eFPGA ,成为了智能汽车和车联网等领域的热点。 这些芯片和解决方案开发商可以从使用我们得到同一种开发工具支持的 Speedster7t FPGA 芯片或者搭载该芯片的 VectorPath 加速卡开始研发和小批量、中批量部署,一旦市场成熟就可以立即移植到自己开发的、带有 Speedcore eFPGA 的 SoC 或者 ASIC 上,从而将智能汽车和先进出行解决方案的创新性和经济性都发挥到极致。 复制以下链接到浏览器,阅读白皮书《为什么嵌入式 FPGA ( eFPGA ) IP 是 ADAS 应用的理想选择? https://mp.weixin.qq.com/s/BJj67Z322Dz10ri5L2mU1A
  • 热度 3
    2023-11-24 16:54
    795 次阅读|
    0 个评论
    作者:郭道正, A chronix S emiconductor 中国区总经理 在日前落幕的“中国集成电路设计业 2023 年会暨广州集成电路产业创新发展高峰论坛( ICCAD 2023 )”上, Achronix 的 Speedcore ™嵌入式 FPGA 硅知识产权( eFPGA IP )受到了广泛关注,预约会议、专程前往或者驻足询问的芯片设计业人士的数量超过了往届,表明了越来越多的国内开发者正在考虑为其 A SIC 或 S oC 设计添加高性能 e FPGA 逻辑阵列。 众多潜在用户的需求,反映了当前各行各业都在加速导入智能化技术,并利用 eF PGA 来在其 A SIC 或 S oC 中添加硬件数据处理加速功能,并为不断演进的算法或者标准保留可编程性。 S peedcore eFPGA IP 包括了查找表、存储器、数字信号处理器( DSP )和机器学习处理器( MLP )等构建模块。它们都采用了模组化的结构设计,以支持客户根据其客制化终端系统的需求,来量身定制相应的资源组合。 Achronix 的 Speedcore IP 以 GDSII 格式提供,同时提供相应的文档,以支持设计师将 Speedcore eFPGA 实例集成到其特有的 ASIC 之中。 Achronix 还提供配套的 ACE 设计工具,用于编译针对 Speedcore eFPGA 的设计。目前, S peedcore eFPGA IP 已被全球数十家领先的科技企业采用,总的出货量超过了 1500 万。 简要功能介绍 由于 Speedcore eFPGA 是一款嵌入式 IP ,因此它被设计为整个 A SIC 的一个单元组件,被 A SIC 的其他完全定制的单元模组所包围(见下图)。 Speedcore eFPGA 包括以下功能 : ·可编程内核逻辑阵列,具有客户自定义的功能 ·内核 I/O 环 · FPGA 配置单元( FCU ) ·配置存储器( CMEM ) ·用于调试和编程的接口 ·用于测试的接口( DFT ) 核心资源介绍 通过选择下列每种资源的数量,就可以定义一个定制 Speedcore eFPGA IP 的功能: ·逻辑 - 6 输入查找表( LUT ),加上集成的快速加法器 ·逻辑 RAM - 两种选择: ·用于 LRAM2k 的每个存储器单元的容量最多可达 2Kb ,其中包括与 MLP 紧耦合的存储器 ·用于 LRAM4k 的每个存储器单元的容量最多可达 4Kb · Block RAM - 两种选择: ·用于 BRAM20k 的每个存储器单元的容量最多可达 20Kb ·用于 BRAM72k 的每个存储器单元的容量最多可达 72Kb ,包括与 MLP 紧 耦合的存储器 · DSP64 - 每个单元模块有一个 18 x 27 乘法器、 64 位累加器和 27 位预加法器 · MLP - 机器学习处理器( MLP )模块,包含乘法器、加法器、累加器和紧耦合存储器(包括 BRAM72k 和 LRAM2k ) 交付与应用价值 由于 Achroni x 采用了根据客户需求来定制 GDS II 的商业模式,每个 Speedcore eFPGA 实例的资源模块的数量和组合都是基于客户需求来搭配提供。 Achron ix 的 Speedcore eFPGA IP 可用于台积电( TSMC )的 16FF+ 、 16FFC 、 12FFC 、 7nm 、 5nm 和 3nm 工艺技术节点,也可以移植到其他工艺节点上。 在 A SIC 或者 SoC 中嵌入 Speedcore eFPGA 将带来诸多好处,与一款独立的 FPGA 芯片相比, Speedcore eFPGA IP 提供了以下优点: · 降低功耗多达 75% ·节省 90% 的成本 ·延迟缩短到 1/100 ,同时带宽提高了 10 倍。 因此, Sp eedcore eFPGA 具有极高的应用价值。 开发与编程 Achronix 是唯一一家可以同时大批量生产并交付 eFPGA IP 和独立 FPGA 芯片的公司,而且它们都采用同一套 A CE 开发工具来支持。设计人员可以 100 %确信 Speedcore eFPGA IP 将会正常工作,因为它在 A chronix 的 S peedster 系列独立 FPGA 芯片中已得到了全面的验证,并且经过了大量的流片验证。 由于 S peedcore eFPGA IP 采用的是与 A chronix 的独立 F PGA 芯片和搭载 Achronix Speedster7t FPGA 芯片的 V ectorPath 加速卡相同的工具,开发人员可以先在这些独立 F PGA 芯片或者加速卡上完成设计,然后再移植到 S peedcore eFPGA 上。客户可以选择以下所列配置接口中的一项或多项组合来进行编程: · JTAG ·并行 CPU ( x1 、 x8 、 x16 、 x32 、 x128 数据宽度模式) ·串行闪存( 1 个或 4 个闪存器件) · 128 位 AXI 总线 总结与展望 Achronix 的 Speedcore eFPGA IP 保持了高端 F PGA 的性能,最高运行频率可达 750MHz ,典型的运行频率也可以达到 300MHz-500MHz ,可以为 A SIC 或者 S oC 提供高性能硬件加速,是诸多智能化应用和边缘计算的理想选择,因而被领先科技企业选择用于通信基础设备、网络加速、智能驾驶和金融科技等多种应用中。 从我们在 ICCAD 2023 上与客户的交流来看,一些领先的国内系统公司和芯片设计企业已经认识到 e FPGA 的优点与价值,并进一步在探讨与 A chronix 进行基于 e FPGA 的 c hiplet 等新的合作模式。因此,我们可以展望在未来几年中,集成了 S peedcore 等 eFPGA 的 A SIC 或者 S oC 将是智能化和高速网联等领域内 芯片设计企业的一条重要的创新之道。 联系本文作者,请发送邮件到:dawson.guo@achronix.com
  • 热度 5
    2022-9-20 17:00
    866 次阅读|
    0 个评论
    此次收购增 加 了先进的 SmartNIC FPGA 功能, 为 Achronix 客户 的 网络应用 加快 上市时间 高性能现场可编程逻辑门阵列( FPGA )和嵌入式 FPGA ( eFPGA )半导体知识产权( IP )领域的领导性企业 Achronix 半导体公司宣布:该公司已经收购了 Accolade Technology 的关键 IP 资产以及 Accolade 的技术团队,此举使 Achronix 的客户能够更快速且更轻松地设计高性能网络和数据中心系统。 Accolade 在 FPGA 的网络应用方面拥有深厚的专业知识,此次收购使 Achronix 能够为开发网络技术的客户提供强大的硬件和软件解决方案。 “如今,芯片设计人员被要求提供灵活、高性能且能够快速上市的解决方案,而解决这些挑战同时又是一个复杂的过程,而 Accolade 的 FPGA IP 可以显著加速这一进程。” Achronix 市场营销和战略规划副总裁 Steve Mensor 表示。“我们对 Accolade 的 IP 资产和专业技术进行收购,使 Achronix 的客户能够专注于创造他们的增值功能,并比以往任何时候都能更快速、更容易且更经济高效地提供解决方案,客户们将从中大受裨益。 ” Achronix 收购了 Accolade 的以太网 FPGA IP 产品组合 ,该 组合 为 Achronix 的 Speedster FPGA 、 VectorPath 加速卡和 Speedcore eFPGA 产品提供 了一个 全功能 的 以太网 外 壳 ( shell ) 。 这个网络处理外壳为客户内部开发的 IP 功能模块提供数据包处理、负载均衡和流量处理等功能。 Accolade 的 IP 与 Achronix 的解决方案相结合后可用于任何 SmartNIC 应用。 “我们很高兴 能够 成为 Achronix 的一 部分 ,” Accolade 首席技术官 Jon Sreekanth 说道。“将 Achronix 和 Accolade 的技术相结合,将显著缩短 SmartNIC 设计的上市时间,并使更广泛的客户群体可以使用 Accolade IP ,从而进一步推动 SmartNIC 解决方案的发展。” 关于 Achronix 半导体公司 Achronix 半导体公司是一家总部位于美国加利福尼亚州圣克拉拉市的无晶圆厂半导体公司,提供基于高端 FPGA 的高性能数据加速解决方案,旨在满足高性能、计算密集型和实时处理应用的需求。 Achronix 是唯一一家同时提供高性能和高密度的独立 FPGA 产品和可授权的 eFPGA IP 解决方案的供应商。 Achronix Speedster®7t 系列 FPGA 和 Speedcore ™ eFPGA IP 产品通过面向人工智能、机器学习、网络和数据中心应用的即用型 VectorPath® 加速卡 得到进一步增强。所有的 Achronix 产品都由 Achronix 工具套件 完全支持,使客户能够快速开发自己的定制应用。 Achronix 的业务遍及全球,并在美国、欧洲和亚洲设有销售和设计团队。
  • 热度 10
    2022-9-13 14:59
    1085 次阅读|
    0 个评论
    搭载Speedster7t FPGA器件的VectorPath加速卡获PCI-SIG认证
    支持 PCIe Gen4 ×16 的 VectorPath® 加速卡 获得 CEM 插卡认证 加利福尼亚州圣克拉拉市, 2022 年 9 月 12 日 —— 高性能现场可编程逻辑门阵列( FPGA )和嵌入式 FPGA ( eFPGA )半导体知识产权( IP )领域的领导性企业 Achronix 半导体公司今日宣布:其搭载 Speedster®7t FPGA 器件的 VectorPath 加速卡 已 通过 PCI-SIG 认证 , 并 被 添加到支持 PCIe Gen4 x16 的 CEM 插卡 集成商列表中。 VectorPath S7t-VG6 加速卡设计旨在为人工智能( AI )、机器学习( ML )、网络和数据中心应用开发高性能计算和加速功能,同时缩短上市时间。 VectorPath 加速卡现已上市,可实现即刻下单即刻发货。 VectorPath 加速卡是 Achronix 与 Molex 旗下公司 BittWare 联合开发的,其主要功能包括: · 搭载了 具有 692K 个 6 输入 查找表( LUT ) 的 Speedster7t AC7t1500 FPGA 器件 · 支持 400 GbE 和 200 GbE 的 QSFP-DD 和 QSFP56 光模块 · 高达 16 GB 的 GDDR6 存储器 – 共有 8 组,每组有两个独立的 16-bit 通道 · 一组带 ECC 的 DDR4-2666 (最高可达 4GB ) “ Achronix 是 BittWare 的重要战略合作伙伴。 Speedster7t FPGA 具有创新的架构,在高性能 FPGA 细分市场中提供了显著的差异化优势,” BittWare 销售和营销副总裁 Craig Petrie 说道。“获得 PCI-SIG 认证可以让设计人员确信,他们现在可以在基于 PCIe Gen4 的系统中使用 VectorPath 加速卡。” 在 VectorPath 加速卡中使用了 Speedster7t AC7t1500 FPGA 器件,它被打造成为帮助用户以最高性能克服数据加速挑战。该 FPGA 器件被设计为具有最高带宽的 I/O 和存储接口,在 FPGA 行业内率先使用二维片上网络( 2D NoC )来实现无缝连接。它集成了支持 400G 以太网、 PCIe Gen5 和 112G SerDes 的高速外部接口,是高性能网络和计算应用的理想选择。此外, Speedster7t FPGA 支持高带宽 GDDR6 存储接口,提供超过 4 Tbps 的存储带宽,是唯一可支持低成本 GDDR6 存储器的 FPGA 系列产品。 为了提供高性能的计算能力, Spedster7t FPGA 包括机器学习处理器( MLP ),旨在应对充满挑战性的人工智能 / 机器学习( AI/ML )工作负载。这些工作负载需要高速数学计算能力,支持各种数字格式,以及用于系数存储的紧耦合本地存储器,所有这些都包含在 MLP 中。 MLP 为设计人员提供了高达 61 TOPS (每秒万亿次操作)的计算能力,由于 Speedster7t FPGA 具有高效的架构,这些计算能力可以得到充分利用。 Achronix 市场营销副总裁 Steve Mensor 表示:“作为唯一一家可同时提供高性能 FPGA 器件和 eFPGA IP 的独立供应商, Achronix 的 VectorPath 加速卡为客户提供了一种使用 Achronix Speedster7t FPGA 进行评估和导入量产的简便方法。通过 PCI-SIG 认证是一个重要的里程碑,它验证了我们的技术,让客户相信我们的 FPGA 技术可以用于他们的量产应用中。” 供货 VectorPath 加速卡现已批量供货。可直接从 Achronix 半导体公司购买 ,可即刻购买该加速卡。 关于 Achronix 半导体公司 Achronix 半导体公司是一家总部位于美国加利福尼亚州圣克拉拉市的无晶圆厂半导体公司,提供基于 FPGA 的高端数据加速解决方案,旨在满足高性能、计算密集型和实时处理应用的需求。 Achronix 是唯一一家同时提供高性能和高密度的独立 FPGA 产品和可授权的 eFPGA IP 解决方案的供应商。 Achronix Speedster®7t 系列 FPGA 和 Speedcore™ eFPGA IP 产品通过面向人工智能、机器学习、网络和数据中心应用的即用型 VectorPath® 加速卡 得到进一步增强。所有的 Achronix 产品都由 Achronix 工具套件 完全支持,使客户能够快速开发自己的定制应用。 Achronix 的业务遍及全球,并在美国、欧洲和亚洲设有销售和设计团队。
  • 热度 5
    2022-8-4 16:00
    899 次阅读|
    0 个评论
    使用交互式人工智能(CAI)实现语音转录成本降低高达90%
    交互式人工智能( CAI )简介 什么是交互式人工智能( AI )? 交互式人工智能( CAI )使用机器学习( ML )的子集深度学习( DL ),通过机器实现语音识别、自然语言处理和文本到语音的自动化。 CAI 流程通常用三个关键的功能模块来描述: 1. 语音转文本( STT ),也称为自动语音识别( ASR ) 2 自然语言处理( NLP ) 3 文本转语音( TTS )或语音合成 图 1 : 交互式 AI 构建模块 本篇白皮书详细介绍了自动语音识别( ASR )的应用场景,以及 Achronix 如何在实现 ASR 解决方案的同时将相关成本降低高达 90% 。 细分市场和应用场景 仅在美国就有超过 1.1 亿个虚拟助手在发挥作用 ,大多数人对使用 CAI 服务都很熟悉。主要示例包括移动设备上的语音助手,例如苹果的 Siri 或亚马逊的 Alexa ;笔记本电脑上的语音搜索助手,例如微软的 Cortana ;自动呼叫中心应答助理;以及支持语音功能的设备,例如智能音箱、电视和汽车等。 支持这些 CAI 服务的深度学习算法可以在本地电子设备上进行处理,或者聚集在云中进行远程大规模处理。支持数百万用户交互的大规模部署是一个巨大的计算处理挑战,超大规模的提供商已经通过开发专用的芯片和设备来处理这些服务。 现在,大多数小型企业都可以使用亚马逊、 IBM 、微软和谷歌等公司提供的云 API ,轻松地将语音接口添加到他们的产品中。然而,当这些工作负载的规模增加时(本白皮书后面将介绍一个具体的示例),使用这些云 API 的成本将会变得过高,迫使企业寻求其他解决方案。此外,许多企业运营对数据安全性有更高的要求,因此需要将解决方案必须保留在企业的数据安全范围内。 企业级 CAI 解决方案可用于以下应用场景: · 自动呼叫中心 · 语音和视频通信平台 · 健康和医疗服务 · 金融和银行服务 · 零售和 售货贩卖设备 详细介绍 ASR 处理过程 ASR 是 CAI 流程的第一步,在这里语音被转录为文本。一旦文本可用,就可以使用自然语言处理( NLP )算法以多种方式对其进行处理。 NLP 包括关键内容识别、情感分析、索引、语境化内容和分析。在端到端的交互式 AI 算法中,语音合成用于生成自然的语音响应。 最先进的 ASR 算法是通过端到端的深度学习来实现。不同于卷积神经网络( CNN ),递归神经网络( RNN )在语音识别中很常见。正如来自 TechTarget 的 David Petersson 在《 CNN 与 RNN :它们有何不同?》文章中提到: RNN 更适合处理时间数据,与 ASR 应用非常适配。基于 RNN 的模型需要较高的计算能力和存储带宽来处理神经网络模型,并满足交互式系统所需的严格的延迟目标。当实时或自动响应太慢时,它们会显得迟缓和不自然。通常只有牺牲处理效率才能实现低延迟,这会增加成本,并且对于实际部署来说会变得过于庞大。 Achronix 与采用现场可编程逻辑门阵列( FPGA )进行 AI 推理的专业技术公司 Myrtle.ai 展开合作。 Myrtle.ai 利用其 MAU 推理加速引擎在 FPGA 上实现基于 RNN 的高性能网络。该设计已集成到 Achronix Speedster®7t AC7t1500 FPGA 器件中,可以利用 Speedster7t 架构的关键架构优势(将在本白皮书后面进行探讨),大幅提高实时 ASR 神经网络的加速处理,从而与服务器级中央处理器( CPU )相比,可处理的实时数据流( RTS )的数量增加 2500% 。 数据加速器:如何实现资源的合理平衡分配 数据加速器可以卸载通常由主 CPU 执行的计算、网络和 / 或存储处理工作负载,从而可以显著减少服务器的占用空间。本白皮书介绍了用一台服务器和一个 Achronix 基于 ASR 的加速卡可取代多达 25 台服务器。这种架构大大降低了工作负载成本、功耗和延迟,同时提高了工作负载吞吐量。然而,只有在硬件得到有效使用并且部署具有成本效益的情况下,使用数据加速硬件来实现高性能和低延迟才有意义。 ASR 模型对现代数据加速器来说是一种挑战,通常需要手动调整以实现比平台主要性能规格的个位数效率更高的性能。实时 ASR 工作负载需要高存储带宽以及高性能计算。这些大型神经网络所需的数据通常存储在加速卡上的 DDR 存储器中。将数据从外部存储器传输到计算平台是该工作负载中的性能瓶颈,特别是在进行实时部署的时候。 图形处理器( GPU )架构是基于数据并行模型,较小的批处理量( batch size )会导致 GPU 加速硬件的利用率较低,从而导致成本增加和效率降低。硬件加速解决方案数据表(以 TOPS 即每秒万亿次操作为单位进行衡量)中的性能数据并不能总是很好地表示实际性能,因为许多硬件加速器件由于与器件架构相关的瓶颈而未得到充分利用。这些数据以 TOPS 为单位,强调了加速器计算引擎的处理能力,但忽略了关键因素,例如外部存储器的批处理量、速度和规模,以及在外部存储器和加速器计算引擎之间传输数据的能力。对于 ASR 工作负载,关注存储带宽和在加速器内高效地传输数据为加速器性能和效率的实现提供了更强有力的指导。 加速器必须具有更大的外部存储规模和非常高的带宽。当今的高端加速器通常使用高性能的外部存储器,存储规模达 8-16 GB ,运行速度可高达 4 Tbps 。它还必须能够将这些数据传输到计算平台而不会影响性能。然而,无论如何去实现高速存储和计算引擎之间的数据通道,它几乎在所有情况下都是系统性能的瓶颈,特别是在实时 ASR 这样的低延迟应用中。 FPGA 设计旨在存储和计算之间提供最佳的数据路由通道,从而为这些工作负载提供一个出色的加速平台。 Achronix 解决方案与其他 FPGA 解决方案的对比 在机器学习( ML )加速领域中,已有 FPGA 架构宣称其推理速度可高达 150 TOPS 。然而在实际应用中,尤其是在那些对延迟敏感的应用(如 ASR )中,由于无法在计算平台和外部存储器之间高效地传输数据,所以这些 FPGA 远不能达到其声称的最高推理速度。由于数据从外部存储器传输到 FPGA 器件中的计算引擎时出现了瓶颈,从而造成了这种性能上的损失。 Achronix Speedster7t 架构在计算引擎、高速存储接口和数据传输之间取得了良好的平衡,使 Speedster7t FPGA 器件能够为实时、低延迟的 ASR 工作负载提供高性能,可实现最高 TOPS 速率的 64% 等级。 图 2 : Speedster7t 器件的计算、存储和数据传输能力 Speedster7t 架构如何实现更高的计算效率 在 Speedster7t 上搭载的机器学习处理器( MLP )是一种优化的矩阵 / 向量乘法模块,能够在单个时钟周期内进行 32 次乘法和 1 次累加,是计算引擎架构的基础。 AC7t1500 器件中的 Block RAM ( BRAM )与 2560 个 MLP 实例都处于同一位置,这意味着更低的延迟和更高的吞吐量。 借助于这些关键的架构单元, Myrtle.ai 的 MAU 低延迟、高吞吐量的 ML 推理引擎已集成到 Speedster7t FPGA 器件中。 在构建最佳的 ASR 解决方案时,集成了之前提到的来自 Myrtle.ai 的 MAU 推理引擎,使用了 2560 个 MLP 中的 2000 个。由于 MLP 是一个硬模块,它可以运行在比 FPGA 逻辑阵列本身更高的时钟速率上。 图 3 : 机器学习处理器 在 AC7t1500 器件中使用了 8 个 GDDR6 存储控制器,它们总共可提供高达 4 Tbps 的双向带宽。如上所述,强大的计算引擎和大容量、高带宽的存储依赖于高速、低延迟和确定性的数据传输,以提供低延迟 ASR 应用所需的实时结果。 随后这些数据进入到 Speedster7t 的二维片上网络( 2D NoC )。该二维片上网络是 Speedster7t 架构中的另一种硬结构,时钟频率高达 2 GHz ,可与所有 I/O 、内部硬模块和 FPGA 逻辑阵列本身互连。凭借 20 Tbps 的总带宽, 2D NoC 提供了最高的吞吐量,并通过适当的实现方式,可以在外部 GDDR6 存储器和支持 MLP 的计算引擎之间提供最具确定性的、低延迟的数据传输。 图 4 : 总带宽为 20 Tbps 的 2D NoC 与其他竞争性厂商的解决方案不同, 2D NoC 消除了 Speedster7t ASR 解决方案在存储器和计算引擎之间的任何瓶颈,在这些非常低的批处理速率下,硬件加速器的利用率达到最佳状态。 将所有这些功能放在一个 roofline 图中,就可以清楚地说明 Achronix Speedster7t 器件在低延迟 ASR 应用中相对于其他竞争性 FPGA 解决方案的优势。该 roofline 图使用了由每个制造商公布的经过验证的 TOPS 数据,展示了这些器件在实际应用中可以达到的效果。 下图显示了一个有效 TOPS 的 roofline 模型,它使用了 Achronix 为微基准( GEMV 和 MLP )和测试而构建的子集,以及公司 A 和公司 B (基于架构)发布的数据。橙色的竖线表示批处理量为 8 毫秒和 80 毫秒音频模块的最佳操作点,用于低延迟、实时 ASR 数据流应用。在这个最佳操作点上, Achronix 的有效 TOPS 比公司 A 提高了 44% ,比公司 B 的解决方案提高了 260% 。 图 5 : 有效 TOPS 的 Roofline 模型 在一年内实现 ASR 处理成本降低高达 90% 的目标 大多数 ASR 解决方案由 Google 、 Amazon 、 Microsoft Azure 和 Oracle 等大型云服务提供商提供。随着运营规模的扩大,以及这些产品在市场上取得的成功,在这些云 API 基础上构建产品的服务提供商面临着越来越高的成本压力。较大规模的 ASR 提供 商公开宣传成本从每分钟 0.01 美元到 0.025 美元不等 、 、 、 。行业报告显示,呼叫中心的平均呼叫时间约为 5 分钟。考虑一个大型企业数据或呼叫中心服务公司每天要处理 50,000 通电话,每通电话 5 分钟。按照上述费率计算, ASR 处理成本将是每天 1,500 至 6,000 美元或每年 50 万至 200 万美元。 Achronix 和 Myrtle.ai 的解决方案可以集成在一个加速卡上支持处理 4000 个 RTS ,每天可以处理超过一百万次的呼叫。 有许多因素会决定独立 ASR 设备的成本。在这个特定示例中,假设 Achronix ASR 加速解决方案是通过基于 FPGA 的 PCIe 卡提供,并集成到基于 x86 架构的 2U 服务器中。该设备从系统集成商那里出售,价格可能为 50,000 美元,而每年运行服务器的成本可能是这个成本的两倍。这样一来,本地 ASR 设备第一年的费用就达到了 10 万美元。将这种本地解决方案与云 API 服务进行比较,终端用户可以在第一年节省 5 到 20 倍的费用。 表 1 : Achronix ASR 解决方案与云 API 服务的对比总结 项目 Speedster7t 解决方案 云 API ( 最低成本 ) 云 API ( 最 高 成本 ) 每天成本( 50k RTS ) $275 $1.5k $6k 年度成本 $100k $500k $2,000k 降低成本 vs 云 API 5X to 20X – – 高度紧凑的系统使企业能够随着其业务的增加而扩展,而无需依赖日益昂贵的 ASR 云 API ,也无需构建庞大的数据中心基础设施来提供本地解决方案。 总结 CAI 中的 ASR 功能要求 RNN 机器学习算法具有低延迟、高吞吐量的计算,这对现代 AI 加速器提出了挑战。声称推理速度高达 150 TOPS 的 FPGA 硬件加速器在大型计算引擎和高速存储器之间传输数据时会遇到瓶颈,这些瓶颈可能导致硬件利用率低至 5% 。 Achronix 和 Myrtle.ai 携手推出一个 ASR 平台,该平台由一个 200W 、 x16 PCIe Gen4 加速卡和相关软件组成,可以同时支持多达 4000 个 RTS ,每 24 小时可以处理多达 100 万个、时长 5 分钟的转录文件。将单台 x86 服务器上的 PCIe 加速卡与云 ASR 服务的成本相比,第一年的资本支出( CAPEX )和运营成本( OPEX )就可以降低高达 90% 。