如果您将IoT与AI相结合会得到什么?AIoT是简单的答案,但由于神经网络技术的进步,使机器学习不再局限于超级计算机的世界,因此您还将获得嵌入式微控制器的巨大新应用领域。如今,智能手机应用处理器可以(并且确实)执行AI推理以用于图像处理,推荐引擎和其他复杂功能。

forum.jpg


未来几年,数十亿物联网设备的生态系统将获得机器学习功能

将这种功能带给不起眼的嵌入式微控制器代表了巨大的机会。想象一下一个助听器,它可以使用AI过滤掉对话中的背景噪音,可以识别用户面部并切换到其个性化设置的智能家电,以及支持AI的传感器节点,该节点可以使用最少的电池运行数年。在端点处处理数据具有不容忽视的延迟,安全性和隐私优势。

然而,利用微控制器级设备实现有意义的机器学习并非易事。例如,作为AI计算的关键标准的内存通常受到严格限制。但是数据科学正在迅速发展以减小模型尺寸,并且设备和IP供应商正在通过开发工具并结合针对现代机器学习需求量身定制的功能来做出响应。

TinyML起飞

作为该行业快速增长的标志,TinyML峰会(本月初在硅谷举行的新行业盛会)正日趋强大。根据组织者的说法,去年举行的第一届峰会有11家赞助公司,而今年的活动有27家赞助商,售空时间更早。组织者还表示,其全球设计师每月聚会的会员人数急剧增加。

高通公司Evgeni Gousev的TinyML委员会联席主席说:“我们看到一个由TinyML技术支持的数万亿智能设备组成的新世界,这些设备可以共同感知,分析和自主行动,为所有人创造一个更健康,更可持续的环境。”展会开幕词。

Gousev将这一增长归功于更节能的硬件和算法以及更成熟的软件工具的开发。他指出,企业和风险投资的投资正在增加,启动和并购活动也在增加。

今天,TinyML委员会认为该技术已经过验证,并且在微控制器中使用机器学习的初始产品应在2-3年内推向市场。“杀手级应用程序”被认为需要3-5年。

去年春天,谷歌首次展示了针对微控制器的TensorFlow框架版本,这是技术验证的重要部分。TensorFlow Lite for Microcontroller设计为仅在千字节内存上运行的设备(Arm Cortex M3上的核心运行时大小为16 KB,并且有足够的运算符来运行语音关键字检测模型,总共需要22 KB)。它仅支持推理(不支持训练)。

大玩家

大型微控制器制造商当然会感兴趣地关注TinyML社区的发展。随着研究使神经网络模型变得越来越小,它们的机会也越来越大。

大多数都对机器学习应用程序提供某种支持。例如,意法半导体(STMicroelectronics)拥有一个扩展包STM32Cube.AI,它可以在基于Arm Cortex-M的STM32系列微控制器上映射和运行神经网络。

e-AI开发环境,该环境允许在微控制器上实现AI推理。它有效地将模型转换为可在其e 2 Studio中使用的形式,与C / C ++项目兼容。

恩智浦表示,已有客户将其低端Kinetis和LPC MCU用于机器学习应用程序。该公司正在将AI与硬件和软件解决方案结合起来,尽管它主要围绕其更大的应用处理器和交叉处理器(在应用处理器和微控制器之间)进行。

强力武装

微控制器领域中大多数已建立的公司都有一个共同点:Arm。嵌入式处理器内核巨头凭借其Cortex-M系列统治了微控制器市场。该公司最近宣布了全新的Cortex-M55内核,该内核是专门为机器学习应用而设计的,尤其是与Ethos-U55 AI加速器结合使用时。两者都是为资源受限的环境而设计的。

forum.jpg


串联使用时,Arm的Cortex-M55和Ethos-U55具有足够的处理能力,可用于手势识别,生物识别和语音识别等应用

但是,初创公司和较小的公司如何寻求与该市场中的大型企业竞争?

“不是通过构建基于Arm的SoC!因为他们确实做得很好,” XMOS首席执行官Mark Lippett笑着说。“与这些人竞争的唯一方法是拥有架构优势……(这意味着)Xcore在性能和灵活性方面的内在能力。”

尽管XMOS的Xcore.ai(其新发布的用于语音接口的分频处理器)不会直接与微控制器竞争,但这种观点仍然成立。任何制造基于ARM的SoC以便与大型公司竞争的公司都可以在秘密秘诀中找到一些特别之处。

标度电压和频率

初创公司Eta Compute在TinyML展会上发布了备受期待的超低功耗设备。它可用于永远在线图像处理和传感器融合应用中的机器学习,其功率预算为100µW。该芯片使用Arm Cortex-M3内核和NXP DSP内核-一个或两个内核均可用于ML工作负载。该公司的秘制调味料具有多种成分,但关键是在两个核心上连续缩放时钟频率和电压的方式。这样可以节省大量功率,尤其是在没有PLL(锁相环)的情况下。

forum.jpg


Eta Compute的ECM3532使用Arm Cortex-M3内核以及NXP CoolFlux DSP内核。机器学习工作负载可以通过其中一种或两种来处理

现在有足够的竞争对手与Arm竞争,包括RISC-V基金会提供的最新指令集架构,为什么Eta Compute选择使用Arm内核来实现超低功耗机器学习加速?

Tewksbury告诉EETimes: “简单的答案是Arm的生态系统已经发展得非常好。” “使用Arm进行生产比现在使用RISC-V容易得多。这种情况将来可能会改变。RISC-V具有自己的优点。当然,这对中国市场有利,但我们现在主要针对的是[我们的设备]生态系统,着眼于国内外市场。”

Tewksbury指出,AIoT面临的主要挑战是应用程序的广度和多样性。市场相当分散,许多相对利基的应用程序只占很小的数量。但是,该领域总共可能扩展到数十亿个设备。

“对于开发人员而言,挑战是他们无法负担时间和金钱来为每种用例开发定制解决方案,” Tewksbury说。“在那里,灵活性和易用性变得至关重要。这就是我们选择Arm的另一个原因-因为那里有生态系统,工具也在那里,而且客户无需大量定制即可轻松快速开发产品并将其快速推向市场。”

在将其ISA锁定了数十年之后,ARM终于在去年10月宣布它将允许客户构建自己的自定义指令,以处理诸如机器学习之类的专业工作负载。在右手方面,此功能还可能提供进一步降低功耗的机会。

Eta Compute暂时不能利用此功能,因为它不适用于现有的Arm内核,因此不适用于Eta正在使用的M3内核。但是,Tewksbury能否在下一代产品中看到使用Arm自定义指令的Eta Compute,以进一步降低功耗?

“绝对是的,”他说。

替代ISA

RISC-V今年已经引起了很多关注。开源ISA允许处理器设计而无需支付许可费用,而基于RISC-V ISA的设计可以像使用任何其他类型的IP一样受到保护。设计人员可以选择要添加的扩展,也可以添加自己的自定义扩展。

法国初创公司GreenWaves是使用RISC-V内核瞄准超低功耗机器学习领域的多家公司之一。其设备GAP8和GAP9分别使用8核和9核计算集群。

forum.jpg


GreenWaves的GAP9超低功耗AI芯片的架构现在使用10个RISC-V内核

GreenWaves业务开发副总裁Martin Croome向EETimes解释了为什么该公司使用RISC-V内核。

Croome说:“第一个原因是RISC-V使我们能够在指令集级别上自定义内核,而这是我们经常使用的功能。”他解释说,自定义扩展用于减少机器学习和信号处理工作量的能力。 。“当公司成立时,如果您想使用任何其他处理器架构来做到这一点,那将是不可能的,或者将使您损失一笔巨款。而且,要花掉的财富本质上就是投资者将钱花给了另一家公司,这很难证明。”

与未经修改的RISC-V内核相比,仅GreenWaves的定制扩展就可以使其内核的能耗降低3.6倍。但是克鲁姆还说,RISC-V只是因为是新产品,所以具有根本的技术优势。

“这是一个非常干净,现代的指令集。它没有任何行李。因此,从实现的角度来看,RISC-V内核实际上是一个更简单的结构,而简单意味着更少的功耗。”

克鲁姆还提到控制是一个重要因素。GAP8设备在其计算群集中具有8个内核,GreenWaves需要对内核执行进行非常精细的详细控制,以实现最大的电源效率。他说,RISC-V支持这一点。

他开玩笑说:“最后,如果我们可以用Arm完成所有这些工作,那么我们将用Arm完成所有这些工作,那将是一个更加合乎逻辑的选择……因为没人会因为购买Arm而被解雇,”他开玩笑说。 。“软件工具的成熟度远远高于RISC-V……但是,说到现在,人们对RISC-V的关注度很高,以至于这些工具的成熟度正在迅速提高。”

总而言之,尽管有些人认为Arm在微处理器市场上的控制力正在减弱,部分原因是RISC-V的竞争加剧,但该公司正在通过允许一些定制的扩展并从一开始就开发用于机器学习的新内核来做出回应。

实际上,针对超低功率机器学习应用的Arm和non-Arm设备都已上市。随着TinyML社区继续致力于减少神经网络模型的大小并开发专用的框架和工具,该领域将发展成为一个健康的应用领域,它将支持各种不同的设备类型。