tag 标签: ai

相关帖子
相关博文
  • 2022-6-22 18:09
    235 次阅读|
    0 个评论
    2022德国嵌入式展期间, 广和通 (股票代码:300638),全球领先的物联网无线通信解决方案与无线通信模组提供商联合安提国际,全球智慧边缘计算解决方案供应商宣布:广和通 5G模组FM160 与安提国际AI边缘计算平台AN810-XNX成功实现联调,为AI边缘计算应用带来高速、稳定、低时延的端到端数据传输。此次合作意味着广和通最新一代5G R16模组的性能成功在安提国际的AI边缘计算平台上得到验证,双方将携手推进AI边缘计算终端应用,全面赋能智能机器人、无人机、工业质检、智慧医疗终端设备,加速产业智能化升级。 AN810-XNX是安提所发布的高性能、低功耗AI计算平台,搭载了英伟达Jetson Xavier NX计算核心,具备深度机器学习能力,与广和通 5G模组 相结合,可帮助客户在边缘实现大容量数据的高速率、低时延传输与计算。英伟达Jetson Xavier NX则是一款体积精巧、功能全面的AI超级计算机,支持云原生技术,具备丰富SDK,可缩短终端研发周期,加速终端落地。 随着行业智能化趋势发展,AI解决方案已广泛应用于千行百业中,且AI运算核心逐渐从云端转向边缘端。同时,5G技术的加持令AIoT产业表现出更强移动性与出色联网性能。AIoT行业客户使用“安提国际AN810-XNX+广和通5G R16模组”的产品组合即可在Gbps级别的数据传输速率中处理来自多个高分辨率传感器的数据,满足完整终端设备对AI计算系统的需求。 广和通5G模组FM160-EAU采用标准M.2接口,与AN810-XNX内置的M.2接口相兼容。FM160-EAU支持NRCA,包括T+T/T+F/F+F三种聚合方式,最高120MHz频宽,带来极速的5G体验,最高下行速率支持3.5Gbps,最高上行速率达900Mbps,进一步提升5G网络覆盖、网络灵活性、网络容量,赋能AN810-XNX卓越无线体验。 基于可持续性的紧密合作关系,未来双方将加强协作,融合最新3GPP标准的模组,推动基于英伟达更新一代的Jetson AGX Orin系列产品更进一步合作,共同为产业客户提供更高性能、更安全、更低功耗、更稳定、更智慧的无线通信连接。 安提国际Jetson系列产品事业部负责人林宏达表示:“我们一直致力在全球边缘AI产业内建立属于安提国际的广泛生态圈伙伴网络系统。本次与广和通的合作将使我们的全球客户充分受益,满足他们在边缘端对于高实时性、高稳定性AI运算平台的与日俱增的需求。” 广和通IoT MBB产品管理部总经理陶曦表示:“随着AIoT产业的不断发展,5G和高算力在AI、XR、数字孪生、元宇宙等领域将成为核心驱动力,既帮助智能终端实现5G连接,同时在边缘侧即完成计算。此次广和通携手安提国际打通了‘AI边缘计算领域+5G R16新特性’的解决方案,是双方在全球5G边缘计算合作的重要突破。未来,双方将更紧密合作,持续为全球客户提供稳定高效的5G AI边缘计算解决方案。”
  • 热度 5
    2022-4-2 14:28
    1704 次阅读|
    2 个评论
    聊聊元宇宙的建设进度
    今年英伟达 GTC ,Toy Jensen 又出场了。就是在去年 GTC 走红的、以黄仁勋本人为基础定制的一个虚拟人物形象——去年这个角色似乎还叫 Toy-Me。这是个可以进行实时对话的人物形象,能做眼神接触、对话,而且有全套的动画动作。宣传中,英伟达提到 Toy Jensen 是建立在 Omniverse Avatar 框架的基础之上。 就是这么个看起来简单的东西,实则浓缩了很多现代技术。初见此等技术,很多人可能会想:它很高端吗?能对话的智能语音助手不都一抓一大把?事实上,即便抛开对话式 AI 的质量不谈,Toy Jensen 也有很多技术点,或者说在造 Toy Jensen 过程中遇到的实际工程问题。因为这毕竟不是个简单预渲染的动画,而是你跟他说话,他立马做动作、表情、回应的虚拟角色。 首先是 Toy Jensen 的声音——是基于 Riva 语音 AI 的 Text-to-Speech RAD-TTS 语音合成。而面部表情则是用 Omniverse Audio2Face。去年其实我在谈元宇宙的文章里谈到过 Audio2Face,这个应用的神奇之处是在只有人声的情况下就能生成 3D 面部表达,嘴型都能和输入的音频完美匹配。 而支配 Toy Jensen 身体动作的是 Omniverse Animation 的 Animation Graph——这是应用于骨骼动画合成、回放和控制的一个 runtime 框架。Toy Jensen 的手、胳膊、头部和其他肢体动作都依托于此。 至于黄仁勋标志性的黑色皮衣,为了凸显 Toy Jensen 身上皮衣本身的皮革质感,令其看起来不像是塑料,需要用到英伟达开源的 MDL(Material Definition Language)。去年的 SIGGRAPH 上,英伟达宣布推出一个叫 Omnisurface 的东西,就是 MDL 的一部分,大约与此是相关的。 此外,要让 Toy Jensen 与人对话又需要动用到对话式 AI,也就是 Riva 和英伟达的 Megatron 530B NLP 模型……所以这称得上是现阶段集 AI 大成的作品了。 当涉足具体应用时,其关联的技术点还会更多。比如在今年 GTC 的 Omniverse Cloud 演示中,Toy Jensen 和另外三名设计师一起远程协作,也就是和真人一起完成设计工作:则其中涉及的 AI 和图形技术还会更多。 Toy Jensen 现阶段还只能说是英伟达用于炫技的一个虚拟角色,但同样建基于 Omniverse Avatar 的 Tokkio 虚拟机器人却是着眼于应用的,包括零售店、快餐店的服务 AI;今年英伟达也演示了 Tokkio 在智能驾驶汽车上直接与乘客对话并完成指定工作的过程。 当我们谈元宇宙这个话题时,图形计算、AI 一定是避不开的。而 Toy Jensen、Tokkio 必然成为元宇宙形成初期的某种示例和构成元素,即便我们现在离构建完整的元宇宙还略有些遥远。 这几件事让我感觉 元宇宙有眉目 参加今年的英伟达 GTC,有三件事让我印象非常深刻——让我感觉我们离元宇宙并没有很遥远,或者我们周遭原本就有了越来越多虚拟的东西。第一就是 Toy Jensen。 第二是黄仁勋在亚太区答记者问时,有个记者提问像 Omniverse 这样一个虚拟世界和技术,未来是否将模糊虚拟和现实的界限。“比如可能现在接受我们采访的 Jensen 就不是个真人。这会给世界带来混乱还是希望呢?”近两年受到疫情影响,GTC 活动的答记者问都是从线上接入的。 黄仁勋在画面那头是这么作答的:“其实现在我眼前的你,并不是真正的你。你经过了 H.264 编码、你数字化了,然后经过传输又以 H.264 解码,然后我才看到了这样的你——这已经不是你本人了,而是你的一个重构版本。” “如果我用 CV(计算机视觉)来对你进行检测感知,实际上检测的并不只是构成你的那一堆像素,还在于这背后的很多东西。比如说,能算出如果你现在要是站着,会是什么样子(因为采访时大家都坐着)。CV 所做的不只是‘所见’还在于‘所想’。然后再用计算机图形学来对‘想象中’你的样子(比如站着的你)进行重构。我就能以我期望的任何方式与你进行交互了。” “比如说可以 VR 的方式和你交互,我们可以在同一个房间里走来走去。”黄仁勋说,“这就不光是数字化、编解码的问题了。这是我们所做的工作,改变通信过程的一个例子。” “而 Omniverse 是我们的一个平台,用于模拟现实世界。我们的首个应用就是机器人——要是没有 Omniverse 的话,机器人的编程、测试就只能放到真实的环境里去进行。但机器人很笨重,测试过程会存在各种危险。那我们就需要一个虚拟的版本,机器人的数字孪生版本,把它放到 Omniverse 世界里——在这样的环境下对机器人进行编程测试。而且在该环境下,机器人的运作也是符合各种物理学定律的,就像真实世界一样。” 这是现在已经达成且在高速发展中的技术。说更近一点的,Zoom、腾讯视频之类的远程会议 app 如今都有“虚拟背景”功能。这大概就是最初级和简单的虚拟世界存在我们身边的佐证了吧。 第三,是黄仁勋在主题演讲过程中展示了某个虚拟人物(如上图,点击看动图,或者叫 AI-powered character)。黄仁勋说:“我们用强化学习来开发更贴近真实生活,和能够进行真实响应的模拟角色。这些角色基于人类动作数据——比如说走路、跑步、挥剑——来学习各种人类真实动作。” 据说这些角色训练机制是要求 10 年期的模拟的,而基于英伟达大规模并行 GPU 模拟,只需要现实世界中花 3 天时间就能训练完成。随后这些角色还能掌握各种技能,执行更复杂的任务。比如说撞倒某个东西、往不同方向前进,甚至我们可以随便输入一句话来控制角色。从演示来看,其动作流畅、自然程度与人类基本无异。 “我们希望这项技术最终能让虚拟人物的交互,就像和真人对话一样简单、流畅。”这项演示因为是基于模拟出的人形角色(而不是机械臂、物流机器人),所以第一次让我感觉“AI”是如此生动和真实的存在,仿佛随算法与算力堆砌,这些人形角色总有一天会有科幻电影呈现出的行动力。将其复制一份到现实世界,是否就是真正的生化人? 以上这三者都与虚拟世界、AI 有着莫大关联。在英伟达的生态帝国里,NVIDIA Omniverse 和 NVIDIA AI 是平台层的两个支柱,下面这张图展示了其间关系。感觉这张图的梳理,对于理解英伟达涉足的业务,有着相当大的帮助——否则,这公司的市场概念如此之多,而且有些隔年还改名,我们这些普通人实在很难记得住… 总结一下,今年 GTC 有关 Omniverse 和 AI 的发布内容主要有以下这些: • 发布 Nvidia Omniverse Cloud; • 发布 Nvidia OVX 与 OVX SuperPOD; • 发布 Spectrum-4 交换机; • 发布面向桌面 PC 的 RTX A5500 GPU;面向笔记本的更多绘图专业 GPU; • Omniverse 平台与生态的相关发展与更新(如 Connector 增加到 82 个;有更多新的客户;Omniverse Kit、Nucleus、XR、Replicator、DeepSearch 等应用和组件更新); • 发布 Nvidia AI Accelerated 项目; • 发布 Nvidia AI Enterprise 2.0; • Nvidia AI 部分库、软件和工具的更新(如 Triton、Riva 2.0、Maxine SDK、Merlin 1.0、Nemo Megatron) • 发布代理气候模型 FourCastNet;用于 6G 通信研究的 Sionna 框架;还有一些公布的信息是往届 GTC 有过介绍的(或者这些内容有新的更新),比如说用 Modulus 打造 Earth-2 地球的数字孪生,再度介绍用于网络安全的深度学习模型 Morpheus 等。 机器人、汽车原本也属于 Omniverse 和 AI 的组成部分——如前文提到将机器人放进虚拟世界中训练,其中关乎到合成数据生成、训练模型、模型部署测试之类的问题,这些也都在英伟达的射程范围内。 不过因为机器人和汽车风头正劲,所以这两年英伟达都是单独将其拿出来谈的。今年事实上也有一些关键更新,比如说面向 AMR(自主移动机器人)发布了专门的 Isaac SDK,还有面向汽车的 Hyperion 9 发布等等。但这些不成为本文探讨元宇宙的组成部分。 元宇宙的雏形,数字孪生 虽说把 Omniverse 叫做元宇宙是不对的,但私以为 Omniverse 是现阶段最接近元宇宙、且更能落地的东西。如果你不知道什么是 Omniverse 的话,建议你 看看这篇 文 章 。 Omniverse 现阶段在做的是两件事:设计协作与模拟仿真。设计协作比较类似于我们用云共享文档,直接合作编辑 word 一样。但 Omniverse 的设计协作是面向 3D 设计、建筑及更多专业视觉向的工作。创作者可能位于全球不同位置,而设计流程则可能涉及到各种不同的软件工具。 而模拟仿真,主要体现在数字孪生(digital twin)上。比如这次 GTC 上列举的一个例子,是 Siemens Gamesa 公司用 Omniverse 和 Modulus 搞风力发电厂的数字孪生。为了让风力发电厂输出电力最大化,可在虚拟世界先做各种环境、配置模拟。据说速度比成本高昂的涡轮仿真要快 4000 倍。 最大规模的数字孪生,则是去年英伟达就宣布要搞的 Earth-2 超算,作为实体地球的数字孪生。而且是可以实时交互的数字版地球。 3D 的数字孪生世界有一个基本前提,就是这个世界是必须符合物理学定律的,包括粒子、液体、材料、弹簧、线缆等等的物理特性模拟。游戏中我们常说的光线追踪就属于这样的模拟。 有没有感觉这稍微有点元宇宙的样子了?我始终认为,数字孪生的精度提高、规模扩大,终极版本就是元宇宙。而模拟仿真、数字孪生本身,又可认为是设计协作的高级阶段。 今年针对 Omniverse 世界的搭建,英伟达发布的硬件主要包括了 Nvidia OVX 服务器、OVX SuperPOD 集群。其配置特点就是满足工业数字孪生需求,处理延迟敏感、更要求实时性的工作——包括 32 台 OVX 服务器组成的 OVX SuperPOD 集群。英伟达说 OVX 要覆盖从汽车、工厂,到城市、地球各个级别的数字孪生项目。 另外这次发布的 Spectrum-4 交换机(用于这类 SuperPOD 集群的互联)也可认为是未来元宇宙发展的某一类基础设施,或者基础设施雏形吧。今年 GTC 的媒体沟通会上,英伟达技术专家提到 Spectrum-4 与那些一般处理 mouse flow 流量(大量用户、但 flow 数没那么多)的交换机不同,偏重在处理 elephant flow 流量(比如模拟整个地球所需的流量)。 所以 Spectrum-4 是为 RocE(RDMA over Converged Ethernet)打造的,数据共享会更快,比如可以实现 GPU direct storage。与此同时“相比一般数据中心毫秒级的抖动,Spectrum-4 可实现纳秒级计时精度,有 5-6 个量级的提升。” 另一个有关 Omniverse 比较值得一提的新发布是 Omniverse Cloud。其本质就是完全云化的 Omniverse。如果打比方的话,它和云游戏是近亲。在本世纪初云游戏概念出现以前,上世纪 80 年代就曾出现过用远程服务器做 3D 图形绘制,并将结果以图像形式回传给客户端的设计思路。 在 Omniverse Cloud 服务下,终端设备不需要 RTX GPU,可以是平板、手机、轻薄本、Mac 电脑,通过 GeForce Now 接入到 Omniverse Cloud。黄仁勋形容“一键设计协作”,就是只需要给你的同事发个 URL 链接,他在任何算力的终端设备上,点击链接就能进入到 Omniverse 的设计协作项目中。(似乎也有部分算力下放到本地的选择) 这在 3D 设计、数字孪生领域应该是挺举颠覆性的。只不过 Omniverse Cloud 目前还处在测试阶段,正式发布时间尚未知。而且以我对云游戏的了解,这种追求实时交互的云计算基础设施的建设和运维成本会是非常高的,尤其要达成比较好的体验,有大量工程问题要解决。 但我想,英伟达这么做主要应该也是为了扩大 Omniverse 的覆盖范围,让任何设备,即便是算力比较弱的设备也能用上 Omniverse。而且一键设计协作,以及通过 Omniverse Cloud 在数字孪生环境里测试新软件,都非常像是元宇宙的必要组成了。在元宇宙构成中,大家也是这么看云游戏的。 元宇宙发展要素 ,A I 原本谈元宇宙的基础设施应该去聊一聊底层芯片的。英伟达的芯片,尤其是 CPU、GPU 是今年 GTC 的重头戏。不过这部分我已经写了一篇7000字文章。对于 Hopper GPU,和 Grace CPU 感兴趣的同学可以移步看一看。虽说英伟达常年强调,自己不只是一家芯片公司,这仍是其赚钱和各项业务开展的基础。 而英伟达 GPU 架构迭代,越来越有 DSA 的样子;类似 Grace 超级芯片这样的 CPU,也有特别的场景针对性。对未来需求海量算力和芯片资源的元宇宙而言,这些可为此奠定基础。 而且 Hopper GPU 更新今年强调的就是 AI 算力,反倒没那么在意 HPC。不管是因为英伟达在 AI 市场吃下了多少红利,所以在堆料方面有了偏向性,还是英伟达在数据中心方面有别的发展思路,AI 作为元宇宙的必然要素是毋庸置疑的。 从前文英伟达的那张四层图就能看出 Omniverse 和 AI 之间有着错综复杂的关系。包括前面举的例子,虚拟角色走路、跑步、挥剑训练本身就是在一个符合物理学原理的虚拟图形世界里,与此同时这种训练必须借助 AI 技术。而机器人、汽车的模拟测试就更是如此了,像 DRIVE Sim,可以理解为把汽车的数字孪生,放在虚拟世界里路测,甚至可以搞一些 AI 生成的对抗场景(Adversarial Scenarios),以训练自动驾驶应对各类极端突发状况的能力。(汽车本身就是一种特殊的机器人) 英伟达是从 AI 基础设施硬件,到上层应用框架,提供全栈支持的企业——包括很多现成的预训练模型和迁移学习工具,还有合成数据之类。我采访过很多 AI 芯片公司,他们对于英伟达的态度普遍是 PPT 吊打,但私下很明了市场覆盖和生态搭建上,相比英伟达难以望其项背,所以只考虑一些竞争没那么激烈的市场——包括一些你们现在所知的顶尖的独角兽 AI 芯片公司。 今年 GTC,英伟达宣布开启 AI Accelerated 计划。英伟达给的数字是现在已经有超过 100 名成员加入。这个计划似乎是英伟达会帮助开发者来解决部署问题;或者说应该是加速 AI 发展,以及加速自家 AI 技术覆盖的计划。 Nvidia AI 这次的几个主要更新包括了 Nvidia AI Enterprise 2.0 发布。Nvidia AI Enterprise 本身是面向企业可应用 AI 技术的套装和服务。英伟达的说法是,让那些没有 AI 专家的企业,也能用上 AI;让 AI 开发部署流线化;企业自身可以专注在 AI 创造的价值上,而不必在意基础设施管理之类的问题。 除了企业级支持,更新到 2.0 版本的重点在于,可以跑在 vmware 和 Red Hat 认证平台上,包括裸金属虚拟化或者 container;以及获得 AWS、Azure、Google Cloud 支持;基于英伟达认证的服务器配置。 另外两个比较重要的更新是 Riva 语音 AI SDK 更新至 2.0 版,以及 Merlin 推荐系统框架发布 1.0 版——就是互联网公司现在普遍会给用户搞各类推荐服务(如推荐商品)的实现基础。 Riva 在前面谈 Toy Jensen 的时候就提到过,是个可用于语音识别、text-to-speech 的套件,里面也包括了模型——可以用迁移学习工具来做个性化的模型精调。2.0 版这次总算是宣布面向大众了。另外还有新发布的 Riva Enterprise,面向大规模部署,其中当然也有 Nvidia 的企业级支持服务。 而 Merlin 是面向数据科学家、ML 工程师的推荐框架。英伟达说只需要少很多的代码就能扩展出一个 recommender。这次 1.0 版的发布,也是让 Merlin 正式面向大众开放了。限于篇幅,更多有关 AI 的发布不再做介绍。 黄仁勋说现在很多公司都开始出现一个名叫 MLOps 的部门,职能就是把手里掌握的数据转为可预测的模型,实现智能化,最终转化为利润。这可能就是未来诸多企业的发展归属吧。像这样的发展,本身就是在为元宇宙添砖加瓦。 推进 再推进 今年英伟达发布了一个叫做 FourCastNet 的模型,全拼 Fourier Forecasting Neural Network,是好几所高校的研究人员,外加英伟达一起打造的气候预测模型,可以预测飓风、大气河流、极端降水等灾难性事件。而且据说精度、准确度非常高。 “这是我们第一次能够用深度学习的方式去实现,相较于传统数值模型有着更高的精度和能力。”英伟达的工程师说相比传统的数值模型,速度快 45000 倍,而且能效高出 12000 倍。以前一年才模拟出来,现在只需要几分钟。另外还强调这个模型是所谓 physics-informed 的。 与此同时,英伟达再度谈到了 Modulus,这是个用于开发物理学机器学习神经网络模型的框架,以符合物理原理为准则,构建 AI 模型。FourCastNet 就是基于 Modulus,融入 Omniverse,辅以 10TB 的 Earth 系统数据,以数字孪生的方式打造的模型。 这应该是英伟达构建地球数字孪生的一个组成部分,部分达成与地球数字孪生的实时交互。那么我们是否可以说,客观上它就成为了元宇宙的一部分?虽然或许人们对于元宇宙的需求,还需要更多内容的填充。这个例子也是 Omniverse+AI 的一个绝佳体现。 这两年我们常说以前以视频加速卡起家的一家企业,有没有想过未来某一天会要去考虑人工智能、基因测序、计算化学、数字孪生、自动驾驶、智能机器人、元宇宙这样宏大的议题。今年 GTC 上看到有关 Omniverse 和 AI 的更新,已经不像前两年那样是看各种琳琅满目的新词汇和新概念了,而是有更多的东西正在稳步更新、推进中。 不过从英伟达这些年在 HPC、AI、Omniverse 生态的努力上更能看到元宇宙构建的难度,这绝不是任何企业凭借一己之力就能轻松达成的。比如 Omniverse 的生态建设就尚在早期,Omniverse Cloud 也才刚刚发布测试版而已;而 FourCastNet 的达成,更是多方长时间合作的结果。
  • 热度 7
    2022-1-6 11:57
    606 次阅读|
    0 个评论
    来源:地平线HorizonRobotics 语音技术在近年来开始改变我们的生活和工作方式。对于某些嵌入式设备来说,语音成为了人机交互的主要方式。出现这种趋势的原因,首先是计算能力的不断提升,通用GPU等高计算能力设备的发展,使得训练更复杂、更强大的声学模型(Acoustic Model, AM)变得可能,高性能的嵌入式处理器的出现,使语音识别的终端应用变得可能。 声学模型是人工智能领域的几大基本模型之一,基于深度学习的声学模型发展对于人工智能的拓展和交互方式的延伸都有着十分重要的意义。本期的大牛讲堂,我们邀请到地平线的语音算法工程师牛建伟为大家重磅科普何为声学模型。 1.1. 自动语音识别 自动语音识别(Automatic Speech Recognition, ASR)作为一个研究领域已经发展了五十多年。这项技术的目标是作为可以使得的人与人、人与机器更顺畅交流的桥梁。然而,语音识别技术在过去并没有真正成为一种重要的人机交流形式,一部分原因是源于当时技术的落后,语音技术在大多数实际用户使用场景下还不大可用;另一部分原因是很多情况下使用键盘、鼠标这样的形式交流比语音更有效、更准确,约束更小。 语音技术在近年来开始改变我们的生活和工作方式。对于某些嵌入式设备来说,语音成为了人机交互的主要方式。出现这种趋势的原因,首先是计算能力的不断提升,通用GPU等高计算能力设备的发展,使得训练更复杂、更强大的声学模型(Acoustic Model, AM)变得可能,高性能的嵌入式处理器的出现,使得语音识别的终端应用变得可能;其次,借助近乎无处不在的互联网和不断发展的云计算,我们可以得到了海量的语音数据资源,真实场景的数据使得语音识别系统变得更加鲁棒;最后,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来越流行,着这些设备上语音交互变成了一个无法避免的交互方式。 1.2. 语音识别基本组成 语音识别系统主要有四部分组成:信号处理和特征提取、声学模型、语言模型(Language Model, LM)和解码器(Decoder)。 信号处理和特征提取部分以音频信号为输入,通过消除噪音、信道失真等对语音进行增强,将语音信号从时域转化到频域,并为后面的声学模型提取合适的特征。声学模型将声学和发音学的知识进行整合,以特征提取模块提取的特征为输入,生成声学模型得分。语言模型估计通过重训练语料学习词之间的相互概率,来估计假设词序列的可能性,也即语言模型得分。如果了解领域或者任务相关的先验知识,语言模型得分通常可以估计的更准确。解码器对给定的特征向量序列和若干假设词序列计算声学模型得分和语言模型得分,将总体输出分数最高的词序列作为识别结果。 关于声学模型,主要有两个问题,分别是特征向量序列的可变长和音频信号的丰富变化性。可变长特征向量序列问题在学术上通常有动态时间规划(Dynamic Time Warping, DTW)和隐马尔科夫模型(Hidden Markov Model, HMM)方法来解决。而音频信号的丰富变化性是由说话人的各种复杂特性或者说话风格与语速、环境噪声、信道干扰、方言差异等因素引起的。声学模型需要足够的鲁棒性来处理以上的情况。 在过去,主流的语音识别系统通常使用梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)或者线性感知预测(Perceptual Linear Prediction, PLP)作为特征,使用混合高斯模型-隐马尔科夫模型(GMM-HMM)作为声学模型。在近些年,区分性模型,比如深度神经网络(Deep Neural Network, DNN)在对声学特征建模上表现出更好的效果。基于深度神经网络的声学模型,比如上下文相关的深度神经网络-隐马尔科夫模型(CD-DNN-HMM)在语音识别领域已经大幅度超越了过去的GMM-HMM模型。 我们首先介绍传统的GMM-HMM声学模型,然后介绍基于深度神经网络的声学模型。 1.3. 传统声学模型(GMM-HMM) HMM模型对时序信息进行建模,在给定HMM的一个状态后,GMM对属于该状态的语音特征向量的概率分布进行建模。 1.3.1. 混合高斯模型 如果一个连续随机变量服从混合高斯分布,则它的概率密度函数为 混合高斯模型分布最明显的性质是它的多模态,这使得混合高斯模型可以描述很多显示出多模态性质的屋里数据,比如语音数据,而单高斯分布则不合适。数据中的多模态性质可能来自多种潜在因素,每一个因素决定分布中特定的混合成分。如果因素被识别出来,那么混合分布就可以被分解成有多个因素独立分布的集合。 那么将上面公式推广到多变量的多元混合高斯分布,就是语音识别上使用的混合高斯模型,其联合概率密度函数的形式如下: 在得到混合高斯模型的形式后,需要估计混合高斯模型的一系列参数变量: = ,我们主要采用最大期望值算法(Expectation Maximization, EM)进行参数估计,公式如下: 其中,j是当前迭代轮数, 为t时刻的特征向量。GMM参数通过EM算法进行估计,可以使其在训练数据上生成语音观察特征的概率最大化。此外,GMM模型只要混合的高斯分布数目足够多,GMM可以拟合任意精度的概率分布。 1.3.2. 隐马尔可夫模型 为了描述语音数据,在马尔可夫链的基础上进行了扩展,用一个观测的概率分布与马尔可夫链上的每个状态进行对应,这样引入双重随机性,使得马尔可夫链不能被直接观察,故称为隐马尔可夫模型。隐马尔可夫模型能够描述语音信号中不平稳但有规律可学习的空间变量。具体的来说,隐马尔可夫模型具有顺序排列的马尔可夫状态,使得模型能够分段的处理短时平稳的语音特征,并以此来逼近全局非平稳的语音特征序列。 隐马尔可夫模型主要有三部分组成。对于状态序列 ··· , 1. 转移概率矩阵A= " data-formula="a_{ij} ">],i,j ,描述马尔可夫链状态间的跳转概率: =P( =j | =i ) 2. 马尔可夫链的初始概率: ,其中 3. 每个状态的观察概率分布 ,按照上一节的介绍,我们会采用GMM模型来描述状态的观察概率分布。在这种情况下,公式可以表述为: 隐马尔可夫模型的参数通过Baum-Welch算法(在HMM上EM算法的推广)进行估计。 1.4. CD-DNN-HMM 虽然GMM-HMM在以往取得了很多成功,但是随着深度学习的发展,DNN模型展现出了明显超越GMM模型的性能,替代了GMM进行HMM状态建模。不同于GMM模型,DNN模型为了获得更好的性能提升,引入了上下文信息(也即前后特征帧信息),所以被称为CD-DNN-HMM(Context-Dependent DNN-HMM)模型。在很多测试集上CD-DNN-HMM模型都大幅度超越了GMM-HMM模型。 首先简单介绍一下DNN模型,DNN模型是有一个有很多隐层的多层感知机,下图就是具有5层的DNN,模型结构上包括输入层、隐层和输出层。对于第 层,有公式 其中 分别表示,L层的输出向量,权重矩阵,输入向量以及偏差向量(bias); f(·) 一般称为激活函数,常用的激活函数有sigmoid函数 或者整流线性单元(Rectifier Linear Unit)ReLU(x)=max(0,x)。在语音识别上应用的DNN模型一般采用softmax将模型输出向量进行归一化,假设模型有 L 层,在特征向量为 O,输出分类数为 C,则第 i 类的输出概率为 相比于GMM模型,DNN模型具有一些明显的优势:首先,DNN是一种判别模型,自身便带有区分性,可以更好区分标注类别;其次,DNN在大数据上有非常优异的表现,伴随着数据量的不断增加,GMM模型在2000小时左右便会出现性能的饱和,而DNN模型在数据量增加到1万小时以上时还能有性能的提升;另外,DNN模型有更强的对环境噪声的鲁棒性,通过加噪训练等方式,DNN模型在复杂环境下的识别性能甚至可以超过使用语音增强算法处理的GMM模型。 除此之外,DNN还有一些有趣的性质,比如,在一定程度上,随着DNN网络深度的增加,模型的性能会持续提升,说明DNN伴随模型深度的增加,可以提取更有表达性、更利于分类的特征;人们利用这一性质,提取DNN模型的Bottle-neck特征,然后在训练GMM-HMM模型,可以取得和DNN模型相当的语音识别效果。 DNN应用到语音识别领域后取得了非常明显的效果,DNN技术的成功,鼓舞着业内人员不断将新的深度学习工具应用到语音识别上,从CNN到RNN再到RNN与CTC的结合等等,伴随着这个过程,语音识别的性能也在持续提升,未来我们可以期望将可以和机器进行无障碍的对话。 来源:地平线HorizonRobotics
  • 热度 3
    2021-8-21 08:56
    3709 次阅读|
    8 个评论
    AI:繁华落尽,何去何从。
    2017年,被认为是当代AI的人工智能元年。 2017百度沸点国人搜索榜单十大科技事件中,AlphaGo对战柯洁、智能音箱热卖、无人驾驶汽车上五环,这三大AI事件入围百度2017科技热搜,而且“AlphaGo对战柯洁”更是排名第一。 和美国一样,中国公司对于AI人才简直到了“寤寐求之”的状态,疯抢成了常态,今日头条创始人张一鸣放话:“人才的水平有多高,我们的薪酬就有多高。”商汤科技 “按图索骥”,画出“博士人才名单”,但凡有人即将毕业,就马上找上门,不让任何鱼儿漏网。 投资界的金主们怀着极度急迫的心情,唯恐错过这个史无前例的飓风级“风口”。 2021年,回首望去,结果如何,那些抱着捞一笔的资本大佬,给中国的AI带来了什么。 三年半累计亏损143亿的旷视科技,现在已经到处寻找IPO的途径,也许是资金撑不起了; 三年半累计亏损72亿的依图科技,现在上市也是无能为力; 三年累计亏损30亿的云丛科技,2021年7月30号科创板上市,原因中有其中科院国家队的背景; 五年累计亏损了25亿的中科寒武纪,2020年上市成功,但是前景依旧模糊; 唯一在财报上有盈利的商汤科技,目前已经增长乏力,完全没有了初期的光环,上市和估值都面临着风险; 同样在英国,谷歌旗下最牛的AI公司Deepmind曾经 巨亏27亿。 从某种角度来看,这些依赖讲故事,拼算法的AI公司,希望沿着传统的互联网发展路径创造神奇,在中美乃至都不太可能出现了。 个人认为有以下几个原因: 1.AI技术比传统的英特网要更加复杂,互联网只是链接,通讯,AI涉及到软件,芯片,生态和垂直行业的结合,而目前的AI技术大部分只是弱人工智能,在垂直领域结合应用的效能非常有限;而互联网不一样,只要连接成功,相关结点就可以产能流量价值,就可以获得资本回报,目前AI要变现的机会和领域非常有限,而中国的AI在核心算法和基础理论上又存在巨大的差距,只是停留在应用层面的发展,后期会面临更多的瓶颈,风险会非常高。 2.互联网巨头,硬件巨头本身布局了AI,百度布局的自动驾驶,腾讯在深圳成立了AI lab,聚集了100多科学家。华为其实依赖硬件上的优势,在AI也有一定投入,寒武纪变寒也跟HW的发展AI有关系,这些爆红的AI算法企业,在巨头的阴影下,其实在人才上,在客户需求上最终很难得到突破,另外要达到当年互联网BAT的效应完全是巨头门不允许的事情。 3.AI发展需要有芯片的支持,芯片在AI的发展中起到了非常关键的地位,仅仅依赖算法是很难形成自己的企业生态,而且AI纯软件应用的盈利方式,在国内是非常难。 所以现在资本已经嗅到了AI芯片的爆红,资本在GPU企业爆增: 上海登临科技有限公司 ;上海天数智芯半导体公司; 上海壁仞智能科技有限公司 ; 沐曦集成电路(上海)有限公司四家GPU初创公司; 英伟达中国张建中领头的 摩尔线程。 同样英伟达炒作的DPU,也得到资本青睐: 中科驭数、星云智联、大禹智芯、芯启源、云豹智能等均宣布完成新 融资 ,其中有多笔 融资 金额达数亿元人民币。 国内做AI芯片的还有燧原科技,鲲云科技,地平线科技。 真正可以盈利和规模化应用的芯片企业,大家心里都有数,我们都眼红英伟达: 8月19日消息,据国外媒体报道,英伟达在当地时间周三,发布了截至8月1日的2022财年第二财季财报,在游戏、 数据中心和专业可视化平台 业务营收均创下记录的推动下,英伟达这一财季的营收,达到了创纪录的 65.07亿美元 , 同比大增68%,环比也增长15%。 大部分企业都对标英伟达,参数对照英伟达,就像当年手机产业碰瓷苹果一样,但是AI芯片可以复制中国手机 行业在全球的辉煌吗? 个人认为不太可能,小米OV和华为,都是在系统硬件领域有积累的企业,除去小米,没有哪一家完全依赖风险 资本堆积打造成的全球性的手机企业。 而且AI芯片比手机行业的技术壁垒,门槛,资金投入,技术发展模式完全不一样,游戏规则大相径庭, 英伟达的DPU,台积电这些企业都是处于高位,也是在风口,当然会有神话破灭之时,特斯拉也是一样,但是 我们其实也不能取代这些破灭的神话,还是希望AI的企业可以脚踏实地,真正的去同垂直产业,传统的 制造业深度结合,挖掘对于市场的价值,才有可能诞生AI的牛逼企业。
  • 热度 7
    2021-7-3 15:38
    265111 次阅读|
    5 个评论
    国产GPU:人潮汹涌
    2021年6月29日报道: 自今年5月初以来,英伟达的股价呈现明显的上涨趋势,市值也是在不断向5000亿美元靠近。而在本周一盘中,英伟达市值一度超过5000亿美元,收盘时略有下降。 两倍于英特尔,英伟达市值超5000亿 本周一,得益于相关的芯片厂商公开支持英伟达收购ARM,英伟达的股价开盘后一路上涨,市值超过5000亿美元,最终收盘时,英伟达股价为799.4美元,较前一交易日761.24美元的收盘价上涨38.16美元,涨幅为5.01%。虽然收盘时市值为4980亿美元,但已经超过英特尔等老牌半导体企业。 在目前的半导体行业中,英伟达的市值仅次于以晶圆代工业务为主的台积电,后者的市值目前已经超过6000亿美元。相比英特尔2321.04 亿美元和三星电子2790.06亿美元的市值,英伟达的优势明显。 5月底,英伟达发布了其2022财年第一季度财报,财务报告显示,英伟达的游戏、数据中心和专业可视化业务的季度收入都打破纪录。 英伟达的市值位居目前半导体企业首位,成为当前科技行业的香饽饽,为什么一家以游戏显卡发家的企业,将英特尔,高通,博通挤下榜首。 因为其开发的核心产品GPU芯片是AI产业应用的关键器件,是高速计算,智能计算的关键因素,而大洋彼岸的中国企业也发现了GPU芯片的 巨大价值,原本冷冰冰的行业迎来了大量的风险资本进入,成为芯片四大件中(CPU/GPU/FPGA/DSP)最闪亮的一颗。 一.资本汹涌的GPU初创公司 从2017年11月开始, 上海登临科技有限公司 成立之初,上海分别迎来了上海天数智芯半导体公司;上海壁仞智能科技有限公司 ; 沐曦集成电路(上海)有限公司四家GPU初创公司,而且企业大部分都是英伟达,AMD的中高级技术人员参与,瞄准都是7nm,5nm的先进 制程,对标都是英伟达的最新产品,雄心壮志,只不过从市面上商用的情况来看,很多都是概念阶段,最好的也是流片出来,客户试用中。 这几家企业多的融资三轮达到40+亿,少得也有十几亿,确实可以看到互联网企业投资一样的趋势。而且其中有行业大佬参与,天数智芯的董事长 是紫光国芯的董事长。 当然,最引人注目是2020年10月在北京成立的摩尔线程,人才还在招募中,已经融资11亿,据说最重要的因素就是其背后是原英伟达 中国的总经理张建中,足见目前资本对GPU的关注程度,之所以关注,我想绝对不是因为GPU是国产化重要核心产品,而是其是AI概念中的 核心因素,可以带来巨大的概念价值和投资价值。 芯片产业和传统互联网产业,消费互联网有着截然不同的投资逻辑,不清楚这样的方式是否会引发泡沫,将原本不多的行业人才全部吸引 到了一些原本就无心搞实业的地方去。 当然,真正从事GPU产品研发和为国铸重器的企业还是在扮演重要角色。 二.GPU湘军是国产GPU的重要角色,也是目前国产民用GPU中最为成功。 长沙景嘉微电子股份有限公司成立2006年,是国有军工企业改制而成,从JM5400,到JM700,到JM7200,28nm产品,JM720规模商用, JM920系列研发中(14nm),下一代GPU产品JM9231主要针对国产化办公电脑,便携式计算机、中低端的游戏机和高端嵌入式系统等消费电子领域; JM9271主要针对人工智能、安防监控、语音识别、深度学习、云计算等对计算速度要求非常高的高端应用领域,正逐步走向民用。 长沙韶光半导体有限公司成立于2004年,是国有军工厂改制而成,目前为航锦科技控股,目前GPU产品SG6931已经为胜云光电批量订购, 另外长沙先进技术研究院、天津飞腾信息技术有限公司、天津麒麟信息技术有限公司、中电科技(北京)有限公司、同方工业有限公司 都合作建立装备应用中心。 在已经商用的GPU和显卡产品中,两家是未来最有机会成为各大整机厂家应用的,可惜资本没有涌入,因为资本的趋利性,什么一开始就 7nm,5nm更激进的概念才能带来更多利益导向。 三.军工院所是国产GPU的骄傲 中船重工716所, 位于江苏省连云港市,研发了JARI G12 GPU, JARI G12是目前性能最强的国产通用图形处理器。该处理器采用混合渲染架构, 兼顾资料频宽和渲染延时需求,极大的增强了晶片的灵活性和适应性;提供PCIe 3.0汇流排,支援x86处理器和龙芯、飞腾、申威等国产处理器; 支援4路数位通道和1路VGA输出,提供DP、eDP、HDMI、DVI等通用显示介面,单路数位通道最大输出解析度为3840×2160@60fps,支援扩展、 复制显示和“扩展+复制”显示模式;内建视频编解码硬核,支援2路3840×2160解析度视频的编码、解码功能;支援OpenGL 4.5和OpenGL ES 3.0, 满足高性能3D加速和VR显示需求;支援OpenCL 2.0,满足平行计算和云计算的使用需求;集成张量加速计算硬核,支援AI计算加速。该GPU 支援Windows、Linux、VxWorks等主流作业系统,同时支援中标麒麟、JARI-Works、道等国内自主可控作业系统,具备健全的生态环境体系。” 可以判断JARI G12支持PCIe 3.0,支持DP、HDMI、DVI输出,支持2路4K视频解码、编码,图形API支持到了OpenGL 4.5,还支持OpenCL 2.0加速, 但没有DX支持的信息,不过ARI G12还集成了张量单元,支持AI运算。 中船重工709所, 凌久GP101,但是这款GPU在网上更为神秘,连一张图片都没有,除了新华社一篇报道之外很少有资料介绍这款GPU。根据 中船重工709所相关负责人介绍说,凌久GP101图形处理器芯片支持HDMI、DVI、VGA等通用显示接口,支持2D、3D图形加速和OpenGL ES2.0, 支持4K分辨率。同时,支持视频解码和硬件图层处理等功能,可以广泛应用于军民两用电子设备、工业控制、电子信息等领域。 从官方通报信息 来看,凌久GP101的规格不算先进,API才支持到OpenGL ES 2.0,这是针对移动处理器的API规范。不过这款GPU应该也是用于军工产品的, 所以性能也不是问题。 四.国产CPU厂家和IP厂家的GPU开发,也是国产GPU发展重要力量。 上海兆芯是上海国资委和威盛电子合作的高科技企业,其重要产品是国产兆芯CPU,目前其也开发了一款消费级的GPU产品,但是应用 在低端消费产品,技术上未有太多创新,从无到有过程; 海光信息和龙芯在2018和2019年都分别在资金和人才投入了GPU项目,但是目前并没有在市场上反馈出产品,当然可以成为未来GPU 队伍中一支重要力量。 另外位于珠海/武汉的IP企业芯动科技,也和Imagnation合作,开发GPU+产品,其主要应用也是智能计算,云计算上,毕竟不同于初创 企业,其在芯片设计上有多年积累,也更为靠谱。 当然在手机端的GPU开发,华为也有对应的产品。 作为中国人,我们肯定高兴有更多的资本和人才去投入开发GPU,未来的AI,计算都是科技竞争的重要力量。 人潮汹涌,感谢遇见你,真正做GPU产品的企业。 加油,中国GPU。
相关资源