语音助理设备正变得家喻户晓。目前约有 7 亿人在使用 AI 个人助理,到 2021 年预计将增长到近 20 亿人。从 Google Assistant 到亚马逊 Alexa,再到微软 Cortana,AI 个人助理如雨后春笋不断涌现。 三星最近也推出了 Bixby 助手,而 Facebook 预计明年将实现自主虚拟助手(简称“M”)的商业化。
  这些设备的工作原理是什么呢?我们该如何利用其功能?它们内置蓝牙、Wi-Fi 模块(如 Qualcomm QCA9377-3)以及移动平台(如 Qualcomm骁龙移动平台)。 在这篇文章中,我们将探讨人工智能设备是如何工作的。
  你能用人工智能助手做什么?
  个人助理主要有两种:聊天机器人(或基于文本的交互),以及语音用户界面(或语音激活助手),如前面所述的商业产品。 语音激活助手通常是基于命令的 AI 交互 - 你需要“唤醒”并给它下达命令。
  语音激活助手是日常工作的理想选择,例如:
  

  • 信息搜索:通过互联网查找信息,比如时间和天气查询等。

  • 任务处理:设置闹钟,发送消息,播放音乐和视频,在线购物,智能家居协调等。

  • 信息收集:呼叫中心收集用户信息,医疗服务提供初步诊断。

  • 技能培训:通过与AI老师交谈来学习一门新的语言。

  语音助手可以帮助用户挣脱键盘、屏幕和拼写检查的束缚,尤其适合无障碍需求。
  语音助理的硬件组件包括扬声器和麦克风,蓝牙和 Wi-Fi 模块以及标准计算机体系架构(CPU,RAM)。 虽然设备中内置很多技术,但真正的“大脑”通常驻留在云端。
  人工智能助手如何工作?
  虚拟助手使用一个触发词(“Ok Google”)来“唤醒”,以确保它只在命令下达时才运行。
  音频被记录在设备上,经过压缩并通过 Wi-Fi 传输到云端。 通常会采用降噪算法来记录音频,以便云端“大脑”更容易理解用户的命令。
  使用专有的“语音到文本”平台将音频转换成文本命令。 通过指定的频率对模拟信号进行采样,将模拟声波转换为数字数据。 分析数字数据以确定英语音素(“bb”,“oo”,“sh”等)的出现位置。 一旦识别出音素,就使用统计建模算法(如 Hidden Markhov 模型)来确定特定单词的可能性。
  使用自然语言处理(NLP)技术来处理文本以确定所需的操作。 该算法首先使用词性标注来确定哪些词是形容词、动词和名词等,然后将这种标记与统计机器学习模型相结合起来,推断句子的含义。
  如果命令操作需要进一步的搜索,系统将立即进行搜索。 例如,“OK,Google,什么是 Snapdragon 移动平台?”将触发互联网搜索,并返回所得到的信息。 如果该命令类似于“Ok Google,发送一条消息”,则命令数据(操作:发送消息,收件人:妈妈)会被直接发送到虚拟助理。
  “大脑”在云中构建相应的答案,并且从语音样本数据库中检索最佳的输出词,然后将这些词拼接起来形成句子并返回到硬件向用户播放。
  
  来源:Qualcomm