在日常生活中,噪声是影响语音通话质量的重要因素之一。语音降噪技术通过消除噪声并提取干净语音,从而提高语音质量和可懂度,在移动通信、耳机、会议系统、语音交互等应用中具有巨大价值。近年来,以深度学习为代表的AI降噪技术无需像传统语音增强算法一样对信号特性进行假设,在非平稳噪声上的表现取得了显著提升,面向通信场景的智能降噪技术是其中的研究重点之一。
面向通信的AI降噪技术要求算法能够对带噪语音进行实时处理,一方面,模型不能获得未来信息,只能利用当前帧及历史信息,这要求模型满足因果性;另一方面,模型的处理延迟不能超过人的容忍程度,因此模型在设备上的推理时间也应该符合实时处理的要求。