原创感知客观聆听质量分析

 2022-3-22 13:38  1780 15 15 分类: 测试测量

通信网路提供了大量的语音服务，已成为现今生活中重要的一部份。因此在通信系统的快速发展过程中，如何确保语音质量则变得更重要了。在这当中，评估语音质量的方式将是首要关键！

评估方法可概分为两类：
▶ 主观评估法
▶ 客观评估法
传统的主观评估，需召集一组人，并要求他们判断各种音频片段的音质，通常判断评分值介于1到5。将所有个人分数加总后再除以个体数。其结果称之为平均值意见得分（MOS）。

虽然用真实的人类受试者进行测试成本高又耗时，但可以使用包含基于心理声学建模(如 PESQ 或 POLQA)的算法来克服这些限制。如果正确使用，这些模型将非常匹配来自人类群体的结果。这种自动化允许开发中的快速迭代以及高效的生产线验证。获得的测量结果被归类为客观的，因为它们不受人的气质或测试条件的影响，且结果是完全可重复的。
主观评估法需要大量的测试人员及工时，耗费成本甚巨。相对来说，客观评估采用仪器设备就不会有这样的问题。

PESQ是上一代应用于通信系统和语音编码的端对端语音质量评估的客观语音质量评估方法。它被定义在ITU-R Rec. P.862 标准中。但由于它的局限性，国际电信联盟ITU 发展了新的ITU-T Rec. P.863 标准，称之为POLQA（Perceptual Objective Listening Quality Analysis）也就是『感知客观聆听质量分析』。

其中，所谓的“感知”指的是使用算法来预测真人聆听的主观得分。
POLQA 主要有以下改善：
✔ POLQA 考虑了现代编译码器行为-包括纠正错误; 而PESQ并没有，且也不是设计用于基于 IP 的网络。
✔ PESQ 无法评估高于 7kHz 的语音（目前流行的编译码器，如 Opus 在宽带模式下为 8kHz）。
✔ PESQ 无法正确解决“时间扭曲”（纠错的可变速度），因此倾向于为 WB 编译码器提供悲观的分数。POLQA 跟踪时间扭曲并在它发生时给出真实的分数。

PESQ和POLQA起源于 ITU-T 的客观语音质量测量系列，该系列始于 1997 年的 P.861 (PSQM)，2001 年被 P.862 (PESQ) 取代。它最初是为测试窄带网络而开发的。之后基于 WebRTC 和 IP 的呼叫，在 2010 年被ITU-T P.863 POLQA有效取代。

感知音频测试的工作原理：
参考信号和降级信号均分别根据接收设备（手机）的传输特性进行电平对齐和过滤。这两个信号在时间上对齐，以补偿由于延迟、抖动和编码在语音网络中可能发生的小幅时移。该模型将两个对齐和滤波的信号从时间幅度域转换为频响域（听觉变换），从而解决了人类听众可感知的失真。