原创 MPEG-4的音频标准

2007-12-3 13:16 4028 4 4 分类: 通信
作者:史明锐 吴镇扬
   内容:  曾制定出MPEG-1和MPEG-2视音频压缩标准的运动图像专家组(MPEG)目前正在发展最新的MPEG-4标准,其目标是提供未来的交互式多媒体应用。MPEG-4将制定出与以往不同的、具有高度灵活性和可扩展性的未来新一代国际标准。在音频标准的制定方面,比较以前的音频编码标准,MPEG-4增加了许多新的关于合成内容及场景描述等领域的工作,增加了诸如可分级性、音调变化、可编辑性及延迟等新功能。MPEG-4将以前发展良好但相互分离的高质量音频编码、计算机音乐及合成语音等第一次合成并在一起,在诸多领域内给予高度的灵活性。
      MPEG-4中关于音频信号将包括:传统的音频编码标准,即所谓“自然音频”(natural audio)和新颖的“结构音频”(structured audio)以及自然和合成混合在一起的“合成/自然混合编码”(Synthetic/natural hybrid coding)简称SNHC。其中SNHC是MPEG-4中关于音视频的一个很重要的概念。
   
     1 传统的自然音频编码
   
     一个基本的概念就是MPEG-4的编码工具不再仅限于支持码率的减少,其各种不同的工具支持从智能语音到高质量多声道音频信号,以及此范围内的音频信号的质量。MPEG-4编码工具支持的其他功能还有:
     .速度的变化,允许不改变音调实现时间尺度变化;
     .音调的变化,允许不改变时间尺度实现音调改变;
     .码率的可分级性,对比特流的分解可在传输或解码器中进行;
     .带宽的可分级性,代表部分频谱的比特流的一段可在传输或解码过程中被抛弃;
     .编码器复杂度的可分级性;
     .强纠错性等。
     MPEG-4标准的自然音频编码将码率范围规定为每声道2kbit/s~64 kbit/s。在如此宽的范围内定义了三种类型的编码器或叫编码工具。在最低的码率范围2~6 kbit/s之间使用的是参数编码(parametric coding),最适合于采样率为8kHz的语言信号;在6~24 kbit/s的码率范围内使用的是编码激励的线型预测编码(code excited linear predictive coding)简称CELP,支持采样率为8kHz和16 kHz的语言和音频信号;在最高的16~64 kbit/s的码率范围内使用的是时间/频率编码(time/frequency
   coding)技术,比如MPEG-2 AAC标准,支持采样率为8~96 kHz的任意音频信号。
     1.1 参数编码
     参数编码提供了两种编码工具:HVXC和HILN。
     谐音矢量激励编码HVXC(Harmonic Vector eXcitation Coding)编码工具允许对语言信号在2kbit/s和4kbit/s之间进行可分级性编码。HVXC的解码过程分四步进行:参数的反量化;对声音帧用正弦合成产生激励信号和加上噪声分量;对非声音帧通过查找码书产生激励信号;LPC(线型预测编码)合成。对合成语言质量的增强可以使用频谱后置滤波。
     HVXC提供了在延迟模式上的可分级性。其编码器和解码器可以独立地选择低或正常的延迟模式。
     谐音和独立线性加性噪声HILN(Harmonic and Individual Line plus Noise)编码工具允许对非语言信号,例如音乐以4kbit/s和更高的码率进行编码。HILN支持在速度、音调、码率和复杂度上的可分级性。其独立线性基础解码器从比特流中重建线性参数频率、幅度和包络。增强解码器使用更好的量化对上述参数进行重建,并且对线性参数相位也进行了重建。信号解码的速度可以仅通过改变帧长来实现,音调的改变通过在合成之前利用一个比例因子复合每一个频率参数来实现,而且无须改变帧长,也不会引起相位失真。增强解码器由于对相位进行重建而带来了诸多优点,使解码器输出的信号近似于编码器输入的波形。
     可以将HVXC和HILN联合起来使用以获得更宽范围内的信号和码率。可以在两者编码器的输出之间动态地切换或混合。
     1.2  CELP编码
     CELP的解码器包括一个激励源、一个合成滤波器和一个需要时添加的后置滤波器。
     激励源拥有两种分量,一是由自适应码书产生的周期分量,另一个是由一个或多个固定码书产生的随机分量。在解码器中,使用码书索引和增益索引来重建激励信号。激励信号接着通过线性预测合成滤波器,最后,为了获得增强的语言质量,可以使用后置滤波器。CELP支持两种采样率:8kHz和16kHz。
     当采样率为8kHz时,码率的可分级性是通过不断加上所谓“增强层”(enhancement layer)来实现的。在基础码率上以2kbit/s的步长增加,可加的增强层的最大数目是三,意味着可在基础码率上加上2,4,6 kbit/s。当采样率为16kHz时,可以通过只使用比特流的一部分来解码语言信号,这就提供了在复杂度上的可分级性。还有一些其他支持复杂度可分级的方法,例如简化LPC、后置滤波器的使用与否等等。复杂度的可分级性依赖于实际的应用而与比特流的语法无关。而当解码器用软件实现时,复杂度甚至可以实时地予以改变,以利于在有限容量计算机接口或多任务环境下运行。
     带宽的可分级性在采样率为8kHz和16kHz时均可实现,是通过在CELP编码上加一个带宽扩展工具来实现的。
     1.3  时间/频率编码
   当码率为每声道64kbit/s时就是MPEG-2 AAC编码标准,此时可以获得极好的音频质量。MPEG-2 AAC是MPEG-4时间/频率编码的核心。其滤波器的输出含有1024条或1280条频率线,通过块切换来获得不同的时间和频率分辨率。用时域噪声整形(TNS)来控制时域量化噪声的形状。通过在每一个频谱系数上使用后向自适应预测器来有效提高滤波器组的分辨率。频谱系数被划分为近似临界频带结构的所谓比例因子频带,每个比例因子频带共享一个比例因子使用一个非均匀量化器。编码器的心理声学模型控制量化的步阶将量化噪声置于信号阀值之下予以掩蔽。在无噪声编码工具下,将量化频谱系数进行分区,每个区包含整数个比例因子频带,每个区的量化系数使用一本码书以2或3元组进行霍夫曼编码。
     除了AAC外,还有其他的时间/频率编码工具。例如比特分片算述编码BSAC(the bit-sliced arithmetic coding),作为一种无噪声编码它能提供从16kbit/s至64kbit/s之间以1kbit/s的步率实现码率的分可级性。变换域加权插入矢量量化TwinVQ(the
   transform-domain weighted interleaved vector quantization)作为一种无噪声编码和量化工具也是一种选择,它使用线性预测编码(LPC)模型来定义量化器步阶,对插入和量化的频谱系数进行矢量量化,特别适用于需要码率可分级性和强纠错的系统中。
     总的说来,MPEG-4的自然音频编码不但提供了宽广的码率范围,更为重要的是提供了在诸多系统系数例如声道码率、信号带宽、信号时间尺度重建、声音音调、解码器复杂度等方面的灵活性和可分级性。可以通过一系列的核心编码器来实现上述的不同的分级特性。
   
     2 新型的结构音频标准
   
     从MPEG-4标准制定的开始,其焦点就已经得到扩展,它不光包括传统的编码方法,其独创之处在于提供了有关合成、音视频场景、合成与自然内容的同步和时空联合等方面的描述。一种新类型的音频编码工具“结构音频”随之诞生。结构音频标准提供了关于合成音乐、声音效果、交互式多媒体场景下合成声音与自然声音的同步等方面有效的、灵活的描述。在MPEG-4的工作计划中,合成声音编码代表了一种极具灵活性的工具,支持其他编码无法实现的交互式功能。另外,结构音频的出现有其强烈的时代背景感和技术上的迫切需求感。许多研究者发觉,MIDI等合成技术已不能满足计算机合成音乐的发展步伐,目前的瓶颈状况需要改变。今天从电影、电视、交互式媒体中感受到的音乐多为合成音乐且无法觉察到其原始面目。制定一个规范化、高质量的标准在每个终端实现音频的多媒体应用已是必然。MPEG-4结构音频工具是基于一种软件合成描述语言实现的。这种描述的技术基础近似于先前出现的计算机音乐语言,例如Music V和C sound。结构音频工具较之前者的典型特点是允许用比特流来有效地传输数据。结构音频工具使用五种主要的元素成分,它们的描述方式统一于总体的解码框架流程。
     2.1 结构音频命令语言SAOL(the Structured Audio Orchestra Language)
     它是标准核心的合成描述语言。SAOL是一种数字信号处理语言,可使用于任意合成的传输描述及部分比特流效果算法的描述,SAOL的语法和语义作为MPEC-4的一部分予以标准化。SAOL语言是一种完全新型的语言,任何目前已知的声音合成方法都可以用SAOL来描述,凡是能用信号流程网络表示的数字信号处理过程都可用SAOL来表示。SAOL的特点是具有改进的语法、一系列更小的核心功能、一系列附加的句法,这使得相应的合成算法的编辑变得更加简化容易。
     2.2 结构音频记分语言SASL(the Structured Audio Score Language)
     这是一种简单记分和控制语言。用来描述在合成声音产生过程中用SAOL语言传输的声音产生算法是如何运作的;SASL较之MIDI更加灵活,可以表达更加复杂的功能,但其描述却变的更加简单容易。
     2.3 结构音频样本分组格式SASBF(the Structured Audio Sample Bank Format)
     允许传输在波表合成中使用的分组的音频样本数据,并描述它们使用的简单处理算法。
     2.4 规范化程序表
     描述了结构音频解码过程的运行流程。它把用SASL或MIDI定义的结构声音控制映射为实时的事件来调度处理,这个过程用规范化声音产生算法(用SAOL描述)来定义。
     2.5 规范化参考
     用于MIDI标准。MIDI可在结构控制中替代SASL语言。尽管MIDI在效果和灵活性上不及SASL,但MIDI对现存的一些内容和编辑工具提供了后向的兼容性的支持。对一些MIDI命令,MPEG-4也将其语义集成到结构音频的工具中去。
     总的说来,不同于以往描述语言的复杂、专业化,结构音频的观点在于使合成控制变得更加简易和方便,但功能却强大、有效。
     同以前的标准一样,MPEG-4也根据不同的应用定义了几层框架,在MPEG-4结构音频的完全标准中定义了三层受限制的框架,其中的每一层框架都是完全标准的子集,其描述语言不同,有各自不同的应用。只有第四层框架才是结构音频完全的、默认的框架,具有严格意义上的规范化。
   
     3 合成/自然混合编码SNHC
   
     SNHC联合了自然和合成音频编码工具,带来许多优点。
     例如一个音轨可以由两个单独的音频对象组成,音轨可以使用CELP低码率语言编码器进行编码,而背景音乐可以使用结构音频的合成编码器。在解码器终端,这两部分分量被解码并混合在一起。这种混合的过程在MPEG-4中定义为场景描述的二进制格式BIFS(Binary Format for Scene Description)。BIFS在概念上类似于虚拟—现实描述语言VRML,但其音频分量在功能上被扩展了。BIFS作为MPEG-4的系统工具被标准化。使用音频BIFS,音源可以被混合、分组、延迟、随同3D虚拟空间进行处理、使用信号处理功能进行译后处理并用SAOL传输作为比特流内容的一部分。
     对语言声音进行自然编码(例如CELP)可以获得良好的声音质量,但遇到回声、人工音乐等,则音质恶化,解决的办法则是在用户端使用SAOL描述的回声算法进行译后处理。SNHC综合了两者的优点,在带宽和声音质量上获得了满意的效果。
   
     4 结语
   
     MPEG-4作为一种目标定位于未来的、全能的、开放的多媒体方案,将伴随着未来不断出现的新的技术、思路、方法得到更深、更广的发展,成为领导未来多媒体世界的国际标准。
   
   

信息来源:电声技术
PARTNER CONTENT

文章评论0条评论)

登录后参与讨论
EE直播间
更多
我要评论
0
4
关闭 站长推荐上一条 /3 下一条