原创 H.264 标准详解

 2008-12-31 11:10  2531 3 3 分类: MCU/ 嵌入式

JVT（Joint Video Team，视频联合工作组）于2001年12月在泰国Pattaya成立。它由ITU-T和ISO两个国际标准化组织的有关视频编码的专家联合组成。JVT的工作目标是制定一个新的视频编码标准，以实现视频的高压缩比、高图像质量、良好的网络适应性等目标。目前JVT的工作已被ITU-T接纳，新的视频压缩编码标准称为H.264标准，该标准也被ISO接纳，称为AVC（Advanced Video Coding）标准，是MPEG-4的第10部分。

　　H.264标准可分为三档：

　　基本档次（其简单版本，应用面广）；

　　主要档次（采用了多项提高图像质量和增加压缩比的技术措施，可用于SDTV、HDTV和DVD等）；

　　扩展档次（可用于各种网络的视频流传输）。

　　H.264不仅比H.263和MPEG-4节约了50％的码率，而且对网络传输具有更好的支持功能。它引入了面向IP包的编码机制，有利于网络中的分组传输，支持网络中视频的流媒体传输。H.264具有较强的抗误码特性，可适应丢包率高、干扰严重的无线信道中的视频传输。H.264支持不同网络资源下的分级编码传输，从而获得平稳的图像质量。H.264能适应于不同网络中的视频传输，网络亲和性好。

　　一、H.264视频压缩系统

　　H.264标准压缩系统由视频编码层（VCL）和网络提取层（Network Abstraction Layer，NAL）两部分组成。VCL中包括VCL编码器与VCL解码器，主要功能是视频数据压缩编码和解码，它包括运动补偿、变换编码、熵编码等压缩单元。NAL则用于为VCL提供一个与网络无关的统一接口，它负责对视频数据进行封装打包后使其在网络中传送，它采用统一的数据格式，包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号等。包头中包含存储标志和类型标志。存储标志用于指示当前数据不属于被参考的帧。类型标志用于指示图像数据的类型。
VCL可以传输按当前的网络情况调整的编码参数。

　　二、H.264的特点

　　H.264和H.261、H.263一样，也是采用DCT变换编码加DPCM的差分编码，即混合编码结构。同时，H.264在混合编码的框架下引入了新的编码方式，提高了编码效率，更贴近实际应用。
H.264没有繁琐的选项，而是力求简洁的“回归基本”，它具有比H.263++更好的压缩性能，又具有适应多种信道的能力。

　　H.264的应用目标广泛，可满足各种不同速率、不同场合的视频应用，具有较好的抗误码和抗丢包的处理能力。

　　H.264的基本系统无需使用版权，具有开放的性质，能很好地适应IP和无线网络的使用，这对目前因特网传输多媒体信息、移动网中传输宽带信息等都具有重要意义。

　　尽管H.264编码基本结构与H.261、H.263是类似的，但它在很多环节做了改进，现列举如下。

　　1．多种更好的运动估计

　　高精度估计

　　在H.263中采用了半像素估计，在H.264中则进一步采用1/4像素甚至1/8像素的运动估计。即真正的运动矢量的位移可能是以1/4甚至1/8像素为基本单位的。显然，运动矢量位移的精度越高，则帧间剩余误差越小，传输码率越低，即压缩比越高。

　　在H.264中采用了6阶FIR滤波器的内插获得1/2像素位置的值。当1/2像素值获得后， 1/4像素值可通过线性内插获得，

　　对于4:1:1的视频格式，亮度信号的1/4 像素精度对应于色度部分的1/8像素的运动矢量，因此需要对色度信号进行1/8像素的内插运算。

　　理论上，如果将运动补偿的精度增加一倍（例如从整像素精度提高到1/2像素精度），可有0.5bit/Sample的编码增益，但实际验证发现在运动矢量精度超过1/8像素后，系统基本上就没有明显增益了，因此，在H.264中，只采用了1/4像素精度的运动矢量模式，而不是采用1/8像素的精度。

　　多宏块划分模式估计

　　在H.264的预测模式中，一个宏块（MB）可划分成7种不同模式的尺寸，这种多模式的灵活、细微的宏块划分，更切合图像中的实际运动物体的形状，于是，在每个宏块中可包含有1、2、4、8或16个运动矢量。

　　多参数帧估计

　　在H.264中，可采用多个参数帧的运动估计，即在编码器的缓存中存有多个刚刚编码好的参数帧，编码器从其中选择一个给出更好的编码效果的作为参数帧，并指出是哪个帧被用于预测，这样就可获得比只用上一个刚编码好的帧作为预测帧的更好的编码效果。

　　2．小尺寸4?4的整数变换

　　视频压缩编码中以往的常用单位为8?8块。在H.264中却采用小尺寸的4?4块，由于变换块的尺寸变小了，运动物体的划分就更为精确。这种情况下，图像变换过程中的计算量小了，而且在运动物体边缘的衔接误差也大为减少。

　　当图像中有较大面积的平滑区域时，为了不产生因小尺寸变换带来的块间灰度差异，H.264可对帧内宏块亮度数据的16个4?4块的DCT系数进行第二次4?4块的变换，对色度数据的4个4?4块的DC系数（每个小块一个，共4个DC系数）进行2?2块的变换。

　　H.263不仅使图像变换块尺寸变小，而且这个变换是整数操作，而不是实数运算，即编码器和解码器的变换和反变换的精度相同，没有“反变换误差”。

　　3．更精确的帧内预测

　　在H.264中，每个4?4块中的每个像素都可用17个最接近先前已编码的像素的不同加权和来进行帧内预测。

　　4．统一的VLC

　　H.264中关于熵编码有两种方法。

　　统一的VLC（即UVLC：Universal VLC）。UVLC使用一个相同的码表进行编码，而解码器很容易识别码字的前缀，UVLC在发生比特错误时能快速获得重同步。

　　内容自适应二进制算术编码（CABAC：Context Adaptive Binary Arithmetic Coding）。其编码性能比UVLC稍好，但复杂度较高。

　　三、性能优势

　　H.264与MPEG-4、H.263++编码性能对比采用了以下6个测试速率：32kbit/s、10F/s和QCIF；64kbit/s、15F/s和QCIF；128kbit/s、15F/s和CIF；256kbit/s、15F/s和QCIF；512kbit/s、30F/s和CIF；1024kbit/s、30F/s和CIF。测试结果标明，H.264具有比MPEG和H.263++更优秀的PSNR性能。
H.264的 PSNR比MPEG-4平均要高2dB，比H.263++平均要高3dB。

　　四、新的快速运动估值算法

　　新的快速运动估值算法UMHexagonS（中国专利）是一种运算量相对于H.264中原有的快速全搜索算法可节约90％以上的新算法，全名叫“非对称十字型多层次六边形格点搜索算法”（Unsymmetrical-Cross Muti-Hexagon Search）”，这是一种整像素运动估值算法。由于它在高码率大运动图像序列编码时，在保持较好率失真性能的条件下，运算量十分低，已被H.264标准正式采纳。

　　ITU和 ISO合作发展的 H.264（MPEG-4 Part 10）有可能被广播、通信和存储媒体（CD DVD）接受成为统一的标准，最有可能成为宽带交互新媒体的标准。我国的信源编码标准尚未制定，密切关注H.264的发展，制定我国的信源编码标准的工作正在加紧进行。

　　H264标准使运动图像压缩技术上升到了一个更高的阶段，在较低带宽上提供高质量的图像传输是H.264的应用亮点。H.264的推广应用对视频终端、网守、网关、MCU等系统的要求较高，将有力地推动视频会议软、硬件设备在各个方面的不断完善。

南京邮电学院张鲲吴正茂卢官明

写原创有奖励！2025面包板原创奖励正在进行中