原创什么是H.264?

 2008-8-29 22:10  2001 1 1 分类: 处理器与DSP

一、H.264简介
      H.264是ITU-T的视频编码专家组（VCEG）和ISO/IEC的活动图像编码专家组（MPEG）的联合视频组（JVT：joint videoteam）开发的一个新的数字视频编码标准，它既是ITU-T的H.264，又是ISO/IEC的MPEG-4的第10部分。H.264和以前的标准一样，也是DPCM加变换编码的混合编码模式。JVT（JointVideoTeam，视频联合工作组）于2001年12月在泰国Pattaya成立。它由ITU-T和ISO两个国际标准化组织的有关视频编码的专家联合组成。JVT的工作目标是制定一个新的视频编码标准，以实现视频的高压缩比、高图像质量、良好的网络适应性等目标。目前JVT的工作已被ITU-T接纳，新的视频压缩编码标准称为H.264标准，该标准也被ISO接纳，称为 AVC（Advanced Video Coding）标准，是MPEG-4的第10部分。H.264标准可分为三档：
     基本档次（其简单版本，应用面广）；
     主要档次（采用了多项提高图像质量和增加压缩比的技术措施，可用于SDTV、HDTV和DVD等）；
     扩展档次（可用于各种网络的视频流传输）。
     H.264标准压缩系统由视频编码层（VCL）和网络提取层（Network Abstraction Layer，NAL）两部分组成。VCL中包括VCL编码器与VCL解码器，主要功能是视频数据压缩编码和解码，它包括运动补偿、变换编码、熵编码等压缩单元。NAL则用于为VCL提供一个与网络无关的统一接口，它负责对视频数据进行封装打包后使其在网络中传送，它采用统一的数据格式，包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号等。包头中包含存储标志和类型标志。存储标志用于指示当前数据不属于被参考的帧。类型标志用于指示图像数据的类型。VCL可以传输按当前的网络情况调整的编码参数。
二、H.264的特点
      H.264和H.261、H.263一样，也是采用DCT变换编码加DPCM的差分编码，即混合编码结构。同时，H.264在混合编码的框架下引入了新的编码方式，提高了编码效率，更贴近实际应用。H.264没有繁琐的选项，而是力求简洁的“回归基本”，它具有比H.263++更好的压缩性能，又具有适应多种信道的能力。H.264的应用目标广泛，可满足各种不同速率、不同场合的视频应用，具有较好的抗误码和抗丢包的处理能力。H.264的基本系统无需使用版权，具有开放的性质，能很好地适应IP和无线网络的使用，这对目前因特网传输多媒体信息、移动网中传输宽带信息等都具有重要意义。尽管H.264编码基本结构与H.261、H.263是类似的，但它在很多环节做了改进，现列举如下。
1、多种更好的运动估计
       一是高精度估计
       在H.263中采用了半像素估计，在H.264中则进一步采用1/4像素甚至1/8像素的运动估计。即真正的运动矢量的位移可能是以1/4甚至1/8像素为基本单位的。显然，运动矢量位移的精度越高，则帧间剩余误差越小，传输码率越低，即压缩比越高。在H.264中采用了6阶FIR滤波器的内插获得1/2像素位置的值。当1/2像素值获得后， 1/4像素值可通过线性内插获得，对于4:1:1的视频格式，亮度信号的1/4 像素精度对应于色度部分的1/8像素的运动矢量，因此需要对色度信号进行1/8像素的内插运算。理论上，如果将运动补偿的精度增加一倍（例如从整像素精度提高到1/2像素精度），可有0.5bit/Sample的编码增益，但实际验证发现在运动矢量精度超过1/8像素后，系统基本上就没有明显增益了，因此，在H.264中，只采用了1/4像素精度的运动矢量模式，而不是采用1/8像素的精度。
     二是多宏块划分模式估计
     在H.264的预测模式中，一个宏块（MB）可划分成7种不同模式的尺寸，这种多模式的灵活、细微的宏块划分，更切合图像中的实际运动物体的形状，于是，在每个宏块中可包含有1、2、4、8或16个运动矢量。
     三是多参数帧估计
   在H.264中，可采用多个参数帧的运动估计，即在编码器的缓存中存有多个刚刚编码好的参数帧，编码器从其中选择一个给出更好的编码效果的作为参数帧，并指出是一帧被用于预测，这样就可获得比只用上一个刚编码好的帧作为预测帧的更好的编码效果。
     2、更精确的帧内预测
在H.264中，每个4?4块中的每个像素都可用17个最接近先前已编码的像素的不同加权和来进行帧内预测。
    3、统一的VLC
        H.264中关于熵编码有两种方法。
        统一的VLC（即UVLC：Universal VLC）。UVLC使用一个相同的码表进行编码，而解码器很容易识别码字的前缀，UVLC在发生比特错误时能快速获得重同步。内容自适应二进制算术编码（CABAC：Context Adaptive Binary Arithmetic Coding）。其编码性能比UVLC稍好，但复杂度较高。
三、H.264的应用
      SONY最新推出了Sony PCS-1 机顶视频会议系统，其应用范围十分广泛，包括数字电影、数字广播、数字有线电视、宽带内容服务、家用录像设备、网络广播、网络会议、IP监看等领域均可使用这一系统。SONY本身就是一家消费类电子产品的公司，因此在电子方面的应用也非常广泛。要实现SONY的产品与其它产品的互通性，需要采用H.241网络传输，而不同提供商之间则可采用H.264实现彼此之间的互操作性，比如在容量交换、IP上载荷格式等方面均可应用H264。

.264简介
H.264/MPEG-4 AVC（H.264）是1995年自MPEG-2视频压缩标准发布以后的最新、最有前途的视频压缩标准。H.264是由ITU-T和ISO/IEC的联合开发组共同开发的最新国际视频编码标准。通过该标准，在同等图象质量下的压缩效率比以前的标准提高了2倍以上，因此，H.264被普遍认为是最有影响力的行业标准。

一、H.264的发展历史
　　H.264在1997年ITU的视频编码专家组（Video Coding Experts Group）提出时被称为H.26L，在ITU与ISO合作研究后被称为MPEG4 Part10（MPEG4 AVC）或H.264（JVT）。

H.264的高级技术背景
H.264标准的主要目标是：与其它现有的视频编码标准相比，在相同的带宽下提供更加优秀的图象质量。

而，H.264与以前的国际标准如H.263和MPEG-4相比，最大的优势体现在以下四个方面：

1．将每个视频帧分离成由像素组成的块，因此视频帧的编码处理的过程可以达到块的级别。

2．采用空间冗余的方法，对视频帧的一些原始块进行空间预测、转换、优化和熵编码（可变长编码）。

3．对连续帧的不同块采用临时存放的方法，这样，只需对连续帧中有改变的部分进行编码。该算法采用运动预测和运动补偿来完成。对某些特定的块，在一个或多个已经进行了编码的帧执行搜索来决定块的运动向量，并由此在后面的编码和解码中预测主块。

4．采用剩余空间冗余技术，对视频帧里的残留块进行编码。例如：对于源块和相应预测块的不同，再次采用转换、优化和熵编码。

H.264的特征和高级优势
H.264是国际标准化组织（ISO）和国际电信联盟（ITU）共同提出的继MPEG4之后的新一代数字视频压缩格式，它即保留了以往压缩技术的优点和精华又具有其他压缩技术无法比拟的许多优点。

1．低码流（Low Bit Rate）：和MPEG2和MPEG4 ASP等压缩技术相比，在同等图像质量下，采用H.264技术压缩后的数据量只有MPEG2的1/8，MPEG4的1/3。

显然，H.264压缩技术的采用将大大节省用户的下载时间和数据流量收费。

2．高质量的图象：H.264能提供连续、流畅的高质量图象（DVD质量）。

3．容错能力强：H.264提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。

4．网络适应性强：H.264提供了网络适应层（Network Adaptation Layer）, 使得H.264的文件能容易地在不同网络上传输（例如互联网，CDMA，GPRS，WCDMA，CDMA2000等）。

二、H.264标准概述
H.264和以前的标准一样，也是DPCM加变换编码的混合编码模式。但它采用“回归基本”的简洁设计，不用众多的选项，获得比H.263++好得多的压缩性能；加强了对各种信道的适应能力，采用“网络友好”的结构和语法，有利于对误码和丢包的处理；应用目标范围较宽，以满足不同速率、不同解析度以及不同传输（存储）场合的需求。

技术上，它集中了以往标准的优点，并吸收了标准制定中积累的经验。与H.263 v2(H.263+)或MPEG-4简单类(Simple Profile)相比，H.264在使用与上述编码方法类似的最佳编码器时，在大多数码率下最多可节省50%的码率。H.264在所有码率下都能持续提供较高的视频质量。H.264能工作在低延时模式以适应实时通信的应用(如视频会议)，同时又能很好地工作在没有延时限制的应用，如视频存储和以服务器为基础的视频流式应用。H.264提供包传输网中处理包丢失所需的工具，以及在易误码的无线网中处理比特误码的工具。

在系统层面上，H.264提出了一个新的概念，在视频编码层(Video Coding Layer, VCL)和网络提取层(Network Abstraction Layer, NAL)之间进行概念性分割，前者是视频内容的核心压缩内容之表述，后者是通过特定类型网络进行递送的表述，这样的结构便于信息的封装和对信息进行更好的优先级控制。H.264的系统编码框图如图1所示。图1 H.264系统框图

三、H.264标准的关键技术
1.帧内预测编码

帧内编码用来缩减图像的空间冗余。为了提高H.264帧内编码的效率，在给定帧中充分利用相邻宏块的空间相关性，相邻的宏块通常含有相似的属性。因此，在对一给定宏块编码时，首先可以根据周围的宏块预测（典型的是根据左上角的宏块，因为此宏块已经被编码处理），然后对预测值与实际值的差值进行编码，这样，相对于直接对该帧编码而言，可以大大减小码率。

H.264提供6种模式进行4×4像素宏块预测，包括1种直流预测和5种方向预测，如图2所示。在图中，相邻块的A到I共9个像素均已经被编码，可以被用以预测，如果我们选择模式4，那么，a、b、c、d4个像素被预测为与E相等的值，e、f、g、h4个像素被预测为与F相等的值，对于图像中含有很少空间信息的平坦区，H.264也支持16×16的帧内编码。图2 帧内编码模式

2.帧间预测编码

帧间预测编码利用连续帧中的时间冗余来进行运动估计和补偿。H.264的运动补偿支持以往的视频编码标准中的大部分关键特性，而且灵活地添加了更多的功能，除了支持P帧、B帧外，H.264还支持一种新的流间传送帧——SP帧，如图3所示。码流中包含SP帧后，能在有类似内容但有不同码率的码流之间快速切换，同时支持随机接入和快速回放模式。图3 SP-帧示意图H.264的运动估计有以下4个特性。

(1)不同大小和形状的宏块分割

对每一个16×16像素宏块的运动补偿可以采用不同的大小和形状，H.264支持7种模式，如图4所示。小块模式的运动补偿为运动详细信息的处理提高了性能，减少了方块效应，提高了图像的质量。图4 宏块分割方法

(2)高精度的亚像素运动补偿

在H.263中采用的是半像素精度的运动估计，而在H.264中可以采用1/4或者1/8像素精度的运动估值。在要求相同精度的情况下，H.264使用1/4或者1/8像素精度的运动估计后的残差要比H.263采用半像素精度运动估计后的残差来得小。这样在相同精度下，H.264在帧间编码中所需的码率更小。

(3)多帧预测

H.264提供可选的多帧预测功能，在帧间编码时，可选5个不同的参考帧，提供了更好的纠错性能，这样更可以改善视频图像质量。这一特性主要应用于以下场合：周期性的运动、平移运动、在两个不同的场景之间来回变换摄像机的镜头。

(4)去块滤波器

H.264定义了自适应去除块效应的滤波器，这可以处理预测环路中的水平和垂直块边缘，大大减少了方块效应。

3.整数变换

在变换方面，H.264使用了基于4×4像素块的类似于DCT的变换，但使用的是以整数为基础的空间变换，不存在反变换，因为取舍而存在误差的问题，变换矩阵如图5所示。与浮点运算相比，整数DCT变换会引起一些额外的误差，但因为DCT变换后的量化也存在量化误差，与之相比，整数DCT变换引起的量化误差影响并不大。此外，整数DCT变换还具有减少运算量和复杂度，有利于向定点DSP移植的优点。

4.量化

H.264中可选32种不同的量化步长，这与H.263中有31个量化步长很相似，但是在H.264中，步长是以12.5%的复合率递进的，而不是一个固定常数。
在H.264中，变换系数的读出方式也有两种：之字形(Zigzag)扫描和双扫描，如图6所示。大多数情况下使用简单的之字形扫描；双扫描仅用于使用较小量化级的块内，有助于提高编码效率。图6 变换系数的读出方式

5.熵编码

视频编码处理的最后一步就是熵编码，在H.264中采用了两种不同的熵编码方法：通用可变长编码（UVLC）和基于文本的自适应二进制算术编码（CABAC）。
在H.263等标准中，根据要编码的数据类型如变换系数、运动矢量等，采用不同的VLC码表。H.264中的UVLC码表提供了一个简单的方法，不管符号表述什么类型的数据，都使用统一变字长编码表。其优点是简单；缺点是单一的码表是从概率统计分布模型得出的，没有考虑编码符号间的相关性，在中高码率时效果不是很好。
因此，H.264中还提供了可选的CABAC方法。算术编码使编码和解码两边都能使用所有句法元素(变换系数、运动矢量)的概率模型。为了提高算术编码的效率，通过内容建模的过程，使基本概率模型能适应随视频帧而改变的统计特性。内容建模提供了编码符号的条件概率估计，利用合适的内容模型，存在于符号间的相关性可以通过选择目前要编码符号邻近的已编码符号的相应概率模型来去除，不同的句法元素通常保持不同的模型。

四、H.264在视频会议中的应用
目前，大多数的视频会议系统均采用H.261或H.263视频编码标准，而H.264的出现，使得在同等速率下，H.264能够比H.263减小50%的码率。也就是说，用户即使是只利用 384kbit/s的带宽，就可以享受H.263下高达 768kbit/s的高质量视频服务。H.264 不但有助于节省庞大开支，还可以提高资源的使用效率，同时令达到商业质量的视频会议服务拥有更多的潜在客户。

目前，已经有少数几家厂商的视频会议产品支持H.264协议，厂商们致力于普及H.264这个全新的业界标准。随着其它视频会议方案厂商陆续效仿他们的做法，我们必将能全面体验H.264视频服务的优势。

写原创有奖励！2025面包板原创奖励正在进行中