MP3的算法是很复杂的,在这里,我们将对MP3的算法进行一些深入浅出的解释和说明。
概述
MP3其实并不是什么新技术。它实际上就是一种音频压缩技术。而这种音频压缩技术早就在VCD中已经采用了。也就是MPEG-1的音频压缩技术。只不过现在把这种技术单独拿出来应用到音乐唱盘中去。但是为什么它会引起这么大的轰动呢?
在80年代初期,当时还广泛流行着密纹唱片,发明了CD唱盘。CD是Com-pactDisk的缩写。意思是轻便的碟片。CD唱盘相对于密纹唱片在技术上是一大进步。它第一次把高密度的激光存储技术应用到消费类电子产品中去。相对于原来的机械式密纹唱片,它带来了很多优点:音质好、体积小、重量轻、便于携带。相对于磁带录音机来说,它没有直接的机械接触,因而噪声低,不会磨损,使用寿命和保存时间提高很多。尤其重要的是,它第一次用数字技术代替了模拟技术,这为今后MP3的发展奠定了基础。
到80年代中期,CD唱盘的技术日益成熟,但是售价还比较贵。经过了将近10年的发展,CD唱盘现在已经完全取代了密纹唱片,也在很大程度上取代了录音机。它几乎已经深入到了每一个家庭。在汽车音响中也成为了标准装备。看来真象要千秋万代的存在下去。就在这个时候,出现了MP3。
MP3的光碟从外表上来看和普通CD完全一样,音质也不比CD差,但是它所需的存储容量却比CD小了将近10倍。这完全靠了数字压缩技术才能实现。
音频信号的数字化
普通的CD虽然采用了数字技术,但是它只是简单地把模拟信号加以数字化。为了把模拟信号数字化,首先要对模拟信号进行采样。根据Nyquest采样定律,通常其采样频率至少是信号中的最高频率分量的两倍。对于高质量的音频信号,其频率范围是从20Hz-20kHz。所以其采样频率必须在40kHz以上。在CD中采用了44.1kHz的采样频率。在对模拟信号采样以后,还必须对其幅度上加以分层。在CD中,其分层以后的幅度信号用16比特的二进制信号来表示,也就是把模拟的音频信号在幅度上分为65,536层。这样,它的动态范围就可以达到96分贝(6分贝/比特)。这种直接模数(A/D)变换的方法也称为PCM编码。直接数字化的最大缺点是比特率非常高。达到44.1x16=705.6kBbps,或即88.2kBbps。比特率高就意味着要求的存储容量很大。要记录1分钟的音乐,就需要5.292MB的存储容量。对于两路立体声,就需要10.584MB。而要记录几十分钟的音乐就需要几百兆的存储容量。
为了存储数字化了的音乐,就只能尽量开发高容量的存储系统。在70年代末,终于开发出了利用激光读写的光盘存储系统。因为这种光盘比起密纹唱片,无论在体积和重量上都要小得多,轻得多,所以称它为CD(CompactDisk)。意思为轻便的碟片。而一张CD的容量大约为650MB,也就只能存储61.4分钟音乐。
纯粹音乐CD通常也称为CD-DA。DA就是数字音频(Digital Audio)的缩写。它的技术指标是由一本所谓的“红皮书”所定义。这本红皮书是菲立普公司和索尼公司在1980年公布的。以后,在1987年,又由国际电工委员会(IEC)制定为IEC908标准。根据这些标准可以比较精确地计算一张CD所能存储的音乐时间。实际上在CD碟片中是以扇区为单位的,每个扇区中所包含的字节数为2352个字节。总共有345k个扇区。因此总的字节数为345kx2352=811440kB。可以存放76.92分钟的立体声音乐。还有一种方法来计算播放的时间,CD在播放时,其播放的速度为每秒钟75个扇区。一张CD有345k个扇区,因而可以播放的时间为345k/75=4600秒=76分40秒。两种方法计算的结果是一样的。
数字音频信号的压缩
因为音频信号数字化以后需要很大的存储容量来存放,所以很早就有人开始研究音频信号的压缩问题。音频信号的压缩不同于计算机中二进制信号的压缩,在计算机中,二进制信号的压缩必须是无损的,也就是说,信号经过压缩和解压缩以后,必须和原来的信号完全一样,不能有一个比特的错误。这种压缩称为无损压缩。但是音频信号的压缩就不一样,它的压缩可以是有损的只要压缩以后的声音和原来的声音听上去和原来的声音一样就可以了。因为人的耳朵对某些失真并不灵敏,所以,压缩时的潜力就比较大,也就是压缩的比例可以很大。音频信号在采用各种标准的无损压缩时,其压缩比顶多可以达到1.4倍。但在采用有损压缩时其压缩比就可以很高。下面是几种标准的压缩方法的性能。按质量由高往低排列。
需要注意的是,其中的Mbyte不是正好1兆比特,而是1024x1024=1048576Byte。必须指出,这些压缩都是以牺牲音质作为代价的,尤其是最后两种方法,完全靠降低采样率和降低分辨率来取得的。这对音质的损失太大,所以这些方法并不可取。
MP3的压缩方法
MP3实际上采用了MPEG-1的第三层的音频压缩方法。而VCD则是采用了MPEG-1的第一二音频压缩方法。第三层的压缩方法可以在保持很高音质的情况下,得到比第二层更高的压缩比。之所以能够做到这点主要是利用了人耳的听觉特性。
1.人耳的频率特性
虽然人耳可以听到从20Hz-20kHz的频率范围,但是人耳在不同的频率范围中的灵敏度是不同的。一般来说,人耳在特高频和特低频范围里的灵敏度是很差的。这可以用著名的FletcherMunson曲线来说明。
图中曲线的0dB代表听觉灵敏度的极限,而120dB代表痛苦灵敏度的极限。由图中可以看到,人耳在20-30Hz时的灵敏度要比1000Hz以上的灵敏度低60dB。而在2000Hz到5000Hz范围内的灵敏度最高。在高于10000Hz时,其灵敏度又逐步降低达20dB以上。
因此,我们就可以利用这个特性来进行压缩。为此,我们把输入的音频信号在频率上分成很多个小频段,称为子带。子带的数目一共有32个(如下图所示)。输入的最高频率为20000Hz,所以每个子带的宽度为625Hz。因为人耳对每个频段信号的灵敏度不同,因此,在不同频段可以采用不同的量化分层。例如,在低频端,就可以采用10bit,而用不着采用16bit。这就达到了压缩的目的。
2.人耳的遮蔽效应
人耳的另一个效应称为遮蔽效应。这种遮蔽效应表现在强信号遮蔽邻近频率的弱信号。假如有一个1000Hz的强信号,在其边上有一个低18dB的1100Hz的弱信号。那么这个弱信号就被遮蔽掉。也就是说,任何一个在强信号边上的弱信号都将会被遮蔽掉。但是假如有另一个低18dB的2000Hz弱信号,这个信号就能够被听见。必须要降低到-45dB以下,才会被遮蔽掉。也就是说,信号的频率离得越近,遮蔽效应就越严重。这意味着,我们可以提高在一个强信号的附近的噪声电平。提高噪声电平也就是减少量化的位数,从而达到压缩的目的。但是,由于强信号是随机出现的,所以减少强信号附近的量化位数必须是自适应地进行。
举例来说,假如在第8个子带中有一个强度为60dB的1000Hz的信号,可以计算出在整个第8子带都会有遮蔽效应,其遮蔽的门限为35dB。也就是说,在整个第8子带中,所有低35dB的信号都将会被遮蔽掉。此时,可以接受的信噪比s/n=60-35=25dB。因而4位的分辨率就已经足够了。同时,这种遮蔽效应也存在于邻近的子带中。也就是说,在第9-13,和第5-7个子带中都有遮蔽效应,都可以降低其分辨率,只是离得越远,效应越弱。
3.人耳的前遮蔽和后遮蔽效应
前面讲的遮蔽效应是指同时遮蔽,除此以外,还有一种非同时的遮蔽效应,称为前遮蔽和后遮蔽。所谓前遮蔽就是指在一个强信号之前或之后的弱信号,也会被遮蔽掉。这是因为人脑需要有一定的时间来处理声音信号的缘故。前遮蔽效应的时间比较短。大约只有2-5ms。而后遮蔽的时间比较长,大约有100ms。这种现象也可以加以利用,以进行压缩。只要降低强信号之前和之后的分辨率就可以。
4.减小低频时的带宽
从人耳的频率响应可以看出,人耳在低频时的灵敏度在700Hz以后急剧降低,如果将频段均匀划分,每个频段625Hz宽,在低频端就只有一个频段,也就无法充分利用这一特性。因此在MPEG第二层和第三层中,就采用了不均匀的滤波器,即在低频端采用较窄的子带,而在高频端则采用较宽的子带。这就可以更充分利用人耳的这一特性。
5.人耳的空间响应
人耳在某些频率上,并不能分辨其声源的方向。因而就可以利用一种所谓联合立体声的方法来降低码率。所谓联合立体声就是指在某些频率上采用单声道。这样也能达到降低码率的效果。
此外,在MPEG-1的音频压缩中,还采用了其它措施,以降低码率并保证质量。例如:
a.采用冗余字节以作为缓冲用,因为有些音乐小节是无法将其按限定的码率编码而又不损失其音质。为了保证其质量就需要采用较高的码率。在MP3的码流中就增加了一些冗余的字节,以便在需要的时候就可以在短时间内提供较高的码率。这也就是所谓的可变码率(VBR)系统。
b.在MPEG-1的第三层中,还采用了Huffman编码以进行无损压缩。这就更进一步降低了数码率,提高了压缩比。据估计,采用Huffman编码以后,可以节省大约20%的码率。
采用了所有以上措施以后,MP3就可以在保证音质的前提下,把码率降到最低。同时对于不同的质量要求,也可以采用降低采样率的方法来进一步降低码率。下面是MP3在不同的采样率时的压缩效果(假定每首歌长度为3.9分钟)。
一般来说,128kBbps的MP3的质量就已经接近CD的质量,这也就是为什么说MP3的容量大约要比CD的容量大10倍以上的原因。
用PC实现编解码的MP3
MP3从一开始是在网上流行起来的。最早是一些大学里的学生公布了一些MPEG-1第三层音频压缩和解压缩的软件,因为这些软件都是可以免费下载的,所以很快就流行起来。这些软件的使用也越来越方便。很多人用这些软件压缩了很多音乐和歌曲,也把它们公布在网上,可以免费下载。你只要有一个播放的软件就可以用PC来对这些用MP3压缩了的音乐和歌曲来进行解压缩和播放。
最新的播放软件是WindowsMediaPlayer11试用版,它要求采用至少Intel奔腾II的233MHz处理器,64MBRAM,200MB硬盘空间。
而比较常用的压缩软件是一种称之为LAME的软件,这种软件可以在下面的网站上免费下载:http://www.free-codecs.com/download/Lame_Encoder.htm
MP3解压缩硬件
虽然采用PC作为MP3的播放器有一定的可取之处,例如,对于已经拥有PC的人来说,就不需要再投资。当然也要看他的PC是否有足够的功率。但是PC毕竟是体积大,重量重,不便于携带。因此首先就有人想到要开发出一种MP3的随身听来。美国的Diamond公司在1997年首先开发出了一种小型的MP3随身听,称为Rio。以后Samsung公司也开发了一种称为Yepp的MP3随身听,南韩的Saehan信息系统公司则开发出了一种叫Mpman的随身听。
经过了10年以后,现在各式各样的MP3随身听如雨后春笋地出现。尤其是自从苹果公司推出iPod以后,MP3的市场更是在全世界蓬勃发展,成为年轻人时尚的标志。而这类MP3大多利用专用的解压芯片来解压缩。现在采用最多的是SigmaTel和珠海炬力的芯片。其典型的方框图如下:
典型的处理器如下表所示:
和SigmaTel一样,珠海炬力的ATJ2089已经把耳机放大器和DC/DC升压变换器集成到处理器的芯片中去。采用珠海炬力的ATJ2089的方框图如下所示:
带硬盘MP3随身听的大小只有一包香烟大,厚薄只有香烟合的一半。还有更小的闪存MP3只有一包口香糖那么大。它们都是内置有非易失性闪烁存储器(FlashROM)或是小型硬盘作为存储器,可以从PC下载MP3的音乐或歌曲。
这种采用闪存的随身听比起卡式磁带录音机和CD随身听来,其体积小,重量轻,不怕振动,不会跳轨,没有旋转机械,不会磨损,更重要的是,它可以很方便地更新所存储的歌曲。有的MP3随身听也有压缩的功能,可以把模拟的音频输入实时地压缩成MP3格式并储存起来。但是普通的MP3也有它的缺点。那就是它不能脱离PC。所有的音乐和歌曲都必须来自PC。所有这些随身听都是经过USB接口和PC连接。从PC上下载。当然还有一种MP3是和播放CD的随身听一样,它是一种碟片播放机。它不但可以播放CD上的歌曲,也可以播放刻在CD碟片上的MP3歌曲。现在市面上已经有一些这样的碟片和这种碟片播放机。
硬盘和闪存的比较
目前闪存的适用最大容量为2GB,虽然已经开发出来了16GB的闪存,但是在价钱上还不能和微型硬盘竞争。超过2GB的容量就需要采用微型硬盘。最早的iPod就是采用微型硬盘。
最小的微型硬盘的直径只有0.85英寸,它的尺寸可以和最早的CF闪存卡的大小兼容。而容量则随年增加。下图表明了微型硬盘的容量增加历史。当然目前使用最多的还是1.8英寸的微型硬盘。因为它的成本更低、容量更大。这方面主要是日本日立和东芝公司的产品。微型硬盘和闪存相比较,由于闪存是全固态的,所以有体积小、可靠性高、功耗低等优点。但是在容量上还是比不过硬盘。而硬盘的主要缺点是体积大、可靠性低、功耗大,然而硬盘的性能也在不断地改进。例如微型硬盘的抗震能力,由于采用了特殊的磁头载入载出技术,使抗冲击能力高达1500G(非工作状态)和175G(工作状态)。
而采用NAND作为存储单元的闪存也发展得非常快,随着超大规模集成电路的线宽日益缩窄,单位面积硅片的存储量日益加大,其成本也随着降低。90纳米的闪存已经大量出货,三星现在已经有一条60纳米的生产线,可以生产8GB的闪存,正在准备批量生产的是55纳米的生产线,可以生产16GBB的闪存。目前NAND闪存的价格正在以每年50%的速度降低。其降价的速度超过微型硬盘的降价速度。而且采用闪存做成的固体硬盘其读取速度(53MBbps)要比硬盘快3倍,而写入速度(28MBbps)要比硬盘快1.5倍。据估计,闪存大约在2008年将会赶上微硬盘的成本。
由上所述可见,MP3的确具有CD唱盘无可比拟的优越性。但是,好事多磨,MP3的普及受到了原来CD录音公司和音像出版商的强烈反对。原因很简单,他们本来可以出版10张碟片,现在只能出版一张碟片了。这就会大大损害他们的利益。因此,以美国录音工业协会(RIAA)为代表的出版商曾向法院提出申请,要求停止MP3随身听的发售。但被法院否决了这项请求。但是,在另一方面,因为MP3歌曲可以在网上随意下载,也的确造成了容易侵犯版权问题。像最近苹果公司的iTune因为也有未经授权的歌曲而受到控告。其实,在网上可以直接下载几百万首MP3歌曲,其中有不少是没有版权的。
中国现在已经是生产便携式MP3的大国。连苹果公司的iPod也是在中国生产的,但是中国本身的MP3市场还远远小于出口市场。而且作为一种产品,便携式MP3正在受到各种威胁,目前最大的威胁是来自音乐手机,现在已经有一半的手机带有播放MP3的功能。另一个威胁则是来自MP4和PMP。带有视频播放功能的便携产品也将取代具有单一功能的MP3播放机。
不过作为一种音频压缩技术,MP3仍然具有广阔的前景。可以预料,在不久的将来,从高档的家庭影院,中档的组合音响,低档的书架式音响,直到小型的随身听、汽车音响等。总之,凡是原来播放普通CD的播放机都将会变成能够播放MP3碟片的播放机。就像当初CD取代磁带录音机一样,一个用MP3全面取代现有CD的时代即将来临!而中国将会走在这个时代的最前列!
用户315552 2010-12-13 21:21
用户144206 2008-4-26 11:26