* Characteristic of sound
物理特性 心理/ 生理特性
frequency (Hz) 音调,音高(12音阶)
amplitude/power(W,mW) 响度,音量(Phon, 方)
shape of waveform 音色
(2) 声音的类型
* 按频率划分:
* Infra-sound ( 次声) 0-20Hz
* Audio ( 可听 声) 20-20kHz
* Ultrasound ( 超 声) 20kHZ-1GHz
其中,多媒体技术只研究可听声。
声音的类型
* 可听声中,按声音是否“符号化”分为:
* 语音 ( speech ) 300-3400Hz
* 音乐 ( music ) 20-20kHz
* 其它声音 (effect sound, noise) 20-20kHz
声音信息中,语音(话音)和音乐是多媒体技术重点处理的对象
2.1.1 模拟音频和数字音频
* 声音是机械振动。振动越强,声音越大,话筒把机械振动转换成电信号,模拟音频技术中以模拟电压的幅度表示声音强弱。
* 模拟声音在时间上是连续的,而数字音频是一个数据序列,在时间上是断续的。数字音频是通过采样和量化,把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。
计算机内的基本数制是二进制,为此我们也要把声音数据写成计算机的数据格式,这称之为编码音频数字化,计算机内的音频必须是数字形式的,因此必须把模拟音频信号转换成有限个数字表示的离散序列,即实现音频数字化。在这一处理技术中,涉及到音频的抽样、量化和编码。
2.1.2 数字音频的采样和量化
* 采样:音频实际上是连续信号,或称连续时间函数x(t)。用计算机处理这些信号时,必须先对连续信号采样,即按一定的时间间隔(T)取值, 得到x(nT)(n为整数)。T称采样周期,1/T称为采样频率。称x(nT)为离散信号。
2.1.2 数字音频的采样和量化
* 采样定理:设连续信号x(t)的频谱为x(f),以采样间隔T采样得到离散信号x(nT),如果满足:
当|f|≥fc时,fc是截止频率
T≤ 1/2fc 或fc≤ 1/2T
则可以由离散信号x(nT)完全确定连续信号x(t)。当采样频率等于1/(2T)时,即 fN=1/2T,称fN为耐魁斯特频率。
常用的音频采样率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz
* 量化:为了把抽样序列x(nT)存入计算机,必须将样值量化成一个有限个幅度值的集合x(nT)。 通常,用二进制数字表示量化后的样值是方便的。用B位二进制码字可以表示2B个不同的 量化电平。存储数字音频信号的比特率为:
I=B·fs(比特/秒)
fs是抽样率(抽样/秒)
B是每个样值的比特数(比特/采样)
* 量化采样的过程如下:先将整个幅度划分成为有限个小幅度(量化阶距)的集合,把落入某个阶距 内的样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,我们称之为均匀量化 。设△为量化阶距,量化器的最大范围是Xmax,则:
?=2Xmax / 2
对于小于(i+1/2)△,而大于(i-1/2)△的样值,均规定为相同的量化值i△。
2.1.3 数字音频的文件格式
*
数字音频的文件格式
文件扩展名 说明.
* PCM PCM数据序列
·VOC Creative公司的波形音频文件格式。
·WAV Microsoft公司的波形音频文件格式。
·SND NeXT计算机的波形音频文件格式。
·AIF Apple计算机的波形音频文件格式。
·MID MIDI文件格式。
·RMI Microsoft公司的MIDI文件格式。它可以包括图片、标记和文本。
2.1.4 音频信号的特点
*
(1). 音频信号是时间依赖的连续媒体。
* (2). 即理想的合成声音应是立体声。
(3). 对语音信号的处理,要抽取语意等其它信息,如可能会涉及到语言学、社会学、声学等。 从人与计算机交互的角度来看音频信号相应的处理如下:
(1). 人与计算机通信(计算机接收音频信号)。包括 音频获取;语音识别与理解。
(2). 计算机与人通信(计算机输出音频)。 音频合成; 声音定位:音频/视频同步。
(3). 人—计算机—人通信
人通过网络,与处于异地的人进行语音通信,需要的音频处理包括:语音采集、音频编码/解码、音频传输等。这里音频编/解码技术是信道利用率的关键。
2.2.1 音频卡的功能和分类
* 音频卡的主要功能是:音频的录制与播放、编辑与合成、MIDI接口、文语转换、CD-ROM接口及游戏接口等。录制与播放编辑与合成MIDI接口和音乐合成文语转换与语音识别
2.2.2 音频卡的工作原理
* 开发生产音频卡的公司很多,其中最有影响的公司是新加坡创新科技有限公司(Creative Labs.Inc.)开发的系列产品SoundBlaster系列音频卡,它是集语音与音乐于一体的多煤体音频卡,它不但具有优良稳定的硬件特性,而且还有丰富的软件。
2.3.1 音频编码基础
* 从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析结果, 语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。另外由于语音主 要是给人听的,所以考虑了人的听觉机理,也能对语音信号实行压缩
2. 数字声音
(1) 声音信号的数字化
方法:
1. 取样(sampling)
2. 量化(quantization,AD conversion )
3. 编码(encoding)
Sampling
* 原理:用一定速率的离散取样序列可以代替一个连续的频带有限的信号而不丢失任何信息.
* Nyquist sampling theorem “For lossless digitization, the sampling rate should be at least twice the maximum frequency response.”
Quantization
* what ? 使用有限位数的整数来近似地表示实型量的样本值,也称为 A/D conversion。
* 量化精度:用多少个二进位来表示每一个样本,也称为量化位数。声音信号的量化位数一般是 4,6,8,12或16 bits 。
* 量化位数的多少决定了动态范围和噪声大小.
数字化声音举例
质量 采样频率(kHz) 样本精度(bit) 声道数 数据率 频率范围(Hz)
电话 8 8 1 8 KB/s 200~3,400
AM 11.025 8 1 11.0 KB/s 50~7,000
FM 22.050 16 2 88.2 KB/s 20~15,000
CD 44.1 16 2 176.4 KB/s 20~20,000
DAT 48 16 2 192.0 KB/s 20~20,000
声音数字化表示的优点
* 存储时重放性能好,复制时没有失真;
* 传输时抗干扰能力强,
* 可编辑性好, 易处理,
* 能进行数据压缩,
* 容易与其它媒体结合(集成),
* 可能自动提取元数据(bits about bits)
(3) Reconstruction of Sound
1. Decoding
2. Dequantization ( D/A conversion )
3. Interpolation
重建声音的质量评价(客观法)
* 声音质量的客观度量主要用信噪比SNR(signal to noise ratio)来度量。
SNR=10 log10(s2/n2)
(其中,s为原始声音信号,n为原始声音信号与重建声音信号的误差信号)
* 计算并不复杂,但与人对声音的感知不完全一致。
重建声音的质量评价(主观法)
分数 质量级别 失真程度
5 优(Excellent) 无察觉
4 良(Good) (刚)察觉但不讨厌
3 中(Fair) (察觉)有点讨厌
2 差(Poor) 讨厌但不反感
1 劣(Bad) 极讨厌(令人反感)
2.2 数字语音的编码与应用
内 容
1. 引言
2. 数字语音的波形编码(基于音频数据的统计特性进行的编码)
3. 数字语音的参数编码 (基于音频的声学参数)
? 数字语音的混合编码
? 基于人的听觉特性进行的编码
6. 数字语音技术的应用
1. 引 言
压缩编码的必要性
? Wav文件的大小计算公式:
S=R(采样频率Hz )×D(录音时间)×r(量化位数(位)) ×声道数/8
s: 字节;R:HZ;D:录音时间S;r:量化位数bit
或者:WAV文件的字节数/每秒=采样频率(Hz)×量化位数(位) ×声道数/8
例如:S=44100×10×16/8×2B=1764KB
? Bitrate = sampling rate ×quant.bits × channel num.
例: telephone speech =8k × 8b × 1 = 64kbps
=8kB/s=28MB/h
? 对数字语音进行数据压缩的目的:
– 提高通信效率(降低传输带宽)
– 降低存储成本
压缩编码的可能性
? 声音信号中包含有大量的冗余信息,
? 可以利用人的听觉感知特性,
? 可以利用语音信号的生成机理,
Requirements for compression
– 码率(bitrate)
– 质量(quality : excellent, good, fair )
– 延时(time delay)
– 成本(cost)
语音压缩编码方法分类
? Perception model-based compression(波形编码)
– benefits : generic
– drawbacks : highest compression rates are difficult to achieve
– Examples : PCM, ADPCM, Subband
? Production model-based compression(参数编码,源编码)
– benefits : highest possible compression
– drawbacks : signal source(s) must be know
– Examples : vocoder
? Hybrid compression(混合编码)
– Examples : CELP
语音编(译)码器的3种类型
? 波形编译码器(waveform codecs)
? 音源编译码器(source codecs)
? 混合编译码器(hybrid codecs)
2. 数字语音的波形编码
波形编译码器(waveform codecs)
? 算法比较简单
? 数据速率在16 kbps以上
? 声音质量相当高
? 很成熟,有一系列国际标准:
CCITT G.711 PCM 64kb/s
CCITT G.721 ADPCM 32Kb/s
CCITT G.726 ADPCM 48, 32, 24, 16 Kb/s
? 已广泛应用
(1)话音频率脉冲编码调制 (CCITT G.711)
Pulse Code Modulation (PCM) of Voice Frequences)
? 处理过程:
? 分析:方法简单,质量好,易实时处理。
数据量较大 (64kbps)。
对数变换 Y(n)=ln(X(n))
? 目的 : 适应听觉的非线性特性;压缩数据。
2 种压扩算法
? Μ律压扩(companding)算法(北美和日本等地区)
? A律压扩算法(欧洲和中国大陆等)
压扩算法的实现
线性码(12位) PCM码(7位)
0 0 0 0 0 0 0 W X Y Z a 0 0 0 W X Y Z
0 0 0 0 0 0 1 W X Y Z a 0 0 1 W X Y Z
0 0 0 0 0 1 W X Y Z a b 0 1 0 W X Y Z
0 0 0 0 1 W X Y Z a b c 0 1 1 W X Y Z
0 0 0 1 W X Y Z a b c d 1 0 0 W X Y Z
0 0 1 W X Y Z a b c d e 1 0 1 W X Y Z
0 1 W X Y Z a b c d e f 1 1 0 W X Y Z
1 W X Y Z a b c d e f g 1 1 1 W X Y Z
PCM 的应用
? 应用于数字声音的表示与存储:
CD-DA(CD唱片),DAT
(44.1 KHz x 16 bit x 2)
? 应用于数字声音的编辑处理(多媒体计算机)
? 应用于声音的传输(通信):
长途电话 (8 KHz x 8 bit x 1),
时分多路复用TDM (time-division multiplexing)
数字语音传输的多路复用技术
(1) 频分多路复用FDM (frequency-division multiplexing) .
– 把传输信道的频带分成好几个窄带,每个窄带传送一路信号。
(2) 时分多路复用TDM (time-division multiplexing)
– 把传输信道按时间来分割,为每个用户指定一个时间间隔(time slot),每个时间间隔专门用于传输相应用户的声音信号。
(3) 码分多路复用(CDM)
(4) 波分多路复用(WDM)
二次时分多路复用
多次复用的数据传输率
线路速率等级 T1 T2 T3 T4
话路数目 24 96 672 4032
传输率(Mb/s) 1.544 6.312 44.736 274.176
线路速率等级 E1 E2 E3 E4
话路数目 30 120 480 1920
传输率(Mb/s) 2.048 8.448 34.368 139.264
(2) Adaptive Differential PCM(ADPCM)
(CCITT G.721)
? 原理:
– 声音信号具有很强的相关性,可从巳知信号耒预测未知信号, 即使用过去的样本值预测下一个输入样本的值,使实际样本值和预测值之间的误差总是最小。
– 利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值,
? 效果:量化位数可以显著减少,从而降低了总的码率。
自适应脉冲编码调制(APCM)
? 根据输入信号幅度大小来改变量化阶大小。
? 可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。
差分脉冲编码调制DPCM
? 利用样本与样本之间存在的信息冗余进行编码
? 根据过去的样本去估算下一个样本的幅度大小,然后对实际信号值与预测值之差进行量化编码。
ADPCM 小结
? PCM话音质量 4.5级
? ADPCM话音质量 4.34级,码率降低一倍(32 kbps)。
? ADPCM应用:
– 数字语音通信
– 多媒体应用中的语音(解说词)
(3) Sub-band coding (子带编码)
? 基本原理:
– 利用带通滤波器(BPF)把声音信号按频率范围划分成几个组成部分(子频带,子带)
– 低频部分能量较集中,量化精度要高,取样频率可稍低。
– 高频部分是摩擦音、噪音,量化精度可低些,但取样频率要稍高。
– 不同子频带作不同的ADPCM编码处理,然后再复合在一起。
2. 数字语音的参数编码
参数编码(源编码)
? 思想: 编码时从话音波形信号中提取生成话音的参数,解码时使用这些参数通过语音生成模型, 重构出话音。
? 语音生成模型(声源--滤波器模型)
– 发声器官的组成:
? 声源
– 喉:振动源
– 肺:能源
? 声道
– 从喉到口腔,到唇(谐振源)
– 鼻腔(谐振源)
? 发射机构
– 包括唇、齿、舌、面颊
Vocal schematic
语音生成的数学模型
编码: 从已知信号中提取参数
? 语音过程是一个近似的短时(10~30ms)平稳随机 过程,参数变化比较慢, 因此, 可以以20ms(其中有20x8=160个样本)作为一帧,每一帧内的所有信号近似地满足同一模型,因此每一帧语音可以用一组参数表示:
– 浊音还是清音(1位)
– 浊音的基频(即音调周期)(6位)
– 音源的幅度(5位)
– 线性滤波器的参数(10个参数,每个参数6位,共60位)
? 总码率为:(1000/20) x 72 bits = 3600 bps = 3.6kbps
? 参数既可在时域,也可以在频域确定,由编码器完成.
线性预测编码LPC
(linear predictive coding)
? 对声音波形的编码实际就转化为如何提取语音生成模型的参数,经典的方法是线性预测编码LPC。
? 每一个样本都可用过去p个样本的线性组合来预测:
xpre(n) = - [a1x(n-1)+a2x(n-2)+…+apx(n-p)]
线性预测编码LPC
? 预测误差为:
e(n) = x(n) - xpre(n) = x(n) + a1x(n-1)+a2x(n-2) +…+apx(n-p)
? 问题:在给定的时间范围[n0,nk],怎样选择系数ai 使得预测误差e(n)的平方和为最小?
即 E = e(n0)2 +, …. , + e(nk)2 最小
? 对a1, a2, …, ap 分别求偏导数得到一组差分方程:
dE/da1 =0, dE/da2 =0, ….. , dE/dap =0,
? 求解差分方程组,可得到系数 ai 的值。
参数编码器的解码
? 接收端使用LPC分析得到的参数之后,通过语音合成器重建语音。
? 合成器实际上就是一个语音生成系统。
波形编码与参数编码的比较
波形编码 参数编码
1 码率高 码率低
2 音质好 音质差
3 算法简单 算法复杂
4 可处理任何声音信号 仅处理语音信号
? 参数编码的数据率在2.4 kbps左右,产生的语音虽然可以听懂,但其质量远远低于波形编码。尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上.
4. 数字语音的混合编码
混合编码
? 思路: 使用合成-分析法AbS(Analysis-by-Synthesis)来改进参数编码, 其中声道滤波器模型仍与LPC编码器中的相同,但不使用两个状态(有声/无声)的模型来寻找滤波器的输入激励信号,而是企图寻找这样一种激励信号,使得用这种信号激励产生的波形尽可能接近于原始话音的波形。
合成-分析法AbS
? 通过调节激励信号u(n)可使语音输入信号s(n)与重构的语音信号误差最小。这就是说,编码器通过“合成”许多不同的近似值来“分析”输入话音信号,这也是“合成-分析编码器”名称的来由。
等间隔脉冲激励RPE
(regular-pulse excited)
? 使用固定间隔的脉冲,编码器只需要确定第一个激励脉冲的位置和所有其他脉冲的幅度,例如每5 ms可使用10个脉冲,数据率在10 kbps左右。
? GSM(Global System for Mobile communications)移动电话使用的是一个带长期预测的简化的RPE编译码器,它把20ms一帧(160×16比特)的PCM波形数据压缩成264比特的GSM帧,压缩后的数据率为13.2 kbps.
CELP 编(译)码器
? CELP算法,1985提出。它使用的激励信号是由一个矢量量化大码簿的表项给出,还有一个增益项用来扩展它的功率。典型的码簿索引有10位(1024个表项),增益用5位表示。
? 在CELP基础上制定的话音编码标准:
– 美国的 DoD的 4.8 kbps codec
– CCITT的“low-delay 16 kbps codec
? 近年来对运行在4.8 kbps以下的编译码器作了大量的研究工作,其目标是开发运行在2.4 kbps或者更低数据率下的编译码器。
CELP 编(译)码器
小结:语音压缩编码的标准与应用
5. 数字语音技术的应用
数字语音技术的应用
? Nontelephony application
– multimedia title
– speech synthesizer
– speech input
– DAB
? Telephony application(CTI)
– voice messaging
– call processing
– interactive voice response ( IVR )
– IP phone (VoIP)
什么是CTI ?
? CTI(Computer Telecommunication Integration)= 计算机+电信
? 目的: 提高效率,降低成本,扩大业务,增加收益。
? 思路:
– 把计算机的信息处理和控制能力与通信相结合
– 把计算机的信息存储和数据管理功能与语音通信相结合
– 把计算机网络的数据通信功能(如电子邮件、文件传输等)与语音通信相结合
CTI技术的主要应用
> 交互式语音应答(Interactive Voice Response, IVR);
> 呼叫中心(Call Center);
> 统一消息处理系统;
> IP电话、IP传真等;
> 其它增值业务。
交互式语音应答
? Interactive Voice Response,简称IVR,又叫做“自动声讯服务”
? 服务模式:
交互式语音应答
? 效果:方便、高效、低成本。
? 用途举例:电信局查询话费,打开语音信箱,业务咨询,用户缴费,故障报修等,航空公司的航班查询,银行帐目查询等。
? 关键技术:
– 电话与电脑的接口
– 语音合成
– 输入效率
呼叫中心(Call Center)
? 呼叫中心又叫做“客户关照中心”,特点是支持多种接入方式、提供多方位的信息服务。
Call Center的系统组成
Call Center的工作过程
? 客户拨打呼叫中心的电话
? ACD播送问候语,判断话务员有无空闲,如果没有空闲,则把呼叫进行排队,或请客户挂断等候回叫。重要的用户可以优先处理。
? VRU与客户进行交互,了解服务要求,需要时通过ACD转接到空闲的话务员,同时进行号码识别,调出数据库中该客户的信息,转送到话务员的屏幕上。
统一消息处理系统
? 功能:
– 将所有类型的消息(语音、电子邮件、传真和数据等)接收后统一存储, 统一管理, 用户以一致的方式收看(收听),
– 自动记录通信情况,包括来电时间和日期、主叫电话号码、消息收看/收听情况等。
– 提供消息存档及管理功能。
– 提供传真点播(Fax on Demand)和语音点播(Voice on Demand)功能。
– 提供传真及语音广播功能 。
实现方案1(用户端集成)
实现方案2(统一数据库方式)
“统一消息”中的关键技术
? 新功能的设计
– 多语种提示(Multi-lingual Prompts)
– 多模式设置(Day/Night/Holiday mode)
– 分组“邮箱”(Group Mailboxes)
? 统一消息格式
? 消息管理
? 呼叫控制与管理
? 语音识别与语音合成
语音通信的QoS要求
在数据网上传输语音
IP电话(VoIP)
? 原理:
发话方的模拟语音,经过网关,将语音数字化,然后转换成IP数据包,绕开传统的电信网络,利用TCP/IP网络(Internet、Intranet、ATM、帧中继)进行数字语音的传送,到达目的地网关后,再将IP数据包还原为模拟语音信号,经过本地电话网,接通受话方。
IP电话原理
VoIP Implementation Agreement(1.0)
? 以 ITU 的H.323系列协议为基础
– H.225信令协议 规定了怎样注册、授权及H.323 实体与H.323守门器之间状态信息的信令标准。
– Q.931和H.225 信令协议各自规定了呼叫建立的协商机制、语音编解码规则、会话参数等标准。
– H.245 为呼叫信令控制通道制订了IETF 实时控制协议(RTCP),IETF 实时传输协议(RTP, RFC1889)则规范了主叫者与被呼者之间的全双工多媒体( 语音)通道。
– VoIP 协 议 目 前 仍 处 于 完 善 过 程 中,
VoIP Implementation Agreement(1.0)
IP电话的关键技术
? 语音压缩编码
G.729 (CS-ACELP) 8kbps , 延时小 , 4.2分
(Conjugate Structured-Algebraic Code Excited LP)
? 静噪抑制技术(60%左右)
? 回声消除技术
? 抖动缓冲技术
? 语音优先技术(资源预留协议RSVP)
? 前向纠错技术(Forward Error Correction, FEC)
CTI应用开发
? 计算机对电话通信的控制和处理
– 呼叫处理。摘、挂机(应答、开始和结束呼叫);挂机检测;发送叉簧信号;拨字符串;检测是否有传真呼入等。
– 语音处理。语音处理对发送和接收的语音信息进行处理和传输,其功能主要有语音的存储转发、数据的压缩与解压缩,甚至还可能包括:脉冲数字检测、语音识别、语音合成等。
CTI的硬件支持(语音卡)
? 具有基本的呼叫处理和语音处理功能,如呼叫处理分析确定转接或外拨呼叫的相应结果、摘挂机的监测、呼叫进程监视、录制音频信号存入文件并播放音频文件、录放音时的出错处理、语音识别等。
? 可以支持不同类型(模拟接口和数字接口)、不同速率、不同通信协议(PSTN,SS7,TCP/IP, ATM等)的通信线路。
? 数字信号处理器DSP是语音卡的核心。
CTI的软件开发工具
微软公司的电话应用程序接口TAPI
? 已嵌入到微软的各种操作系统之中。
? 对网络的连接进行了抽象,透明地支持公用电话网(PSTN)、ISDN网还是IP网络。
? 支持Unicode,通用串行总线(USB)以及ActiveX控件,
? 为开发人员提供了建立CTI应用所必须的各种工具,例如ACD(自动呼叫分配)、代理、分组和路由功能等。
CTI的软件开发工具
Novell和AT&T的电话服务应用程序接口TSAPI
? TSAPI是最早的电话应用程序接口,其主要任务是将程控交换机与Netware网络集成在一起。TSAPI支持所有主要的操作系统,包括Windows,OS/2和Unix。
CTI的软件开发工具
Sun公司的Java 电话应用程序接口JTAPI
? Sun公司与Intel、Lucent、Nortel 和Novell一起开发了JTAPI规范。JTAPI本质上是一套可重用的语音呼叫控制对象,应用程序能够运行在任何带有Java虚拟机和JTAPI子系统的计算机上,独立于任何操作系统和硬件平台,从而支持跨平台的应用。它定义了一套类库,包含一套电话功能和扩充功能,例如呼叫路由、在多个呼叫者之间建立电话会议等。
完
高保真声音的编码与应用(1)
(MPEG-1 audio, MPEG-2 BC, MPEG-2 AAC)
内 容
1 听觉系统的感知特性
2 MPEG-1 Audio(11172-3)
3 MPEG-2 Audio(13818-3)
4 MPEG-2 AAC (13818-7)
1 听觉系统的感知特性
高保真声音的压缩编码
? 高保真声音指的是10 Hz~20,000 Hz范围里的所有可听声音.
? 高保真声音的压缩编码不但依据波形本身的相关性,而且利用人耳的听觉特性,使用“心理声学模型(psychoacoustic model)”来达到压缩数据的目的。
? 高保真声音的压缩编码包括: MPEG-1 Audio、MPEG-2 Audio , MPEG-2 AAC , Dolby AC-3等.
听觉系统对声音的感知特性(1)
? 对响度的感知
– 听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,
– 听觉域值的大小随声音频率的改变而改变,各个人的听觉域值也不同。大多数人的听觉系统对2 kHz~5 kHz之间的声音最敏感。一个人是否能听到声音取决于声音的频率,以及声音的强度是否大于该频率对应的听觉阈值。
“听阈-频率”和 “痛阈-频率”曲线
? 听阈是随频率变化的
? 人耳对不同频率的敏感程度差别很大
? 人耳对2-4 kHz范围的声音信号最为敏感
听觉系统对声音的感知特性(2)
? 对音调的感知
人们对音调(音高)主观感觉, 单位则是“美” .
主观感觉的音调与频率之间并不是线性关系.
听觉系统对声音的感知特性(3)
? 听觉掩蔽特性
– 声音的响度不仅取决于自身的强度和频率,而且也与同时出现的其它声音有关。
– 各种声音可以互相掩蔽,一种声音的出现可能使得另一种声音难于听清。
– 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking tone),后者称为被掩蔽声音(masked tone)。
听觉系统对声音的感知特性(3)
? 1 频域掩蔽
– 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽。例如,同时有两种频率的纯音存在,一种是1000 Hz的声音(60dB),另一种是1100 Hz的声音(42dB),在这种情况下,1100 Hz的声音就听不到。
– 弱纯音离强纯音越近就越容易被掩蔽。
不同纯音的掩蔽效应曲线
①在250 Hz、1 kHz、4 kHz和8 kHz纯音附近,对其他纯音的掩蔽效果最明显,
②低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。
听觉系统对声音的感知特性(3)
? 2 时域掩蔽
– 在时间上相邻的声音相互之间也有掩蔽现象,称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking)
– 时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约5~20毫秒,而滞后掩蔽可以持续50~200毫秒。
时域掩蔽特性
2 MPEG-1 Audio(11172-3)
MPEG-1音频编码的性能
(1) 编码器输入: 32kHz、44.1kHz或48kHz取样的, 量化精度为16位的PCM编码的20-20kHz数字声音信号
编码器输出: 32-384 kbps的MPEG-1格式的比特流
(2) 支持4种不同模式:
– 单通道,
– 双通道(二个独立的声音信号编码在一个比特流中),
– 立体声(左、右声道的信号编码在一个比特流中),
– 联合立体声(利用左、右声道信号的相关性,降低输出比特流的码率)。
MPEG-1音频编码的性能
(3) 提供三个独立的压缩层次:
分 层 复杂度 延迟时间(ms) 应用
Layer 1 较简单 19-50 小型数字合式磁带
Layer 2 中等 35-100 数字音频广播 ,VCD等
Layer 3 最复杂 59-150 ISDN上的声音传输
(4) 编码后的数据流支持循环冗余校验CRC(cyclic redundancy check)。
(5) 支持在数据流中添加附加信息。
MPEG-1音频编码的原理
? 将audio信号分割成32个不同的子频带,
? 充分利用听觉系统的掩蔽特性(主要是利用频域掩蔽特性), 保留能被感知的信号而扔掉被掩蔽的信号,
? 计算出以频率为自变量的噪声掩蔽阈值(masking threshold),按照信掩比SMR来决定分配给子带信号的量化位数,控制和调节各个不同子频带的量化编码.
噪声掩蔽阈值(masking threshold)
MPEG-1编码器的结构
MPEG-1解码器的结构
MPEG-1音频压缩的层(layer)
? MPEG-1音频压缩分为3个不同的层, 基本模型相同,层号越高,性能越好,也越复杂。高层次的解码器能对所有低层比特流数据进行解码。
? 在保持CD立体声音质的前提下,3个层次的编码效率(压缩倍数)和输出码率:
编码器层号 压缩方法 压缩倍数 输出码率
层1(Layer 1) MUSICAM 1: 4 384 kbps
层2(Layer 2) MUSICAM 1: 6-8 256-192 kbps
层3(Layer 3) ASPEC 1: 10-12 128-112 kbps
注 解
? MUSICAM(Masking pattern adapted Universal Subband Integrated Coding And Multiplexing)
声音掩蔽特性自适应的通用子带综合编码和复合技术
? ASPEC(Adaptive Spectral Perceptual Entropy Coding of high quality musical signal)
高质量音乐信号自适应谱感知熵编码(技术)
MPEG-1音频压缩(层 1 )
? 多相滤波器组把输入信号变换到32个子带中去, 子带是线性划分的;
? 每帧包含384个样本,32个子带分别输出12个样本;
? 心理声学模型仅使用频域掩蔽特性;
? 以12个样本为一组,“量化和编码器”根据SMR确定每个子带的比特分配,然后按比特分配进行量化和编码。
? 被高度掩蔽的子带不需要进行编码。
MPEG-1音频压缩(层 2 )
? 每帧有1152个样本, “量化和编码器”对一个子带中的三个样本组(3x12个样本)一起进行编码;
? 除了使用频域掩蔽特性之外还利用了时间掩蔽特性;
? 在低、中和高频段对比特分配作了限制(低频段子带:4位,中频段子带:3位,高频段子带:2位),对比例因子和量化样本值的编码也更紧凑。
MPEG-1音频(层1,2)编/解码器的结构
MPEG-1音频的Frame结构
? 帧的作用:帧是音频数据的组织单位,用于同步、纠错,也有利于存取、编辑。
? 格式: Header + 音频数据 +(纠错码)
? Header的内容
1.同步字 6.取样标志
2.算法标志 7.缓冲标志
3.layer标志 8.模式标志
4.纠错标志 9.加重标志
5.速率标志 10.版权标志
MPEG-1音频(层1)的帧结构
MPEG-1音频(层2)的帧结构
MPEG-1音频帧中的同步头
MPEG-1音频压缩(层 3 )
? 使用比较好的临界频带滤波器,把声音频带分成非等带宽的子带,
? 心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外,还考虑了立体声数据的冗余,
? 使用了霍夫曼(Huffman)编码器。
多相滤波器组
? 多相滤波器组把输入信号变换到32个频域子带中去。子带的划分是非线性的,因为人耳的听觉特性是以“临界频带”来划分的,在一个临界频带之内,很多心理声学特性都是一样的。
MPEG-1 声音(层3)编码原理
? 使用ASPEC(Adaptive Spectral Perceptual Entropy Encoding)和OCF(Optimal Coding In The Frequency domain)导出的算法,
? 使用了改进离散余弦变换MDCT(modified discrete cosine transform),对层1和层2的滤波器组的不足作了一些补偿。MDCT把子带的输出在频域里进一步细分, 以达到更高的频域分辨率。
MPEG-1 声音(层3)的
编码器和解码器结构
在各种速率下MP3的性能比较
20-20kHz的全频带数字声音(即44.1kHz取样的, 量化精度为16位的数字声音),若采用MP3编码,在各种不同数据速率下其输出(简称为MP3数字声音)所能达到的声音质量:
数据率( kb/s) 压缩倍数 声音质量 声音带宽(kHz) 声道
8 96:1 电话 2.5 单
16 48:1 优于短波 4.5 单
32 24:1 优于调幅广播 7.5 单
56-64 26-24:1 相当调频广播 11 立体
96 16:1 接近CD 15 立体
112-128 14-12:1 CD > 15 立体
MP 3 音 乐
? 一种采用MPEG-1层次3编码标准的质量接近或达到CD水平的数字音乐。
? 每秒112kb-128kb的码率(每分钟约1MB)进行压缩编码。
? MP3能以10倍左右的比率降低高保真数字声音的存储量,使一张普通CD光盘上可以存储大约100首MP3歌曲。
? MP3支持声音和数据的复合, 播放声音的同时, 可以在播放器上显示相关的文本信息.
? MP3的软件播放器: WinAMP
MP 3 硬件播放器
Diamond公司的 Rio PMP600
? 内置 32MB 闪存, 可储存1小时(?)的高质量的音乐, 可扩展的内存,
? 1 节 5 号碱性电池可连续使用 11 小时
? 支持 Mac和 PC, USB 接口,可高速下载
? Rio 600支持新的数码音频的格式
– Windows Media (WMA)
– MP3 最初的和最流行的格式
? 时尚的人体工学设计
? Hi-Fi (高保真)耳机
MP 4 ?
? ? 是一种.exe文件, 不需要专门的播放器,压缩比比MP3高126%
? ? 是一种类似于MP3的应用于视频压缩编码的技术, 适合在互连网上传输, 码率大约为: 350M/h, 即100k/s .
? ? MIT为MPEG-4开发的一种结构化声音编码技术(structured audio)
MPEG-4 Structured Audio (MP4 Structured Audio)
RealAudio
? 由RealNetworks公司开发的一种低码率的可在网络上传输的数字音频编码.
? 使用先进的压缩技术,码率从5kbps-80kbps. 一般为16kbps-20kbps.压缩编码的时间也仅仅是MP3的1/6左右。
? 使用专用的服务器软件RealServer配合WebServer进行传送,确保每一个流有16kbps或20kbps的带宽。
? 能支持网上实时广播(直播), 用户可以边下载、边播放。
3 MPEG-2 Audio(13818-3)
MPEG-2声音的压缩编码
(1) MPEG-2 Audio(ISO/IEC 13818-3),或者称为MPEG-2多通道(Multichannel)声音,又称为MPEG-2 BC (Backward Compatible)。
(2) MPEG-2 AAC (ISO/IEC 13818-7, Advanced Audio Coding),也称为MPEG-2 NBC(Non-Backward-Compatible)标准。
MPEG-2 Audio对MPEG-1的扩充
– 增加了16 kHz, 22.05 kHz和24 kHz采样频率,
– 扩展了编码器的输出速率范围,由32~384 kbps扩展到8~640 kbps,
– 增加了声道数,支持5.1声道和7.1声道的环绕立体声声。
– MPEG-2还支持Dolby AC-3(Audio Code Number 3)编码。
MPEG-2声音与其它声音的对比
参数 PCM Dolby AC-3 MPEG-2 Audio MPEG-1 Audio
取样 48/96 32/44.1/48 16/22.05/24/ 32/44.1/48
频率 32/44.1/48
样本 16/20/24 压缩(16) 压缩(16) 16
精度
码率 6.144Mbps 448 kbps 8~640 kbps 32~384 kbps
最大 8 5.1 5.1/7.1 2
声道数
Dolby AC-3编码技术
? AC-3采用了频谱分析技术,非线性子带带宽分配、动态时域/频域带宽分配、心理声学模型和多声道耦合技术,具有高的数据压缩率和很低的失真度。杜比AC-3有完全独立的6个声道;全频带的左、右、中、左环绕、右环绕和一个低于120Hz的超低音声道,因此又称作5.1声道。
AC-3的优点
(1) 具有很宽的动态范围,高的信噪比。其频响超过20kHz。码率从32kbps-640kbps。
(2) 环绕立体声,独立的5声道输出,出色的声音定位能力。
(3) 备有超重低音输出,独立录音。超低音效果气势雄伟。
(4) 编码中使用了自适应变换编码和心理声学特性,失真极小, 压缩幅度大。
(5) 利用整体比特分配,多种策略导向和声道耦合技术实现大幅度压缩。
(6) 具有语音参考平衡、动态范围压缩和多声道模式匹配接口,更适合多种场合的应用和声音氛围的营造。
AC-3 编码器
MPEG-2的环绕立体声
MPEG-2 Audio的“5.1环绕立体声”也称为“3/2-立体声加LFE”, 放音现场前方有3个喇叭 (左、中、右3个声道),后面有2个喇叭(2个环绕声道),“.1”指LFE(low frequency effects),即低频音效加强声道。
MPEG-2 Audio的帧结构
MPEG Audio的应用
? 优点:
– excellent audio quality performance
– wide range of bitrates
– numerous configurations
? 四 大应用领域:
– broadcasting,
– storage,
– multimedia
– telecommunication
MPEG Audio的应用
? 1994, ITU-R 的 BS.1115, 使用MPEG Audio 作为音频广播和视频广播的标准;
? 1995, DAVIC (Digital Audio Visual Council) 指定用MPEG Audio作为单声道或立体声声音广播;
? 1995, ETSI (European Telecommunication Standardisation Institute) , DAB Standard;
? 1995, ITU-T 的 J.52 , 高质量声音节目的数字传送使用(1-6) x 64kbps的MPEG 声音.
MPEG Audio的典型应用
> Consumer Recording (DCC)
> Disc based storage (CD-I, CD-Video)
> DVD (Digital Versatile Disc)
> Disc based Editing, audio broadcasting station automation
> Solid State Storage Audio
> Cable and satellite TV (e.g. DVB, USSB, DirecTV, EchoStar)
> Cable Radio
MPEG Audio的典型应用(续)
> Digital Audio Broadcasting (e.g. ADR, DAB, US-Digital Radio, Worldspace Radio)
> Internet Radio
> Computer based Multimedia
> Contribution Links
> Distribution Links
> ISDN Links
> Stand-alone electronic information systems
4 MPEG-2 AAC
(Advanced Audio Coding)
(ISO/IEC 13818-7 )
MPEG-2 AAC的性能
? 取样频率: 从8 kHz到96 kHz,
? 编码器输入: 单声道、立体声和多声道的声音。
? 最多可支持: 48个主声道、16个低频音效通道LFE (low frequency effects)、16个配音声道(也称为多语言声道) 和16个数据流。
MPEG-2 AAC的性能
? 是一种非常灵活的声音感知编码,主要使用听觉系统的掩蔽特性来减少数据量,并通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。
? 在压缩比为11:1(即每个声道数据率为44.1× 16/11 = 64kbps),5声道的总码率为320 kbps的情况下,重建声音与原始声音之间几乎无区别。
? 与MPEG的层2相比,压缩率可提高1倍,且质量更好,与MPEG的层3相比,在质量相同的条件下码率仅为70%。
MPEG-2 AAC编码器
MPEG-2 AAC编码器的分类(档)
(1) Main Profile,除了“增益控制”之外,使用了图中的所有模块,能提供最好的声音质量,但对存储容量和处理能力方面的要求比较高。
(2) LC Profile(Low Complexity Profile ),不使用预测模块和预处理模块,时域噪声整形 (temporal noise shaping ,TNS)滤波器的级数也有限,声音质量比Main Profile质量低,但对存储容量和处理能力的要求可明显降低。
(3) SSR Profile(Scalable Sampling Rate Profile ),使用增益控制对信号作预处理,不使用预测模块,TNS滤波器的级数和带宽也都有限制,因此它比基本配置和低复杂性配置更简单,能用来支持可调整的取样频率。
MPEG-2 AAC 解码器
MPEG-2 AAC 与 Dolby AC-3
? AAC使用了比AC-3更加先进的算法及工具, 如分辨率更精细的滤波器组, temporal noise shaping, backward adaptive linear prediction, joint stereo coding techniques and Huffman coding of quantized components,
? 比AC-3更加灵活, 如取样频率和码率的范围,声道数目,多语言能力, 15个嵌入数据流等.
何时使用MPEG-2 AAC 而不使用 MPEG-2 BC
? 在不要求向后兼容的所有情况下, 或者在联播的情况, 使用MPEG-2 AAC.
? MPEG-1 二通道解码器可以对MPEG-2 BC 的五通道比特流进行解码, MPEG-2 AAC 没有如此要求, 因此, 它在320kbps提供的声音, 质量还略好于MPEG-2 BC在640kbps所提供的声音.
测试结果
? Broadcast quality at 320 kbit/s for 5 channels
(better than MPEG-2 Layer II at 640 kbit/s)
? Broadcast quality at 128 kbit/s stereo
? Comparison to other codecs:
AAC 96 kbit/sec stereo comparable to
– AC-3 at 160 kbit/s
– Layer II at 192 kbit/s
– Layer III at 128 kbit/s
? Very low bitrates (comparison within MPEG):
AAC best audio coder at bitrates down to 16 kbit/s
for mono and stereo
第 4 节
高保真声音的编码与应用(2)
(MPEG-4 audio)
内 容
1 概述
2 通用声音编码器
3 自然语音编码器
4 MPEG-4声音的应用
1. 概 述
什么是MPEG-4 Audio?
* MPEG-4 不是一个或一小组压缩方案,而是什么都能完成的一个完整的toolbox, 包括从低码率语音编码到高质量声音编码或音乐合成.工具箱中的工具可以组合成各种声音编码算法.
* 编码的对象除了自然声音信号之外,还包括合成声音(合成语音和合成音乐).
* MPEG-4提供了许多新功能,实现了把MPEG-1,2从线性存储(或流结构)结构到对象结构和presentation rendering的转移.
MPEG-4 Audio的编码对象
(1)自然音频信号的编码(2kb/s到64kb/s码率)
(2 )合成音频信号的编码
* 结构化音频( 包括乐器数字接口MIDI)
* 文语转换(TTS)
* 还包括一些用来增强音频合成效果和产生3D 环绕声音的工具
MPEG-4提供的特殊功能(1)
> 播放速度控制功能,允许在解码过程中改变播放的速度而不影响信号的音调。
> 音调(pitch)变化功能,允许在编码和解码过程中改变信号的音调而不改变播放的速度。
> 使解码器能避免或隐蔽由于传输误码所造成的音频失真.
> 可调整性,可分级性(scaleability).
MPEG-4提供的scalability
> Bit rate scalability,允许从一个码流中分解出另一个码率较低的码流,后者依然能代表原来信号的意思。分级过程既可以在传输期间进行也可以在解码端进行。
> Bandwidth scalability,这是码率可分级的特例,码流中的不同部分对应着信号频谱中的不同部分, 因此在传输或解码期间可丢弃一部分频带(位流)。
MPEG-4提供的scaleability
> Encoder complexity scalability,允许选择不同复杂度的编码器生成有效的有意义的位流。
> decoder complexity scalability ,允许选择不同复杂度的解码器对给定的一个码流进行解码,声音质量与使用的编码器/解码器复杂度有关。
各种码率范围使用的codecs
自然声音编码的各种算法工具
* HVXC Low rate clean speech coder
* CELP Telephone speech / wideband speech coder
* GA General Audio coding for medium and high qualities
* TwinVQ Additional coding tools to increase the coding efficiency at very low bitrates
2. 通用声音编码器
通用声音编码器 (AAC based)
* covers the bitrate range of 16 kbit/s per channel up to bitrates higher than 64 kbit/s per channel;
* supports 4种对象类型: AAC Main, AAC LC, AAC SSR, AAC LTP ;
* remains backwards compatible to MPEG-2 AAC,
* 支持bitrate scalability
MPEG-4 通用声音编码器的方框图
通用声音编码器对AAC的扩充
* Perceptual Noise Substitution (PNS)
* Long Term Prediction
* TwinVQ Coding Core
* Bit Slice Arithmetic Coding (BSAC) (v2)
* Low Delay AAC (v2)
通用声音编码器的基本特点
* High frequency resolution filterbank-based coder (1024 lines MDCT with 50% overlap)
* 1:8 block switching (8 *128 lines MDCT)
* Non-uniform quantizer
* Noise shaping in half critical bands
(scalefactor bands)
* Huffman coding of scalefactors and spectral coefficients
通用声音编码器的先进编码工具
* Window shape adaptation
* Temporal noise shaping (TNS)
* Gain control (SRS profile only)
* Backward adaptive prediction
通用声音编码器联合立体声工具
* Mid/Side stereo (MS) per scalefactor band
* Intensity stereo coding between channel pairs
* Coupling channel(s)
其它:
* Flexible bitstream format for up to 48 audio channels, up to 16 Low Frequency Enhancement (LFE) channel(s)
Transform-Domain Weighted Interleave VQ
Background:
* Desire audio coding at extremely low bitrates (6 kbit/s)
* CELP speech coders do not perform well for music
TwinVQ
* 作为一个附加的核心工具
* 充分地集成在 MPEG-4 AAC 编码系统中
* Uses same spectral representation as AAC coder
* Makes use of other MPEG-4 tools
(e.g. LTP, TNS, joint stereo coding)
* Possible core coder for ==> MPEG-4 scalable coding
Structure of TwinVQ
* Normalization of spectral coefficients:
* LPC envelope (overall spectral shape)
* Periodic component coding (harmonic components)
* Bark-scale envelope coding (additional flattening)
Structure of TwinVQ
* Vector Quantization (VQ) process:
* Interleaving of spectral coefficients into new sub-vectors
* Vector quantization
(two sets of codebooks, weighted distortion measure allows distortion control by perceptual model)
Structure of TwinVQ
通用声音编码器: 小结
* MPEG-4 General Audio Coding:
The “all-round” coding system among the MPEG-4 audio schemes, providing a set powerful tools
* Based on MPEG-2 Advanced Audio Coding kernel
* MPEG-4 enhancements
* add functionality
* improved coding efficiency
3. 自然语音编码器
MPEG-4自然语音编码:Overview
* bitrate : from as low as 2 kbit/s to 23.4 kbit/s.
* 2种输入语音信号带宽: 4 kHz and 7 kHz.
* 2种算法:
* HVXC (Harmonic Vector eXcitation Coding) , used at a low bitrate of 2 or 4 kbit/s.
* CELP (Code Excited Linear Predictive coding), higher bitrates than 4 kbit/s.
MPEG-4自然语音编码:Overview
* Excellent compression by using source model
* Linear Predictive Coding (LPC)
* Pitch or noise excitation
* Better compression than “general audio” coders
* only for “clean speech” from single talker
Speech Coders
* Harmonic Vector Excitation Coder (HVXC)
* Code Excitation Linear Prediction (CELP)
* Wideband CELP
HVXC 编码器方框图
CELP编码器方框图
自然语音编码器的规格
HVXC CELP
Sampling Freq. 8 kHz 8 kHz 16 kHz
Bandwidth (Hz) 300-3400 300-3400 50-7000
Bitrate [kbit/s] 2,4 3.85-12.2 10.9-23.8
Frame Size (ms) 20 10-40 10-20
Delay (ms) 33.5-56 15-45 15-26.75
Features Multibitrate Coding, Mulibitrate Coding,
Bitrate Scalability, Bitrate Scalability
Bandwidth Scalability
自然语音编码工具集
* HVXC 包含的工具:
* LSP (line spectral pair)
* VQ (vector quantization) tool
* harmonic VQ tool.
* CELP包含的工具;
* RPE (regular pulse excitation) tool, 用于宽带模式
* MPE (multipulse excitation) tool,
* LSP VQ tool
自然语音编码工具集
自然语音编码的3个新功能
* multibitrate coding (An arbitrary bitrate may be selected with a 200 bit/s step by simply changing the parameter values),
* bitrate scalable coding,
* bandwidth scalable coding.
Scalabilities in MPEG-4/CELP
Bit Rate Scalability
* Parameters coded using multi-stage VQ
* base layer + enhancement layer
* Enhancement layers can be stripped in
* server
* channel
* decoder
Demonstration
* 1.7 kb/s variable rate HVXC
* 12 kb/s CELP
* 24 kb/s Wideband CELP
4. MPEG-4声音的应用
什么是MPEG-4的 Audio Object?
* MPEG-4把声音对象定义为真实(realistic) 对象;
* 例如: A "real-world" audio object can be defined as an audible semantic entity (voice of one or more speakers, one or more instruments, etc.).
* 一个声音对象可以包含一个或多个声道;.
* 若干声音对象可以组合或混合在一起成为一个复合对象, 但声音对象无法轻易地分开成为几个子对象.
什么是Audio-Composition
* MPEG-4 contains mechanisms of handling the functionality of the compositor for both ‘Basic composition’ and ‘Advanced effects’.
* ‘Profile 1’ handles just synchronisation and routing.
* ‘Profile Full composition’ covers additionally mixing, tone control and sample rate conversion.
什么是Audio-Composition
* ‘Profile Advanced effects’ includes reverb, spatialisation, flanging, filtering, compression, limiting, dynamic range control etc..
* Profiles 1 and Full can both be handled within the system part of MPEG-4, i.e. outside the audio decoder. Profile Advanced effects is handled in the audio/SNHC compositor, the Structured Audio/Effects (SAFX) box.
Media Objects and Associated Operations
* Objects
* Natural audio
* Synthetic audio
* Control
* Operations on objects
* Synchronize
* Decode
* Compose into compound objects
* Present
* Interact
Advantages of Object Framework
* Each signal coded with most efficient coding system
* Natural
* Synthetic
* Composition of objects into audio scene
* Rate conversion
* Mix and Eq
* Effects
* Final mix is done in the terminal
System Overview
Audio Object Functionalities
* Signal compression
* Scalability
* bit rate
* signal bandwidth
* presentation rate
* encoder or decoder complexity
* Extraction and re-use
* Robustness to channel errors
MPEG-4 Audio的典型应用(1)
"Playing N-1 Audio Objects"
* Transmitting five full multichannel signals (Audio Objects) which represents five single instruments of an orchestra (quintet 五重奏). The listener listens to only four out of five instruments because he likes to play his instrument instead.
MPEG-4 Audio的典型应用(2)
"Multilingual"
* Frequently viewers/listeners to sport programmes are distracted心烦意乱的by the commentator’s voice. MPEG-4 will allow a "mix-minus" style of presentation where everything but the commentator’s voice is composited. Alternatively, one out of a variety of languages, in a multi-lingual service, can be included in the composition. Note that there is also a multilingual/multiprogramme capability in MPEG-2 AAC, and a multilingual capability in the MPEG-2 BC audio coding standard.
MPEG-4 Audio的典型应用(3)
* "Movie Application"
音频编码
总结
主要内容
? 1、数字化音频(声音数字化的步骤)
? 2、音频编码基础(编码的分类)
(一)基于音频统计特性的波形编码,基本算法(1)脉冲编码调制(2)瞬时压扩(3)自适应差值脉冲编码
(二)参数编码
(三)基于人的听觉特性的MPG1、 MPG2、MPG4编码。
? 3、音频的编码标准
声音数字化的步骤
? 声音数字化有两个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值。但那时并没有涉及如何进行量化。量化有好几种方法,但可归纳成两类:一类称为均匀量化,另一类称为非均匀量化。采用的量化方法不同,量化后的数据量也就不同。因此,可以说量化也是一种压缩数据的方法。
1.脉冲编码调制(PCM)
? 原理图:
均匀量化
? 采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。
? 均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化
非均匀量化
? 非线性量化的基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔 ,这种方法也叫也叫做非线性量化
μ?律压扩(companding)算法和A律压扩算法。
? 在非线性量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为μ律压扩(companding)算法,另一种称为A律压扩算法。
μ律压扩
? Μ 律(μ -Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系:
?
? 式中:x为输入信号幅度,规格化成 ;
? Sgn(x)为x的极性;
? Μ 为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取100 ? M ? 500。
? 由于μ 律压扩的输入和输出关系是对数关系,所以这种编码又称为对数PCM。具体计算时,用μ =255,把对数曲线变成8条折线以简化计算过程。
A律压扩
? A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系:
2.自适应差分脉冲编码调制
? G.711使用A律或μ律PCM方法对采样率为8 kHz的声音数据进行压缩,压缩后的数据率为64 kb/s。为了提高充分利用线路资源,而又不希望明显降低传送话音信号的质量,就要对它作进一步压缩,方法之一就是采用ADPCM。
2.1自适应脉冲编码调制(APCM)的概念
? 自适应脉冲编码调制(adaptive pulse code modulation,APCM)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。
? 改变量化阶大小的方法有两种:一种称为前向自适应(forward adaptation),另一种称为后向自适应(backward adaptation)。
前向自适应(forward adaptation),
? 根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(side information)传送到接收端。
后向自适应(backward adaptation)
? 从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息
2.2差分脉冲编码调制(DPCM)的概念
? 差分脉冲编码调制DPCM(differential pulse code modulation)是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。
? 差分脉冲编码调制的思想是,根据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量。此外,它还能适应大范围变化的输入信号。
DPCM方块图
2.3自适应差分脉冲编码调制(ADPCM)
? ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。
? 它的核心想法是:①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值,②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。
ADPCM方块图
? 接收端的译码器使用与发送端相同的算法,利用传送来的信号来确定量化器和逆量化器中的量化阶大小,并且用它来预测下一个接收信号的预测值。
G.721 ADPCM编译码器
? ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,CCITT为此制定了G.721推荐标准,这个标准叫做32 kb/s自适应差分脉冲编码调制——32 kb/s Adaptive Differential Pulse Code Modulation[7]。在此基础上还制定了G.721的扩充推荐标准,即G.723 —— Extension of Recommendation G.721 Adaptive Differential Pulse Code Modulation to 24 and 40 kb/s for Digital Circuit Multiplication Equipment Application,使用该标准的编码器的数据率可降低到40 kb/s和24 kb/s。
ADPCM编码器的简化框图
? CCITT推荐的G.721 ADPCM标准是一个代码转换系统。它使用ADPCM转换技术,实现64 kb/s A律或μ律PCM速率和32 kb/s速率之间的相互转换
? G.721 ADPCM编译码器的输入信号是G.711 PCM代码,采样率是8 kHz,每个代码用8位表示,因此它的数据率为64 kb/s。而G.721 ADPCM的输出代码是“自适应量化器”的输出,该输出是用4位表示的差分信号,它的采样率仍然是8 kHz,它的数据率为32 kb/s,这样就获得了2∶1的数据压缩。
ADPCM译码器的简化框图
? 还包含有均匀PCM到A律或μ律PCM的转换部分,以及同步编码调整(synchronous coding adjustment)部分。设置同步(串行)编码调整的目的是为防止在同步串行编码期间出现的累积信号失真。
第六节 声音的合成
内 容
1. 音乐合成与MIDI
2. 语音合成
3. MPEG-4中的合成声音
1. 音乐合成与MIDI
(1) 音乐的电子合成
(2) MIDI 规范
MIDI设备, MIDI端口,通信规程
若干基本概念
MIDI Message
标准MIDI文件(SMF)
(3) MIDI软件
MIDI简介
MIDI是Musical Instrument Digital Interface的首写字母组合词,可译成“电子乐器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始,MIDI已经逐步被音乐家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。 音乐在多媒体作品中的作用
1 背景填充作用
2 造型作用
3 提示作用
音乐的特殊性: 可符号表示, 可计算机合成。
(1) 音乐的电子合成
? 音乐使用乐谱描述,由乐器演奏而成。
? 乐谱的基本组成单元是音符(notes), 最基本的音符有 7个,所有不同音调的音符<128个。
? 乐音与噪音的区别:信号是否有周期性。
? 乐音的要素:音调、音色、响度和持续时间.
? 音符可以使用电子学原理合成出耒(生成相应的波形),各种乐器的音色也可进行模拟。
音乐的电子合成
? 电子乐器的组成:
– 演奏控制器, 进行实时演奏,驱动音源发声,同时也是电脑音乐系统的输入设备。其类型有:键盘,气息(呼吸)控制器,弦乐演奏器等。
– 音源(tone generator), 也称为音乐合成器(music synthesizer)。 它通过电子线路把演奏控制器产生的乐音合成出来,是乐器的发声部分。
演奏控制器
? 键盘式, 模拟钢琴键盘
? 气息(呼吸)控制器
? 弦乐演奏器
音源(音乐合成器)
? 按照工作原理,音源可分3类:
– 调频合成器(FM), 1983
– PCM 波形合成器, 1991
– 物理模型音源, 也称为仿真声学合成器 (Visual Acoustic Synthesizer)
数字调频音乐合成器
? 基本原理:
Y(t)=A*Sin ( Wc *t + I*Sin ( Wm*t ) )
其中,A=输出振幅, Wc="载波频率"(音符基频),
I=调制深度 及 Wm="调制频率"(乐器音色)
波表合成器
(Sample Playback合成器)
? 原理:
– 每种乐器的每个音符的数字化波形,选择若干周期,把它们组织成一张表(波表),存放在ROM中。
– 播放时根据乐器类型及音符等访问ROM,取出对应的波形数据,修饰成所要求的音强和时长,进行播放。
电脑音乐系统的组成
? 功能: 作曲、配器
? 组成:
– 演奏控制器
– 音源
– 音序器(sequencer), 记录实时演奏的音符、节奏、表情控制以及音色变化等信息(如速度、触键力度、弯音等),然后进行修改、编辑,实现分轨记录、分轨编辑,以便反复修改和播放,直到满意为止。
? 音序器有专用和通用2种,通用音序器由电脑、声卡、MIDI接口卡及音序器软件组成。
(2) MIDI(乐器数字接口) 规范
MIDI是音乐的数字表示方法,包含音符、定时、乐器指派等,也是数字电子 乐器互相连接、互相通信的标准。 内容包括:
– 设备的互连;
– MIDI message(MIDI消息)的规范;
– MIDI文件(SMF)的格式;
– MIDI时间代码(MTC),使音/视频设备与MIDI设备同步;
– MIDI Machine control(MMC),使录音设备与MIDI设备同步
– MIDI Show control(MSC);使舞台灯光设备与MIDI 设备同步。
MIDI 设备
? MIDI演奏器( 又称MIDI 发送器,MIDI键盘),
通过人的演奏产生一连串的MIDI message.
? MIDI接收器(MIDI音源),
接收MIDI message, 并合成出乐曲的声音.
MIDI设备的互连
? MIDI设备端口(5芯DIN插座,菊花链方式连接):
– MIDI in
– MIDI out
– MIDI thru
MIDI设备的互连
? 演奏控制器MIDI out =>电脑(音序器)的MIDI in 或电子琴的MIDI in,
? 电脑(音序器)的MIDI out =>音源(电子琴)MIDI in
(使用“MIDI cable”电缆与声音卡的游戏杆/MIDI插口(15针D形)连接。)
MIDI设备连接之例
MIDI设备的通信规程
? 通信规程:
通用异步收发器( UART ),串行通信(31.25 Kbps)。
1个起始位+8个数据位+1个停止位
速率: 3125字节/秒
? 分析:每个音符需6字节,共16个通道,平均每个通道 每秒可 收发约 16个音符。
MIDI音源的特性
? MIDI音源相当于一个电子乐队,它划分成16个 Channel(通道),每个通道是1个逻辑合成器, 相当于一个声部(组),各个声部可演奏不同的乐器和不同的乐谱。
? 每个通道能演奏不同乐器(最多128种),称为音色。不同乐器有不同编号(称为Program或Patch号)。
? 每个通道在同一时间内只能演奏一种乐器,但可随时改变;但声部数可以有若干个。即,每个MIDI 通道在某一时间里可进行一种音色的独奏、齐奏或合奏。
MIDI音源的特性
? Polyphony(复音), 同时演奏多个音符称为Poly (如钢琴,吉他),一次只演奏1个音符称为Mono(单音)。
? MIDI音源的4种工作模式:
Mode 1: Omni on / Poly Mode 2: Omni on / Mono
Mode 3: Omni off / Poly Mode 4: Omni off / Mono
Omni on----MIDI设备响应所有的channel message
Omni off----MIDI设备只响应自己的channel message
Poly ---- 一次可同时演奏多个音符
Mono--- 一次只能演奏一个音符
MIDI Message
? 作用: 描述乐曲的乐谱及演奏要求, 控制MIDI音源进行演奏 。
? 数据格式:
1个状态字节(最高位为“1”)+ n个数据字节(最高位为“0”)
? 分类:
– Channel message (带channel号,只对指定通道起作用)
? Voice message 实际的演奏数据, 控制乐器的发声
? Mode message 决定乐器对声音消息如何响应
– System message(对全部通道都起作用)
MIDI message举例
? Note on :
(音符开始) 通道号 键号 速度
? Note off :
(音符结束)
音符# 0 12 24 36 48 60 72 84 96 108 120 127
音阶 C-1 C0 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10
击键力度 0 1 , , , , , , , 64 , , , , , , , 127
off ppp pp p mp mf f ff fff
标准MIDI文件(SMF)
? 1988年被MMA采用,扩展名为 .MID,用作MIDI音乐的文件交换标准,也是音乐作品发行的标准。
? 一个MIDI文件包含1个标题块和若干音轨块。
? 标题块指出:标识符,长度,音轨块数目,MIDI 格式(格式0,1,2 ),时间格式( PPQN及SMPTE )等。
– PPQN ( pulses per 1/4 note ), 单位:beats/minute( BPM )
– SMPTE ( Socity of Motion Picture and Televition Enginneers )
hh:mm:ss:ff:bb 单位:frames/second (fps)
? 音轨块用于记录MIDI数据, MIDI数据由一系列的MIDI message组成。
MIDI标准的发展和补充
? 问题:不能保证同一个MIDI文件在2个不同的MIDI音源上产生相同的播放效果。
? General MIDI (GM) ,对128种电子乐器(音色)的分类和排列作了规定,每个音色有一个序号,8个相似音效的音色编为一组,供16组。
? XG标准(YAMAHA),在音色数量(扩充为480种)、音色编辑、音响效果控制以及外部音频输入等4个方面对GM进行了扩充。
(3) 音序器软件(Sequencer)
? Sequencer又称做音乐软件。
? 工作过程:
– 以MIDI message形式将演奏信息(音符、节奏、速度、触键力度、弯音以及音色变化等)记录下来;
– 对记录下来的信息进行修改编辑;
– 经编辑修改的演奏信息在任意时刻都可以由音源播放。
音序器软件(Sequencer)
? 优点:
同一演奏者可在不同的时间内用不同的乐器(音色)逐次演奏乐曲的不同声部,实现“分轨录音(Track Recording)”,而这些属于不同声部的演奏信息可被音序器记录在不同的MIDI通道中,通过音源,音序器可将所有MIDI通道中的演奏信息同时自动播放演奏,这样,一个人就可完成相当于一个乐队的多声部演奏和录音任务。
音序器软件(Sequencer)
(4) MIDI小结
? 优点
– 数据量少(比CD-DA 少3 个数量级)。
– 可以与波形声音同时播放。
– 易于编辑修改。
(4) MIDI小结
? 问题
– 是MIDI 控制器与合成器之间的通信协议, 描述的是音符, 而没有描述合成的算法.
– 音乐质量差, 音质与硬件相关。
2. 语音合成(Speech synthesis)
(1)引 言
(2)文语转换方法
(3)文语转换器
(4)进一步发展方向
(1)引 言
? 语音合成:利用适当的方法和手段,从文本、概念或意向重构语音的过程。
? 语音合成的3个层次:
> 从文本到语音的合成(Text-to-Speech,简称TTS);
> 从概念到语音的合成(Concept-to-Speech);
> 从意向到语音的合成(Intention-to-Speech)。
引 言
? 对合成语音的要求:
– understandable,
– natural,
– short delay time,
– variable speaking speed
– variable speaking voices
– variable speaking language …
? 应用:
声讯服务,自动应答, 有声电子邮件, 残疾人服务, 自动配音等.
语音基础知识
? 音素(phoneme)是语音的最小单位。音素分为:
– 元音(vowel)(浊音),不受声道阻碍的音。
– 辅音(consonant)(浊音或清音), 受声道阻碍的音。
? 不同的音素各有其不同的参数。
– 基频
– 3~5个共振峰(formant )。
( 共振峰是语音信号频谱包络线的峰值,从低频到高频方向记为F1,F2,F3…。)
语音基础知识
? 英语语音
– 每字( 词) 一个或几个音节(syllable)( 多音节字)
– 音节由一个或几个音素组成
– 英语的音素 (元音20个,辅音28个)
语音基础知识
? 汉语语音
– 每字一个音节(syllable)( 单音节字)
– 音节由一个或几个音素组成
– 汉语的音素
? 元音42 个( 单元音13 ,复元音13 ,复鼻尾音16)
? 辅音22 个;
( 或者分为:声母21 个,韵母39 个)
汉语语音
? 汉语语音的三要素:
– 声母(21)
– 韵母(39)
– 音调(4个: 阴平、阳平、上声和去声)
? 汉语语音的数目:
– 无声调的音节数目:412 个
– 带声调的音节数目:1282 个
(2)文语转换
第1步:文本分析,
第2步:韵律处理,
第3步:语音合成。
文语转换过程
第1步:文本分析
(1) 将输入的文本规范化。查找拼写错误,过滤掉文本中出现的一些不规范或无法发音的字符。
(2) 分析文本中词或短语的边界,确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。
(3) 根据文本的结构、组成和不同位置上出现的标点符号,确定发音时语气的变换以及不同音的轻重方式。
(统计学方法及人工神经网络技术)
第2步:韵律处理
? 分析并决定各个音节的声调、语气和停顿方式,发音的轻重、长短等,这些都属于韵律特征。
? 早期的韵律生成方法采用基于规则的方法。
? 目前通过神经网络或统计驱动的方法进行韵律生成已获成功。
第3步:语音合成
? 主要功能:根据韵律控制参数,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。
? 3种主要方法:
– 参数合成,
– 波形拼接,
– 数据库方法。
(I) 参数合成法
? 根据语音生成的“声道―滤波器”模型,控制激励源和滤波器的参数(一般每隔10ms-30ms一组参数),就能灵活地合成出各种语音。
? 预先录制涵盖所有可能的读音;然后提取出这些声音的声学参数,并整合成一个完整的音库。
? 在发音过程中,先从音库中选择合适的声学参数,再根据韵律参数, 通过合成算法产生语音。
参数合成法
? 代表性系统:美国DEC公司的DECtalk(1987 年),发音清晰,可产生7种不同音色的声音.
? 优点:音库一般较小,能适应的韵律特征的范围较宽。
? 缺点:准确提取共振峰参数比较困难,合成语音的音质难以达到实用要求。
(II) 波形拼接法
? 基本思想: 预先存储语音的基元(单音或词组的波形),合成时读取基元,进行拼接和韵律修饰,然后输出连续语流。
? 优点:由于语音基元取自自然语音的词或句子,它隐含了声调、重音、发音速度变化时的细微特性,合成的语音清晰自然,其质量普遍高于参数合成法.
? 缺点: 韵律参数修改范围受限。
波形拼接法需考虑的问题
> 语音基元的选择。语音基元是指拼接的基本单位。它可能是音素、双音子(Diphone)、三音子(Triphone)、半音节(首音、尾音)、音节、词语、语句等。基元越小,语音数据库越小,拼接越灵活,韵律修饰的规则就越复杂。
> 语音基元的样板数。对于同一个基元,由于语境不同和重音表现不同,其声学特征有很大差别。为了减小韵律修饰的负担,可以建立多样板语音数据库。
波形拼接法--- PSOLA技术
? 1992年提出基音同步叠加技术(Pitch Synchronous OverLap and Add,PSOLA):
– 首先在语音库中选择最合适的语音单元,并在选音过程中采用多种复杂的技术,包括统计学方法(如隐马尔可夫模型)或人工神经网络技术,
– 拼接时,对拼接单元的韵律特征进行调整,使合成波形既保持了原始发音的主要音段特征,又能使拼接单元的韵律特征符合上下文的要求,从而获得很高的清晰度和自然度。
(III) 基于数据驱动的语音合成
? 方法:语音数据库非常大(包括各种可能语境下的语音单元),以尽量多的语音基元样板来满足韵律的需求.语音合成时, 从庞大的语音数据库中进行挑选,不需要韵律修饰功能。
? 优点:只要语音数据库足够大,就有可能拼接出任何语句。由于合成的语音基元都是来自自然的原始发音,合成语句的清晰度和自然度都将非常高。
? 例:中国科大KD-86, KD-2000汉语文语转换系统.
(3)文语转换器框图---PSOLA方法
(4)进一步的发展方向
? 提高合成语音的自然度(enhancing the naturalness of speech through more sophisticated voice models and prosody generators)
? 丰富合成语音的表现力(voice conversion---- synthesizing the sound of a particular speaker’s voice),
? 多语种文语合成(multi-language TTS).
3. MPEG-4中的合成声音
Overview
MPEG-4支持的声音编码
1 自然声音编码(natural audio coding) (具有各种先进的声音压缩能力)
2 合成声音编码(synthetic sound coding)
– TTS
– Structured Audio (synthesis of music and sound effects)
3 合成/自然混合编码SNHC (synthetic/natural hybrid coding )
自然编码与合成编码的关系
自然声音 合成声音
编码模型 perceptual models parametric models
编码输出 compressed data descriptions
接收端操作 decompression synthesis
(Especially as sound models in perceptual coding grow more sophisticated, the boundary between "decompression" and "synthesis" becomes somewhat blurred. )
MPEG-4支持合成声音的目的
? Advanced capabilities for ultra-low-bitrate sound transmission,
? Interactive sound scenes,
? Flexible, repurposable delivery of sound content.
Capabilities of audio synthesis in MPEG-4
? 传输码率极低 (0.1 to 1 kbps);
? 实现自然声音所不可能提供的Interactive accompaniment, dynamic scoring, synthetic performance;
? 允许精确描述声音并实施tight control;
? 合成能力与效果处理能力得到统一;
? Structured Audio is an example of a new concept in coding technology--that of the flexible or downloadable decoder.
(1) MPEG-4 TTS
MPEG-4 TTS的功能
? 解码器不仅能以规则生成的韵律(prosody)合成语音,而且还能:
1) 以原始语音的prosody合成语音,
2) 与Facial Animation (FA) tools同步地合成语音,
3) 与嘴唇形状、活动画面同步配音,
4) 可以stop, resume, forward, backward without breaking the prosody even in the applications with Facial Animation (FA)/ Motion Pictures (MP),
5) 用户可改变合成语音的 replaying speed, tone, volume, speaker’s sex, and age.
MPEG-4 TTS 对不同语种的支持
? 使用language code(8位)来标识所需要合成的语种 ,目前规定了25种不同的语种.
? 使用国际音标( International Phonetic Alphabet , IPA) , language code为0, 传输所有语种.
MPEG-4 TTS标准化的内容
? 每一种语言都有数以十计的不同的TTS合成器, 因此MPEG-4只对TTS的比特流接口(interface bit stream profiles) 进行标准化.
? MPEG-4 TTS比特流接口的结构很简单, 几乎所有TTS合成器都能作适当修改(花费几个小时), 就可以接收和处理 MPEG-4 TTS 比特流 .
MPEG-4 Text-to-Speech Interface
(TTSI)
? TTSI允许将语言以国际音标或任何语种的文本进行传输
? 标准化的比特流格式使不同TTS合成器之间具有interoperability
? 它是一个混合的多级的scalable TTS接口,可看作常规TTS的一个超集. (例如对附加韵律信息的处理)
? 它规定了音素信息与脸部运动( facial animation, FA) 参数的联合编码方法
MPEG-4 TTSI functionality
? 可以控制合成语音的语种,说话人性别、年龄,说话的速度及韵律等
? 可控制合成语音的起、停、rewind, fast forward。
? 基本TTSI格式时(比特流中仅含文本),码率仅为200bps,由合成器为它配上韵律信息
? 比特流中还可以在文本基础上添加原始语音的韵律信息,如音素序列、每个音素的时长(duration)、能量,合成器可生成与原来语音非常相似的语音
MPEG-4 TTSI functionality
? 能使合成语音与计算机生成的角色(talking head)的嘴唇运动同步。合成器生成音素序列及它们的时长,并将它们与facial animation visual object decoder进行通信,用来控制嘴唇的运动,从而用户不仅能听到合成的声音,还能看到角色嘴唇的同步运动。
? 文本可以包含书签,书签中面部运动参数 (FAP),合成器把书签发送给face decoder,从而控制面部表情作同步的运动。
MPEG-4 TTSI decoding process
Applications for TTS in MPEG-4
? Story-telling on demand (STOD). The STOD system reads the story aloud , with the MPEG-4 facial animation tool or with appropriately selected images.
? Motion-picture-dubbing application.
? Synthetic video-teleconferencing. The TTSI decoder can be used to drive the facial-animation decoder in synchronization.
? Others: speech synthesis for avatars in virtual reality, voice newspapers, and low-bitrate Internet voice tools.
(2) MPEG-4 Structured Audio
什么是Structured Audio?
? 结构化声音格式使用超低码率算法模型对声音(音乐)进行编码和传输.
? MPEG-4并不对音乐合成的方法进行标准化, 而是对描述合成方法的信号处理语言进行标准化.
? 使用这种标准化语言,任何现有的和将来的合成方法都可以进行描述.
? 由于描述语言是标准化的,所以每一段合成音乐在任何一个MPEG-4解码器上都会产生完全相同的声音.比MIDI有了很大的改进.
MPEG-4 Structured Audio
? MPEG-4对用于声音对象结构化编码的一种算法声音语言和若干工具进行了标准化,使用这些工具和算法能确切描述和创建一个声场, 进行传输, 接收端执行该算法并生成所需要的声场.
? MPEG-4的结构化声音技术允许以0.01 to 10 kbps的码率传输合成音乐和声音效果,并能精确地描述参数化声音的后期制作,如多个声音流的混音(mixing) ,对声场添加效果处理.
MPEG-4 Structured Audio
? 结构化声音(SA)的比特流格式使用一种新的coding paradigm-- algorithmic structured audio,传输的声音可分解为2部分:
1 描述如何合成声音的一组合成算法
2 一系列的合成控制命令,指出合成什么声音
? MPEG-4 终端中的合成模型不是固定的,而是a framework for reconfigurable software synthesis ,现在和将来的任何合成方法在这个框架中都可以使用.
MPEG-4 SA比特流
? MPEG-4 SA比特流由2部分组成:
? 解码器配置标题信息:
– 描述一组合成声音的算法
– 使用一种称为SAOL语言(Structured Audio Orchestra Language)的unit-generator language 规定合成算法。
SAOL
? SAOL 是一种信号处理语言,它能进行音乐合成和effects post-production.
? SAOL属于 “Music V” languages的音乐合成范围, 它的基本处理模型基于 the interaction of oscillators running at various rates.
? SAOL扩充了Music V language model,增加了许多新功能, 从而允许更加有效,更加灵活地进行合成音乐的描述.
SAOL orchestra语言举例
global {
srate 32000;
krate 1000;
}
instr beep(pitch, amp) {
asig out;
ksig env;
table sound(harm,2048,1,0.5,0,0.2);
env = kline(0,0.1,amp,dur-0.1,0);
out = oscil(sound,pitch) * amp;
output(out);
}
Bitstream Access Units and SASL
? 由一系列的合成控制命令组成,控制命令指出使用什么乐器合成什么声音。控制命令使用另一种语言SASL(Structured Audio Score Language)来描述。
? SASL score语言举例(每一行代表一个音符):
0.0 beep 1.0 440 0.5
1.0 beep 2.0 220 0.2
2.0 beep 1.0 264 0.5
3.0 beep 1.0 440 0.5
4.0 end
Structured Audio 比特流解码过程
Structured Audio 比特流解码过程
1 处理和解释解码器标题信息中的SAOL指令,
2 对比特流中的访问单元(access units)进行处理:
– 对SASL score语言的每一行(一个音符)进行语法分析,并将它作为一个事件在SA 调度器中登记
– 建立和维护A time-sequenced list of events,
– 由SA 调度器按规定时间触发每一个事件.
3 一个事件被触发后,就在note pool中建立相应音符对象(乐器)的实例,从而合成出该音符的声音.
(3) MPEG-4 AudioBIFS
What is "audio scene description"?
? 声场(Audio scenes)是若干“声音对象”的时空组合(spatiotemporal combination).
? 一个声音对象就是使用某种MPEG-4编码工具(如CELP or SA) 得到的一个比特流.
? 声音对象相互间可建立一定的关系,如 mixing, effects processing, switching, delaying, and may be spatialized to a particular 3-D location.
? 效果处理使用与SA相同的信号
处理语言进行抽象描述, 并把它
们包含在比特流中.
MPEG-4 Audio System
MPEG-4 Audio System
? 声场中一共由4 elementary streams组成 ,每个流包含一个primitive media object.
? 有2个multiplexed MPEG-4 bitstreams; 从不同的服务器中送出给同一个用户.
? 处理过程:
– the MPEG-4 bitstreams are demultiplexed,
– each primitive media object is decoded.
– The resulting sounds are not played directly, but rather made available for scene compositing using AudioBIFS
– they are received in the MPEG-4 terminal。
第七节 计算机语言输出
语音技术的发展
* 1.语音识别获得应用
* 2、语音合成信息服务被用户接受
* 3、面向对象的语音编码
* 4.口语机器翻译受到重视
计算机语言输出的主要技术
* 方法:
录音/重放
声音合成
语音合成
音乐合成
语音合成技术
* 语音合成技术把可视的文本信息转化为可听的声音信息 。
* 语音技术已逐渐在电信声讯信息服务领域智能电话查询系统中展开应用,并迅速推广。
* 语音技术与互联网已成功地结合。
面向对象的语音编码
* 长期以来,在通信网的发展中,解决信息传输效率是一个关键问题,极其重要。目前科研人员已通过两个途径研究这一课题,其一是研究新的调制方法与技术,来提高信道传输信息的比特率,指标是每赫兹带宽所传送的比特数;其二是压缩信源编码的比特率,例如标准PCM编码,对3.4kHz频带信号需用64Kbps编码比特率传送,而压缩这一比特率显然可以提高信道传送的话路数。这对任何频率资源有限的传输环境来说,无疑是极为重要的,尤其是在无线通信技术决定今后通信发展命运的今天更显得重要。实际上,压缩语音编码比特率与话音存储、语音识别及语音合成等技术都直接相关。
* 语音编码技术的进展对通信新业务的发展有极为明显的影响,例如IP电话业务、实时长途翻译业务、交换机的人工智能接口等。因此,国际电报电话咨询委员会(CCITT)第15组提出了许多急需制订的话音编码标准建议,以推动通信网的发展。由于VLSI的发展,实现这一技术的代价已从在昂贵的信道中采用,发展到一般信道中都可接受的水平,因此,编码技术日益受到重视。当前,数字移动通信和个人通信(PCN)是深受人们重视的通信手段,其重要问题之一是压缩语音编码速率,形成面向对象的语音编码技术。
口语机器翻译
* 口语翻译的一个重要目的就是帮助聋哑人与正常人交流,近来越来越受到人们的重视。首先,聋哑人要戴上一副特制的手套,计算机根据他打出的手语进行识别,然后,通过语音合成系统就可以把图像信息翻译成语言信息。同时,系统还能够完成将正常人的语言翻译成聋哑人的手语,只要将正常人说的话键入计算机,经程序分析处理之后,翻译成有表情、有动作的三维图像,从而最终达到聋哑人与正常人之间通过翻译机进行交流的目的。口语翻译的研究在其他很多方面都有重要价值,如用手势控制计算机,甚至用手势导航等。
计算机语言输出分类
* 有限词汇
* 文语转换
语音合成
* 语音合成(Text To Speech,简称TTS)技术涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术。它解决的主要问题是如何将文本状态的文字信息转化为可听的声音信息,使以往只能用眼睛看的文字信息也可以用耳朵来听。
TTS应用
* TTS就是可以将文字资讯转化成语音资讯系统,它能将任何你想要的文本文件转化成语 音读出来,可读成汉语、日语、韩语、英语,有了它,可以听万卷评书,学习三国外语,这个功能就是现代公司专门针对目前市场上学习热而专门针对学生及上班族推出的全功能F5系列产品,对于喜欢读书的用户来讲,当看书眼睛太疲劳时,或者长时间用电脑时,一会儿眼睛就花了,TTS功能真是眼睛的解放,把想看的文章转成声音,坐在车上、躺在床上,一部部文学名著、通俗小说,轻轻松松读下来,随时随地的自我充实,还可以学学外语,一举两得,何乐而不为呢?而且还可以用复读功能自己也可以录音反复练习,目前市场上的复读机又大又重,携带起来实在不方便而本款产品重量轻,64M F5录音时间可达5小时以上,MP3、录音、复读,中英文双语选择,无疑F5的TTS及复读、录音这三种功能的绝加搭配会加速提高用户在学习外语方面的听说能力,如果学习累了还可以听一段自己喜欢的音乐,五种不同播放的音乐类型随你选(NORMAL、JASS、POP、CLASSIC、ROCK),四种循环播放更加随你所愿自由自在(ORMAL、ONE、ALL、RENDOM),当然也可以先在上面存上喜欢的音乐,留点儿空间存上工作用的文件。上班、下班听听音乐,公司、家里干干工作。工作娱乐两不耽误。
*
思考问题:
1、什么是语音合成?
2、语音合成有几个层次? 常见的语音合成方法有哪些?
3、什么是音素?什么是基频?什么是共振峰?
4、什么是汉语语音的三要素?
5、实现文语转换的步骤是什么?
6、试述波形拼接法的主要思想.
文章评论(0条评论)
登录后参与讨论