资源简介 (共71张PPT)第二章 音频信息的获取与处理学习目的: 通过本章的学习,使学生对多媒体计算机中数字化音频的基本概念、分类、关键技术等有一定的了解和掌握。学习的知识点: (1) 数字化音频的获取与处理基本概念,模拟音频与数字音频的区别;数字音频采样和量化的基本原理,以及数字音频的文件格式和音频信号的特点。 (2) 音频卡的工作原理、功能、分类和音频卡的安装使用。 (3) 音频编码的原理和标准以及编码解码的基本方法。 (4) 音乐合成和乐器数字接口(MIDI)的规范;MIDI在多媒体技术中的应用。 (5) 语音识别和合成的原理及其分类。学习要求: 掌握:数字音频信息的获取与处理的原理过程。 理解:数字音频采样量化的原理过程、音乐合成的原理。 了解:数字音频编码的标准,语音识别和合成原理及其分类。目录: 2.1 数字音频基础 2.2 音频编码基础和标准 2.3 音乐合成和MIDI规范 2.4 语音识别2.1 数字音频基础多媒体技术的特点是计算机交互式综合处理声文图信息。声音是携带信息的重要媒体。娓娓动听的音乐和解说,使静态图像变得更加丰富多彩。音频和视频的同步,使视频图像更具真实性。传统计算机与人交互是通过键盘和显示器,人们通过键盘或鼠标输入,通过视觉接收信息。而今天的多媒体计算机是为计算机增加音频通道,采用人们最熟悉、最习惯的方式与计算机交换信息。我们希望能为计算机装上“耳朵”(麦克风),让计算机听懂、理解人们的讲话,这就是语音识别;设计师为计算机按上嘴巴和乐器(扬声器),让计算机能够讲话和奏乐,这就是语音和音乐合成。 随着多媒体信息处理技术的发展,计算机数据处理能力的增强,音频处理技术受到重视,并得到了广泛的应用。例如,视频图像的配音、配乐、背景音乐;可视电话、电视会议中的话音;游戏中的音响效果;虚拟现实中的声音模拟;用声音控制Web,电子读物的有声输出。一. 模拟音频和数字音频1.模拟音频物体振动产生声音,为了记录和保存声音信号,先后诞生了机械录音(以留声机、机械唱片为代表)、光学录音(以电影胶片为代表)、磁性录音(以磁带录音为代表)等模拟录音方式,二十世纪七、八十年代开始进入了数字录音的时代。 声音是机械振动在弹性介质中传播的机械波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。声音信号的两个基本参数是频率和幅度。频率是指信号每秒钟变化的次数,用Hz表示。幅度是指信号的强弱。2.数字音频 数字音频主要包括两类:波形音频和MIDI音频。 模拟声音在时间和幅度上是连续的,声音的数字化是通过采样、量化和编码,把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。数字音频是一个数据序列,在时间和幅度上是断续的。 计算机内的基本数制是二进制,为此我们要把声音数据写成计算机的数据格式。将连续的模拟音频信号转换成有限个数字表示的离散序列(即实现音频数字化),在这一处理技术中,涉及到音频的采样、量化和编码。二.数字音频的采样和量化声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散化通过采样来实现,如果每隔相等的一小段时间采样一次,称为均匀采样(uniform sampling);连续幅度的离散化通过量化(quantization)来实现,把信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。在数字音频技术中,把表示声音强弱的模拟电压用数字表示,如0.5V电压用数字20表示,2V电压是80表示。模拟电压的幅度,即使在某电平范围内,仍然可以有无穷多个,如1.2V,1.21V,1.215V…。而用数字来表示音频幅度时,只能把无穷多个电压幅度用有限个数字表示。即把某一幅度范围内的电压用一个数字表示,这称之为量化。计算机内的基本数制是二进制,为此我们也要把声音数据写成计算机的数据格式,这称之为编码,模拟电压幅度、量化、编码的关系举例如下表。模拟电压、量化和编码电压范围(V) 量化(十进制数) 编码(二进制数)0.5~0.7 2 0110.3~0.5 3 0100.1~0.3 1 001-0.1~0.1 0 000-0.3~-0.1 -1 111-0.5~-0.3 -2 110-0.7~-0.5 -3 101-0.9~-0.7 -4 100声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(fs)是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。1.采样频率2.量化精度(也称量化位数、量化级、样本尺寸、采样精度等)3.声道数4.声音质量与数据率5.数字音频的存储1.采样频率采样频率是指将模拟声音波形数字化时,每秒钟所抽取声波幅度样本的次数,采样频率的计算单位是kHz。通常,采样频率越高声音失真越小,但用于存储音频的数据量也越大。 音频实际上是连续信号,或称连续时间函数x(t)。用计算机处理这些信号时,必须先对连续信号采样,即按一定的时间间隔(T)取值, 得到x(nT)(n为整数)。T称采样周期,1/T称为采样频率。称x(nT)为离散信号。离散信号 x(nT) 是从连续信号 x(t) 上取出的一部分值。采样定理:设连续信号x(t)的频谱为x(f),以采样间隔T采样得到离散信号x(nT),如果满足: 当|f|≥fc时,fc是截止频率 T≤ 1/2fc 或fc≤ 1/2T 则可以由离散信号x(nT)完全确定连续信号x(t)。 当采样频率等于1/(2T)时,即fN =1/2T,称fN为奈奎斯特频率。采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫做无损数字化(lossless digitization)。 通常人耳能听到频率范围大约在20Hz~20kHz之间的声音,根据奈奎斯特理论,为了保证声音不失真,采样频率应在40kHz左右。常用的音频采样频率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等。 2.量化精度(也称量化位数、量化级、样本尺寸、采样精度等)量化是将经过采样得到的离散数据转换成二进制数的过程,量化精度是每个采样点能够表示的数据范围,在计算机中音频的量化位数一般为4、8、16、32位(bit)等。例如:量化精度为8bit时,每个采样点可以表示256个不同的量化值,而量化精度为16bit时,每个采样点可以表示65536个不同的量化值。量化精度的大小影响到声音的质量,显然,位数越多,量化后的波形越接近原始波形,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。采样精度的另一种表示方法是信号噪声比,简称为信噪比(signal-to-noise ratio,SNR),并用下式计算: SNR= 10 log [(Vsignal)2 / (Vnoise)2]=20 log (Vsignal / Vnoise) 其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR的单位为分贝(db) 例1:假设Vnoise=1,采样精度为1位表示Vsignal=21,它的信噪比SNR=6分贝。例2:假设Vnoise=1,采样精度为16位表示Vsignal=216,它的信噪比SNR=96分贝。量化采样的过程如下:先将整个幅度划分成为有限个小幅度(量化阶距)的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。 均匀量化如果量化值是均匀分布的,我们称之为均匀量化,也称为线性量化。非均匀量化如果大输入信号采用大的量化间隔,小输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下使用较小的位数来表示。数据还原时采用相同的原则。量化值是非均匀分布的,我们称之为非均匀量化,也称非线性量化。3.声道数 记录声音时,如果每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道。使用双声道记录声音,能够在一定程度上再现声音的方位,反映人耳的听觉特性。4.声音质量与数据率 根据声音的频带,通常把声音的质量分成5个等级,由低到高分别是电话(telephone)、调幅(amplitude modulation,AM)广播、调频(frequency modulation,FM)广播、激光唱盘(CD-Audio)和数字录音带(digital audio tape,DAT)的声音。在这5个等级中,使用的采样频率、样本精度、通道数和数据率列于下表。表: 声音质量和数据率质量 采样频率(kHz) 样本精度(bit/s) 单道声/立体声 数据率(kB/s) (未压缩) 频率范围TEL 8 8 单道声 8 200~3400 HzAM 11.025 8 单道声 11.0 50~7000HzFM 22.050 16 立体声 88.2 20~15000HzCD 44.1 16 立体声 176.4 20~20000 HzDAT 48 16 立体声 192.0 20~20000 Hz5.数字音频的存储 一般来说,采样频率、量化位数越高,声音质量也就越高,保存这段声音所用的空间也就越大。立体声(双声道)是单声道文件的两倍。 即:文件大小(B)=采样频率(Hz)×录音时间(S)×(量化精度/8)×声道数(单声道为1,立体声为2) 如:录制1分钟采样频率为44.1KHz,量化精度为16位,立体声的声音(CD音质),文件大小为: 44.1×1000×60×(16/8)×2=10584000B≈10.09M三. 数字音频的文件格式 声音数据有多种存储格式,这里我们主要介绍WAV 文件、MIDI文件。文件的扩展名 说明au Sun和NeXT公司的声音文件存储格式(8位μ律编码或者16位线性编码)Aif Apple计算机上的声音文件存储格式(Audio Interchange File Format)ape Monkey's Audiomid Windows的MIDI文件存储格式mp3 MPEG Layer IIIrm RealNetworks公司的流放式声音文件格式(RealMedia)ra RealNetworks公司的流放式声音文件格式(RealAudio)voc 声霸卡存储的声音文件存储格式(Creative Voice)wav Windows采用的波形声音文件存储格式wrk Cakewalk Pro软件采用的MIDI文件存储格式1.WAV 文件 WAV 文件主要用在PC上,是微软公司的音频文件格式,又称为波形文件格式,它来源于对声音模拟波形的采样,用不同的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点,以不同的量化位数把这些采样点的值转换成二进制数,然后存盘,就产生了声音的WAV文件。 声音是由采样数据组成的,所以它需要的存储容量很大。用前面我们介绍的公式可以简单的推算出WAV文件的文件大小。2.MIDI文件 MIDI是Musical Instrument Digital Interface的首写字母组合词,可译成“电子乐器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。当信息通过一个音乐或声音合成器进行播放时,该合成器对系列的MIDI信息进行解释,然后产生出相应的一段音乐或声音。 记录MIDI信息的标准格式文件称为MIDI文件,其中包含音符、定时和多达16个通道的乐器定义以及键号、通道号、持续时间、音量和击键力度等各个音符的有关信息。由于MIDI文件是一系列指令而不是波形数据的集合,所以其要求的存储空间较小。3.WAV文件和MIDI文件的区别WAV文件记录的是声音的波形,要求较大的数据空间;MIDI文件记录的是一系列的指令,文件紧凑占用空间小,预先装载比WAV容易,设计播放所需音频的灵活性较大。WAV文件可编辑性好于MIDI,音质饱满。WAV文件适合于:(1) 计算机资源足够处理数字文件;(2) 有语言会话的需要;(3) 对回放设备没有特定要求。MIDI文件适合于: (1) 没有足够的RAM、硬盘空间或CPU处理能力;(2) 具备符合要求的回放设备;(3) 具有高质量的声源;(4) 没有语言对话的需要四.音频信号的特点音频信号处理的特点如下: (1) 音频信号是时间依赖的连续媒体。因此音频处理的时序性要求很高,如果在时间上有 25ms 的延迟,人就会感到断续。 (2) 理想的合成声音应是立体声。由于人接收声音有两个通道(左耳、右耳),因此计算机模拟自然声音也应有两个声道,即立体声。 (3) 由于语音信号不仅仅是声音的载体,同时情感等信息也包含其中,因此对语音信号的处理,要抽取语意等其它信息,如可能会涉及到语言学、社会学、声学等。四.音频信号的特点从人与计算机交互的角度来看音频信号相应的处理如下: (1) 人与计算机通信(计算机接收音频信号)。音频获取,语音识别与理解。 (2) 计算机与人通信(计算机输出音频)。 音频合成( 音乐合成,语音合成)、声音定位(立体声模拟、音频/视频同步)。 (3) 人—计算机—人通信:人通过网络,与处于异地的人进行语音通信,需要的音频处理包括:语音采集、音频编码/解码、音频传输等。这里音频编/解码技术是信道利用率的关键。2.2 音频编码基础和标准一. 音频编码基础 从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析结果,语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。另外由于语音主要是给人听的,所以考虑了人的听觉机理,也能对语音信号实行压缩。 1.时域信息的冗余度 2.频域信息的冗余度 3.人的听觉感知机理1.时域信息的冗余度(1)幅度的非均匀分布 统计表明,语音中的小幅度样本比大幅度样本出现的概率要高。又由于通话中必然会有间隙,更出现了大量的低电平样本。此外,实际讲话信号功率电平也趋向于出现在编码范围的较低电平端。因此,语音信号取样值的幅度分布是非均匀的。(2)样本间的相关 对语音波形的分析表明,取样数据的最大相关性存在于邻近样本之间。当取样频率为8kHz时,相邻取样值间的相关系数大于0.85;甚至在相距10个样本之间,还可有0.3左右的数量级。如果取样速率提高,样本间的相关性将更强。因而根据这种较强的一维相关性.利用N阶差分编码技术,可以进行有效的数据压缩。(3)周期之间的相关 语音信号虽与电视信号有许多相似之处,但其最大的不同,是语音信号的直流分量并不占主要成分。因为光信号是作负的,而语音信号却可正可负。虽然语音信号需要一个电话通路提供整个300~3400Hz的带宽,但在特定的瞬间,某一声音却往往只是该频带内的少数频率成分在起作用。当声音中只存在少数几个频率时,就会像某些振荡波形一样,在周期与周期之间,存在着一定的相关性。利用语音周期之间信息冗余度的编码器,比仅仅只利用邻近样本间的相关性的编码器效果要好,但要复杂得多。(4)基音之间的相关 人的说话声音通常分为两种基本类型: 第一类称为浊音,由声带振动产生,每一次振动使一股空气从肺部流进声道,激励声道的各股空气之间的间隔称为音调间隔或基音周期。一般而言,浊音产生于发元音及发某些辅音的后面部分。 第二类称为清音,一般又分成摩擦音和破裂音两种情况。前者用空气通过声道的狭窄部分而产生的湍流作为音源;后者声道在瞬间闭合,然后在气压激迫下迅速地放开而产生了破裂音源。语音从这些音源产生,传过声道再从口鼻送出。清音比浊音具有更大的随机性。 浊音波形不仅显示出上述的周期之间的冗余度,而且还展示了对应于音调间隔的长期重复波形。因此,对语音浊音部分编码的最有效的方法之一是对一个音调间隔波形来编码。并以其作为同样中其他基音段的模板。男、女声的基音周期分别为5~20ms和2.5~10ms,而典型的浊音约持续100ms,一个单音中可能有20~40个音调周期。虽然音调周期间隔编码能大大降低码率,但是检测基音有时却十分困难。而如果对音调检测不准,便会产生奇怪的“非人音”。(5)静音系数 两个人之间打电话,平均每人的讲话时间为通话总时间的一半,另一半时间听对方讲。听的时候一般不讲话,而即使是在讲话的时候,也会出现字、词、句之间的停顿。通过分析表明,话音间隙使得全双工话路的典型效率约为通话时间的40%或静止系数为0.6。显然,话音间隔本身就是一种冗余,若能正确检测出该静止段,便可“插空”传输更多的信息。(6)长时自相关函数 上述样本、周期间的一些相关性,都是在20ms时间间隔内进行统计的所谓短时自相关。如果在较长的时间间隔(比如几十秒)进行统计,便得到长时自相关函数。长时统计表明,8kHz的取样语音的相邻样本间,平均相关系数高达0.9。2.频域信息的冗余度 (1)非均匀的长时功率谱密度 在相当长的时间间隔内进行统计平均,可得到长时功率谱密度函数,其功率谱呈现强烈的非平坦性。从统计的观点看,这意味着没有充分利用给定的频段,或者说有着固有的冗余度。特别地,功率谱的高频能量较低,这恰好对应于时域上相邻样本间的相关性。此外,再次可以看到,直流分量的能量并非最大。 (2)语音特有的短时功率谱密度 语音信号的短时功率谱,在某些频率上出现峰值,而在另一些频率上出现谷值。这些峰值频率,也就是能量较大的频率,通常称为共振峰频率。此频率不止一个,最主要的是第一和第二个,由它们决定了不向的语音特征。另外,整个谱也是随频率的增加而递减。更重要的是,整个功率谱的细节以基音频率为基础,形成了高次谐波结构。这都与电视信号类低,仅有的差异在于直流分量较小。3.人的听觉感知机理1)人的听觉具有掩蔽效应 当几个强弱不同的声音同时存在时,强声使弱声难以听见的现象称为同时掩蔽,它受掩蔽声音和被掩蔽声音之间的相对频率关系影响很大;声音在不同时间先后发生时,强声使其周围的弱声难以听见的现象称为异时掩蔽。2)人耳对不同频段的声音敏感度不同,通常对低频端较之对高频端更敏感。即使是对同样声压级的声音,人耳的实际感觉到的音量也是随频率而变化的。3)人耳对语音信号的相位变化不敏感人耳听不到或感知极不灵敏的声音分量都不妨视为冗余的。应用:3D音效音频编码的目的在于压缩数据。在多媒体音频数据的存储和传输中,数据压缩是必须的。通常数据压缩造成音频质量的下降、计算量的增加。因此,人们在实施数据压缩时,要在音频质量、数据量、计算复杂度三方面进行综合考虑。 为了实现音频数据压缩,多方面的专家致力于算法的研究,众多的企业致力于芯片和产品的研制.国际标准化组织也先后推出一系列建议。高质量高效率的音频压缩技术广泛地用于多媒体应用、音像制品、数字广播、数字电视等领域。音频编码的分类如下: 基于音频数据的统计特性进行编码,其典型技术是波形编码。其目标是使重建语音波形保持原波形的形状。 PCM (脉冲编码调制)是最简单最基本的编码方法。它直接赋予抽样点一个代码,没有进行压缩,因而所需的存储空间较大。为了减少存储空间,人们寻求压缩编码技术。利用音频抽样的幅度分布规律和相邻样值具有相关性的特点,提出了差值量化( DPCM )、自适应量化( APCM )和自适应预测编码( ADPCM )等算法,实现了数据的压缩。波形编码适应性强,音频质量好,但压缩比不大,因而数据率较高。基于音频的声学参数,进行参数编码,可进一步降低数据率。其目标是使重建音频保持原音频的特性。常用的音频参数有共振峰、线性预测系数、滤波器组等。这种编码技术的优点是数据率低,但还原信号的质量较差,自然度低。 将上述两种编码算法很好地结合起来,采用混合编码的方法。这样就能在较低的码率上得到较高的音质。如码本激励线性预测编码( CELP )、多脉冲激励线性预测编码( MPLPC )等。 基于人的听觉特性进行编码,从人的听觉系统出发,利用掩蔽效应,设计心理声学模型,从而实现更高效率的数字音频的压缩。其中以 MPEG 标准中的高频编码和 Dolby AC-3 最有影响。二. 音频编码标准 当前编码技术发展的一个重要的方向就是综合现有的编码技术,制定全球的统一标准,使信息管理系统具有普遍的互操作性并确保了未来的兼容性。国际上,对于语音信号压缩编码的审议在CCITT(国际电报电话咨询委员会)下设的第十五研究组进行,相应的建议为G系列,多由ITU(国际电信联盟)发表。 音频编码算法和标准: 1.G.711 2.G.721 3.G.722 4.G.728 5.MPEG中的音频编码 6.AC-3编码和解码2.3 音乐合成和MIDI规范 1. 音乐合成自1976年应用调频(FM)音乐合成技术以来,其乐音已经很逼真。1984年又开发出另一种更真实的音乐合成技术----波形表(Wavetable)合成。一个乐音,包括必备的三要素:音高、音色和响度。若把一个乐音放在运动的旋律中,它还应具备时值----持续时间。这些要素的理想配合是产生优美动听的旋律的必要条件。 音高:音高指声波的基频。基频越低,给人的感觉越低沉。对于平均律(一种普遍使用的音律)来说,各音的对应频率如图表所示。音阶 C D E F G A B简谱 1 2 3 4 5 6 7频率(Hz) 261 293 330 349 392 440 494知道了音高与频率的关系,我们就能够设法产生规定音高的单音了。 音色:具有固定音高和相同谐波的乐音,有时给人的感觉仍有很大差异。比如人们能够分辨具有相同音高的钢琴和小提琴声音,这正是因为他们的音色不同。音色是由声音的频谱决定的:各阶谐波的比例不同,随时间衰减的程度不同,音色就不同。“小号”的声音之所以具有极强的穿透力和明亮感,只因“小号”声音中高次谐波非常丰富。各种乐器的音色是由其自身结构特点决定的。用计算机模拟具有强烈真实感的旋律,音色的变化是非常重要的。 响度:响度是对声音强度的衡量,它是听判乐音的基础。人耳对于声音细节的分辨与响度直接有关:只有在响度适中时,人耳辨音才最灵敏。调频(FM)音乐合成技术是使高频振荡波的频率按调制信号规律变化的一种调制方式。采用不同调制波频率和调制指数,就可以方便地合成具有不同频谱分布的波形,再现某些乐器的音色。我们也可以采用这种方法得到具有独特效果的“电子模拟声”,创造出丰富多彩的、真实乐器所不具备的音色,这也是FM音乐合成方法特有的魅力之一。 波形表音乐合成技术是先在硬件或软件中存储各种实际乐器的声音采样,合成时以查表方式调用这种实际乐器的声音采样,合成该乐器的乐音。因此,利用波形表方式合成的音乐效果更加逼真,它的效果优于FM合成。2. MIDI接口规范 MIDI是音乐与计算机结合的产物。MIDI(Musical Instrument Digital Interface)是乐器数字接口的缩写,泛指数字音乐的国际标准,初始建于1982年。 多媒体Windows支持在多媒体节目中使用MIDI文件。标准的多媒体PC平台能够通过内部合成品在或连到计算机MIDI端口的外部合成品在播的MIDI文件。 利用MIDI文件演奏音乐,所需的存储量最少。如演奏2分钟乐曲的MIDI文件只需不到8K的存储空间。MIDI标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。它还指定从一个装置传送数据到另一个装置的通信协议。这样,任何电子乐器,只要有处理MIDI信息的处理器和适当的硬件接口都能变成MIDI装置。MIDI间靠这个接口传递消息而进行彼此通信。实际上消息是乐谱的数字描述。乐谱由音符序列、定时和称作合成音色的乐器定义所组成。当一组MIDI消息通过音乐合成芯片演奏时,合成器解释这些符号,并产生音乐。 MIDI区别于波形音频的特点:MIDI文件是一系列描述乐曲演奏过程的指令,而不是波形,它需要的磁盘空间非常之少,并且预先装载MIDI文件比预装波形文件容易得多。这样,当你设计多媒体节目,特别是指定什么时候播放音乐时.将有很大的灵话性。在以下几种情况下,使用MIDI比使用波形音频更合适,如: ① 需要播放长时间高质量音乐。比如想在硬盘上存储的音乐大于1分钟,而硬盘又没有足够的存储容量。 ② 需要以音乐作背景音响效果,同时从CD-ROM中装载其他数据,如图像、文字的显示。 ③ 需要以音乐作背景音响效果,同时播放波形音频或实现文-语转换,以实现音乐和语音同时输出。2.4 语音识别与语音合成 1. 语音识别的发展和分类语音识别的研究领域比较广,归纳起来,一般有以下四个方面: (1)按可识别的词汇量多少,语音识别系统可分为小、中、大词汇量三种。一般来说,能识别词汇小于 100 的,称为小词表语言识别;大于 100 的称为中词表语音识别;大于 1000 的称为大词表语音识别。词表越大,困难越多。 按照语音的输入方式,语音识别的研究集中于对孤立词、连接词和连续语音的识别。 词表中的每个条目,无论是单音节还是短语,发音时都是以条目为单位的,条目间有明显的停顿,而条目内的音节要求连续,这就是孤立词语音识别,如识别 0 ~ 9 十个数字、人名、地名、控制命令、英语单词、汉语音节或短语。 对连呼词表中的几个条目,识别时进行切分,最后给出连呼词的识别结果,这种识别需要用到词与词之间的联接信息,所以称为连接词识别。如连呼数字串的识别。 自然语言的特点是使用连续自然的语音。语音识别的目标是让计算机能理解自然语言,这是语音识别中最困难的课题,如听写机、翻译机、智能计算机中人机语音对话都需要连续语音识别。(2)按发音人可分为特定人、限定人和非特定人语音识别三种。 对于特定人进行语音识别的系统,使用前需由特定人对系统进行训练,具体方法是由特定人口呼待识词或指定字表,系统建立相应的特征库,之后,特定人即可口呼待识词由系统识别,这样的系统只能识别训练者的声音;如果需要限定的几个人使用同一系统,则可以研制成限定人识别系统;如果一个系统不必经使用者训练就可以识别各种发音者的语音,则称为非特定人语言识别。(3)语音识别研究的最终目标是要实现大词汇量、非特定人连续语音的识别,这样的系统才有可能完全听懂并理解人类的自然语言。(4)对说话人的声文进行识别:称之为说话人识别。这是研究如何根据语音来辨别说话人的身份、确定说话人的姓名。2. 汉语语音识别系统的工作原理及其应用 汉语语音听写机(CDM,Chinese Dictation Machine)是非特定人、大词汇量的连续语流(或连接词)识别系统,其目的是由计算机将人的语流转化为相应的文本信息。 在当今人与计算机交互日益频繁的条件下,探索高效而自然的交互方式是人们不断努力的目标。汉语语音听写机正是这样一种十分有潜力的人机交互系统,它可望把人从不自然的信息输入方式中解放出来,从而大大推进计算机的应用和发展。汉语听写机的系统结构(1)连续语音流的预处理波形硬件采样率的确定、分帧大小与帧移策略的确定;剔除噪声的带通滤波、高频预加重处理、各种变换策略;波形的自动切分(依赖于识别基元的选择方案)。 对模拟语音信号采样,将其数字化,采样频率的选取根据模拟语音信号的带宽依采样定理确定,以避免信号的频域混叠失真。连续语音流切分也称语音端点检测,它在连续语音识别的预处理中,是极其重要的环节。其目的是找出语音信号中的各种识别基元(如音素、音节、半音节、声韵母、单词或意群等)的始点和终点的位置,进而将对连续语音的处理变为对各个语音单元的处理,从而大大降低系统的复杂度,提高系统的性能。 识别基元分点的准确确定,不仅可以使得解码出的状态序列具有很高的准确性,而且对于树搜索方式的解码或帧同步搜索等算法来说,大大增加了直接剪枝的机会,因而会降低识别系统的时空复杂度,极大地提高系统总体性能。语音流的切分引擎分为两个层次: ①数据积累与粗略切分的状态图:它用来对连续采集的语音流进行积累,当达到适当的长度后,就可靠地分离出语音段与静音段。其功能是靠一个具有5个状态图来实现的,如下图所示。它所用到的特征主要是时域的,例如帧绝对能量、过零率等。②细节切分扫描过程:对上面的状态图输出的语音段进行细节切分,其最终的输出单位为上层语音识别系统所需要的基元(如音节、半音节、声韵母)或特定的段(如词或意群),并提供足够的附加信息(例如全音节的音调候选,词内所含音节个数范围、停顿时间等韵律信息)。它所用到的特征有时域的,也有频域和变换域的,例如基音周期的变化轨迹、FFT(fast fouriertransform)或LPCC(linear prediction code doefficent)等。 整个切分引擎的层次型结构如下图所示:语音流自动切分引擎层次示意图(2)特征参数提取:识别语音的过程,实际上是对语音特征参数模式的比较和匹配的过程。语音特征参数的选取对系统识别结果起着重要的作用。因此,必须寻找一个既能充分表达语音特征又能彼此区别的特征参数,这是语音识别中的一个最重要基本问题。语音识别系统常用的特征参数有线性预测系数、倒频谱系数、平均过零率、能量、短时频谱、共振峰频率及带宽等。本系统采用的参数是14维倒谱、14维差分倒谱、能量、一阶差分能量、二阶差分能量,共31维。计算参数时,分析帧长为200,窗移100。3)参数模板存储:在建立识别系统时,首先进行特征参数提取,然后对系统进行训练和聚类。通过训练,系统建立并存储个该系统需识别字(或音节)的参数模板库。这里声学识别采用基于段长分布的非齐次马尔可夫模型,模板是按半音节建立的,共150个。其中包括103个起始半音,47个终止半音。起始半音用2个状态,终止半音用4个状态。(4)识别判决:识别时,待识语音信号经过与训练时相同的特征参数提取后,与模式模板存储器中的模式进行匹配计算和比较,并根据一定的规则进行识别判决,最后输出识别结果。本系统首先进行音节识别:从408个音节中选出6个候选,按声调选出2个候选,将结果提供给理解部分。理解是基于语料库统计方法。我们希望实现的语音识别系统,也就是语音识别系统的最终目标,应该是:①不存在对说话人的限制,即非特定人的;②不存在对词汇量的限制,即基于大词汇表的;③不存在对发音方式的限制,即可识别连续自然发音的;④系统的整体识别率应该相当高,接近于人类对自然语音的识别能力。这也正是听写机系统最终要达到的目标。目前要完全实现上述要求,存在很多困难,这是因为: ①由于使用者之间在年龄、性别、口音、发音速度、语音强度、发音习惯与方式等方面存在着较大的差异,如果系统不能把这些差异排除掉,那么要实现对语音的稳定识别是不可能的;而要做到能够排除这些因素的干扰,保留它们的共性,这是很困难的; ②系统可以识别的词汇量越大,它所需要的空间和时间的花消就越多,并且随着词汇量的增多,词与词之间的差异就会变得越来越细微,最终将导致系统的识别性能急剧下降而丧失可用性; ③尽管连续发音是人们最为自然的发音方式,但是识别系统不可能把连续语音作为一个整体来进行识别,即系统的基本识别单元只能是连续语音的一个部分,并且由这些识别基元可以组成任意的连续语音。然而,连续语音中的识别基元同孤立情况下的识别基元有时并不是一致的,甚至要准确地从连续语音中分割出一个个的识别基元也是很困难的; ④我们希望最终的语音识别系统是非常实用的,这就要求它能在大多数的自然环境和计算机硬件环境下可靠高效地运行,这就需要提高语音特征参数的鲁棒性、对不同非高斯噪声的非敏感性,以及对不同用户的适应能力等,然而由于这些需求的复杂性,因而对这些目标的实现也是非常困难的。3. 语音识别技术的应用 语音识别技术应用于需要以语音作为人机交互手段的场合,主要是实现听写和命令控制功能。 从技术成熟程度、实际需要以及应用面大小等多方面的因素考虑,办公自动化成为优先应用的领域,在办公业务处理中,起草和形成各种书面文件是一个重要内容,但录入是一个很麻烦的事,在有些场合,如移动工作中,人的手和眼都很忙,设备和键盘也变得越来越小,如使用个人通信终端PDA,使用语音将使计算机的操作变得简单方便,而对于不能做键入动作的残疾人以及医学、法律和其他领域的工作人员,他们不能或不便用手将信息输入计算机,这些场合下,使用语音操作计算机就越发显得重要。电话商业服务是语音识别技术应用的又一个主要领域,基于电话线输入的语音信号识别系统将得到广泛的应用。语音技术的推广一直由于缺乏直接和吸引用户的应用而受阻,而计算机和电话的结合以及远程计算平均通话的发展则可能促进语音技术应用的普及。语音拨号电话机,具有语音识别能力的电话订票服务和自动话务转换系统在国外已经有一定程度的应用。当然对于现代通信来说,最重要的莫过于具有多种语言的口语识别、理解和翻译功能的电话自动翻译系统,唯此才能实现不限地点、不限时间、不限语言的全球性自由通信。 目前,计算机领域多媒体技术发展很快,使多媒体产品具有语音识别能力,将成为商业竞争中优先考虑的问题,现在越来越多的功能处理器和先进的软件已经实现把声音和语音功能集成到微机系统中,借助于具有命令识别能力的多媒体操作系统和具有语音识别能力的数据库系统,语音可以命令和控制计算机像代理一样为用户处理各种事务,从而极大地提高用户的工作效率。4. 计算机语音输出概述 一般来讲,实现计算机语音输出有两种方法:一是录音/重放,二是文一语转换。 用第一种方法,首先要把模拟语音信号转换成数字序列,编码后,暂存于存储设备中(录音),需要时,再经解码,重建声音信号(重放)。录音/重放可获得高音质声音,并能保留特定人或乐器的音色。但所需的存储容量随发音时间线性增长。 第二种方法是基于声音合成技术的一种声音产生技术。它可用于语音合成和音乐合成。文一语转换是语音合成技术的延伸,它能把计算机内的文体转换成连续自然的语声流。若采用这种方法输出语音,应预先建立语音参数数据库、发音规则库等。需要输出语音时,系统按需求先合成语音单元,再按语音学规则或语言学规则,连接成自然的语流。文一语转换的参数库不随发音时间增长而加大;但规则库却随语音质量的要求而增大。目前,世界上已研制出汉、英、日、法、德等语种的文-语转换系统,并在许多领域得到了广泛应用。语音合成涉及到多方面的相关技术。计算机话语输出按其实现的功能来分,可以分为以下档次: (1)有限词汇的计算机语音输出 这是最简单的计算机语音输出,适合于特定场合的要求。它可以采用录音/重放技术,或针对有限词汇采用某种合成技术,对语言理解没有要求。可用于语音报时、汽车报站等。 (2)基于语音合成技术的文字-语音转换 (TTS)。 进行由书面语言到语音的转换。它对书面语进行处理,将其转换为流利的,可理解的语音信号。这是目前计算机言语输出的主要研究阶段。它并不只是由正文到语音信号的简单映射,它还包括了对书面语言的理解,以及对语音的韵律处理。语音合成的方法: 从合成采用的技术讲可分为发音参数合成、声道模型参数合成和波形编辑合成;从合成策略上讲可分为频谱逼近和波形逼近。 (1)发音器官参数语音合成:这种方法对人的发音过程进行直接模拟。它定义了唇、舌、声带的相关参数。如唇开口度、舌高度、舌位置、声带张力等。由这些发音参数估计声道截面积函数,进而计算声波。但由于人发音生理过程的复杂性,理论计算与物理模拟之间的差异,合成语音的质量暂时还不理想。 (2)声道模型参数语音合成:这种方法基于声道截面积函数或声道谐振特性合成语音,如共振峰合成器、LPC合成器。国内外也有不少采用这种技术的语音合成系统。这类合成品在的比特率低,音质适中。为改善音质,发展了混合编码技术,主要手段是改善激励,如码本激励、多脉冲激励、长时预测规则码激励等,这样,比特率有所增大,同时音质得到提高。作为压缩编码算法,参数合成广泛用于通信、系统和多媒体应系统中。 (3)波形编辑语音合成技术:80年代末E.Moulines和F.Charpentier提出基于时域波形修改的语音合成算法,在PSO-LA(Pitch Synchronous Overlap Add)方法的推动下,此技术得到很大的发展与广泛的应用。波形编辑语音合成技术是直接把语音波形数据库中的波形相互拼接在一起,输出连续语流。这种语音合成技术用原始语音波形替代参数,而且这些语音波形取自自然语音的词或句子,它隐含了声调、重音、发音速度的细微特性,合成的语音清晰自然。其质量普遍高于参数合成。 PSOLA就是基音同步叠加。它把基音周期的完整性作为保证波形及频谱平滑连续的基本前提。该算法按以下三步实施:对原始波形进行分析,产生非参数的中间表示;对中间表示进行修改;将修改过的中间表示重新合成为语音信号,由于修改的参数不同,又分为TD-PSOLA、FD-PSOLA和LP-PSOLA。 这种语音波形编辑技术多用于文-语转换系统中,现已有英、日、德、法、汉语等多种语言的系统问市。采用这种技术应解决好以下几个问题:语音基元的选取、波形拼接过程中的平滑滤波;韵律修改以及语言学的分析和处理。 文-语转换(TTS)是一种智能型的语言合成,它涉及到语言学、语音学、语音信号处理、心理学等多个领域。它综合多学科的研究成果,将文字转换成声音,是我们解决计算机语音输出的一种好方法。计算机语音输出系统的发展方向是: (1) 特定应用场合的计算机言语输出系统 由于计算机言语输出的复杂性,用于普遍场合的言语输出系统的质量还不能达到使用户满意的地步,然而对于特定的应用,可以使系统达到实用的水平。如仪器设备中的语音提示;语音合成、数据库与电话系统的结合,实现有声信息服务。 (2) 韵律特征的获取与修改 人说话时含有丰富的韵律特征,这些特征对于表达语义和感情起着至关重要的作用。然而大部分书面语并不能携带丰富的韵律信息。如果忽视自然语言的韵律特征、个人特色,那么通过计算机言语合成只能得到单调枯燥的语音。当前,如何在合成的言语中增加韵律信息是计算机言语输出研究的热点问题。如采用神经网络训练系统、抽取韵律描述规则、设计韵律置标语言等。这些研究的成果将不断改善合成语音的自然度、提高其表现力。另一方面,合成系统也将模拟出具有特定音色的声音。 (3) 语言理解与语言合成的结合 为了产生高质量的计算机言语输出,必须对所要输出的语言有一定的理解,然后在输出的言语中更好地表达语义,从而提高输出言语的可理解度。自然语言理解和语言生成的结合为实现这一目标提供了途径。 (4) 计算机言语输出与计算机言语识别的结合 计算机言语输出与计算机言语识别是互补的两门学科,它们有许多相似之处,在某些方面它们可以相互借鉴。它们也是人机自然语言交互的两大基石。计算机言语输出和识别的成功将为通过自然语言实现人机交互创造条件。(5) 计算机言语输出与图像处理相结合 最近的一些研究表明,言语输出与图像处理相结合可以帮助听者的理解。在言语输出的过程中伴以话者的表情,可以更好地表达感情和语气,有利于听者的理解。与图像信息相结合为提高言语输出的质量提供了一条有效的途径。 目前,计算机领域多媒体技术发展很快,使多媒体产品具有语音识别和输出能力,将成为商业竞争中优先考虑的问题。 展开更多...... 收起↑ 资源预览