4.2.3MPEG-4音频编码2 课件(共15张PPT)-《多媒体技术应用》同步教学（高教版）

资源简介

(共15张PPT)
声音同文字一样是办公活动中最重要的信息形式,是人类进行信息交流的重要媒介之一。
随着声音处理技术的发展，计算机语音处理能力有了可喜的进展。现实所有声音已经完全立体多声道出现在计算机中；语音输入技术也在逐步的代替键盘输入文字信息；声音文件也可以方便快捷的进行编辑、修改、显示等处理；甚至完全靠计算机也能直接产生真实的音乐声……
this chapter
声音处理技术
contents
声音处理技术
MPEG-4音频编码
本节内容
MPEG-4 音频编码特点
参量编码
激励线性预测(CELP)编码
时间/频率（T/F）编码
结构化声音（SA)编码
文本到语音（TTS）集成
MPEG-4 音频编码特点
MPEG-4 是一种针对交互式多媒体应用的格式、框架的定义，具有高度的灵活性和扩展性，支持自然声音、合成声音及自然与合成声音混合的编码方式，以算法和工具形式对音频对象进行处理和控制，包含以下几种编码技术：
参量编码
激励线性预测(CELP)编码
时间/频率（T/F）编码
结构化声音（SA)编码
文本到语音（TTS）集成
MPEG-4将以前发展良好但相互分离的高质量音频编码、计算机音乐及合成语音等第一次合并在一起。
提供了HVXC 和 HILN 两种编码工具：
谐音矢量激励编码（HVXC）允许语言信号在2Kbit/s~4Kbit/s之间进行可分级编码，可以进行延迟模式上的分级操作。
参数编码
谐音和独立线性叠加噪声(HILN)允许非语言信号以4Kbit/s和更高的码率进行编码，支持在速度、音调、码率和复杂度上的可分级性。
激励线性预测（CELP）编码是一种基于线性预测 LPC和码表。
CELP通用综合分析模型中，线性预测涉及频谱包络（短期预测）和音调（长期预测）的相关语言参量，并考虑到信号非预测部分的码表激励。
CELP编码
相对于参量编码CELP具备较低的算法时延和在较高速率上对不易用参量模块描述的信号有较好特性的优点。
包含MPEG-2 AAC和变换域加权交错矢量量化（TwinVQ）两种编码方式，分别针对40Kbit/s以上及以下的编码比特率，编码器由时间/频率变换、频谱处理、量化和听觉心理模型构成。
用输入信号频谱编码的方法不依赖于输入信号的特殊模型，适用于任何输入信号编码，可以获得极好的音频质量。
时间/频率编码
合成音频的表达包括基于形貌的结构化音频和基于文本的语音合成，以编码参数提供反射、空间定向等效果的要领实现。
MPEG-4 的合成音频编码
结构化乐音（SA)工具
SA标准提供了关于合成音乐、声音效果、交互式多媒体场景下合成声音与自然声音的同步等方面有效、灵活的描述，代表了一种极具灵活性的工具，支持其他编码无法实现的交互式功能。
合成乐音描述
MIDI标准 + 乐器录音采样（DLS ）数据量大
结构音频命令语言（SAOL ）+ 结构音频记述语言（SASL）数据量小
TTS是一种文本-语音的转换系统，能够按照原语音的韵律及节奏进行语音合成。
文本-语音的转换（TTS)工具
并且运用文本以外的韵律信息（音韵记号、音韵的持续时间、音调轮廓、功率谱轮廓等）及面部动画工具进行同步语音合成，运用文本及口型嘴唇形状（Lip Shape）进行活动图像的同步配音，在进行快进/快退、暂停/重新开始等操作时，能够保持节奏和韵律不变，允许用户改变合成语音的播放速度、语调、音量以及播音人的性别和年龄等语音特征。
文本-语音的转换（TTS)工具

展开更多......

收起↑

请用微信扫码

4.2.3MPEG-4音频编码2 课件(共15张PPT)-《多媒体技术应用》同步教学（高教版）

4.2.3MPEG-4音频编码2 课件(共15张PPT)-《多媒体技术应用》同步教学（高教版）