第四章多媒体数据压缩编码技术课件(共92张PPT)- 《多媒体技术基础及应用（第2版）》同步教学（清华大学版）

资源简介

(共92张PPT)
第四章多媒体数据压缩编码技术
学习目的：　　
　　通过本章的学习，使学生掌握多媒体数据压缩编码的基本原理和算法、数据压缩编码的分类和方法。了解多媒体数据压缩编码的国际标准。
学习的知识点：
　　多媒体数据压缩、信息能被压缩原因、、多媒体数据压缩编码的国际标准JPEG、MPEG-1等内容。
学习要求：
　　掌握：数据冗余的概念和冗余的种类、霍夫曼（Huffman）编码的原理和方法、JPEG数据压缩的原理和实现技术。
　　理解：量化的原理和量化器的设计、MPEG-1的原理和实现技术。
　　了解：多媒体数据压缩的必要性和可能性、多媒体数据压缩的内涵、常用的压缩编码和算法（统计编码、预测编码、变换编码）、多媒体数据压缩编码的国际标准。
学习重难点：
　　重点：
　　·信息熵的概念
　　·统计编码、变换编码、预测编码的原理
　　·JPEG编码实现方法
　　·哈夫曼算法
　　难点：
　　·信息熵的概念
　　·哈夫曼算法
目录：
　　 4.1 多媒体数据压缩的必要性、可能性和分类
　　4.2 量化
　　4.3 统计编码
　　4.4 预测编码
　　4.5 变换编码
　　4.6 多媒体数据压缩编码的国际标准
4.1　多媒体数据压缩的重要性和分类
1．多媒体数据压缩编码的重要性
　　多媒体信息包括文本、数据、声音、动画、图像、图形以及视频等多种媒体信息。虽然经过数字化处理后其数据量是非常大的，如果不进行数据压缩处理，计算机系统就无法对它进行存储和交换。另一个原因是图像、音频和视频这些媒体具有很大的压缩潜力。因为在多媒体数据中，存在着空间冗余、时间冗余、结构冗余、知识冗余、视觉冗余、图像区域的相同性冗余、纹理的统计冗余等。它们为数据压缩技术的应用提供了可能的条件。因此在多媒体系统中必须采用数据压缩技术，这是多媒体技术中一项十分关键的技术。
未经过压缩的信息数据的示例
未经压缩的数据情况数据大小（约）一张CD-ROM可存（约）
一幅1024×768、24位真彩图像 2.26MB　 287张　
监测卫星采用四波段，按每天30幅的频率传输2340×3240真彩图像 2.5GB　 0.25天　
一分钟的立体声CD-A激光唱盘，采样频率44.1kHz，量化位16 10.09MB　 64分钟　
一分钟24位真彩、320×240、25帧/秒的PAL电视信号 329.6MB　 2分钟　
数据量巨大带来的问题：
　　1、要求提高存储器的容量
　　2、增加通信干线的信道传输率
　　3、提高计算机的速度。形成一种瓶颈。单纯靠扩大存储器的容量、增加通信干线的传输率的办法是不现实的。
　　数据压缩是以一定的质量损失为前提的，按照某种方法从给定的信源中推出已简化的数据表述。这里所说的质量损失一般都是在人眼允许的误差范围之内，压缩前后的图像如果不做非常细致的对比是很难觉察出两者的差别。处理一般是由两个过程组成：一是编码过程，即将原始数据经过编码进行压缩，以便存储与传输；二是解码过程，此过程对编码数据进行解码，还原为可以使用的数据。
2．多媒体数据压缩编码的可能性
　　音频与视频数据表示中存在大量的冗余，数据压缩技术就是研究如何利用数据的冗余性来减少数据量的方法。
　　（1）空间（空域）冗余
　　（2）时间（时域）冗余
　　（3）结构冗余
　　（4）知识冗余
　　（5）视觉冗余
　　（6）听觉冗余
　　（7）信息熵冗余（编码冗余）
（1）空间（空域）冗余
　　静态图像存在的一种主要数据冗余。同一景物表面上各采样点的颜色之间往往存在着空间连贯性，但是基于离散像素采样来表示物体颜色的方式通常没有利用景物表面颜色的这种连贯性，从而产生冗余。
（2）时间（时域）冗余
序列图像（电视画面、运动图像）表示中经常包含的冗余。序列图像一般为位于一时间轴区间内的一组连续画面，其中的相邻帧往往包含相同的背景和移动物体，只不过移动的物体所在的空间位置略有变化，所以前后相邻的帧的数据有许多共同的地方。这种共同性是由于相邻帧记录相邻时刻的同一场景画面引起的，所以称为时间冗余。同理，在言语中，由于人在说话时发音的音频是一连续的渐变过程，而不是一个完全在时间上独立的过程，因而也存在时间冗余。
（3）结构冗余
有一些图像的纹理区，图像的像素值存在着明显的分布模式。例如方格状的地板图案等。通过分布模型，可生成图像。
（4）知识冗余
有些图像的理解与某些知识有相当大的相关性。如：人脸的图像有固定的结构，嘴的上方有鼻子，鼻子的上方有眼睛，鼻子位于正面图像的中线上等等。这类规律性的结构可由先验知识和背景知识得到。这就是知识冗余。根据已有的知识，对某些图像中所包含的物体，构造出描述模型，并创建对应的各种特征的图像库，进行图像的存储只需要保存一些特征参数，从而可大大减少数据量。知识冗余是模型编码的主要利用的特征。
（5）视觉冗余
人类的视觉系统对图像场的敏感性是非均匀的和非线性的。然而，在记录原始图像数据时，通常假设视觉系统是线性和均匀的，对视觉敏感和不敏感的部分同等对待，从而产生了冗余的数据。
　　人类的视觉冗余：
　　①视觉系统对图像的亮度和色彩度的敏感性差异很大。对亮度的敏感性远远高于色彩度。
　　②随着亮度的增加，视觉系统对量化误差的敏感度降低。即人眼的辨别能力与物体周围的背景亮度成反比。这样，对于高亮度区域，灰度值的量化可以粗糙些。
　　③人眼的视觉系统是把图像的边缘和非边缘区域分开来处理的。据此图像可以分成非边缘区域和边缘区域分别进行编码。边缘区域是指灰度值发生剧烈变化的地方，非边缘区域是指边缘之外的图像其他任何部分。
　　④人类的视觉系统总是把视网膜上的图像分解成若干空间有向的频率通道后再行处理。小波编码就利用了这个特性。
　　⑤人类视觉系统一般的分辨力估计是26灰度级，而一般图像的量化采用28灰度级。
（6）听觉冗余
　①人的听觉具有掩蔽效应。这是强弱不同的声音同时存在或在不同时间先后发生时出现的现象。
　　②人耳对不同频段的声音的敏感程度不同，并不能察觉所有频率的变化，对某些频率变化不特别关注，通常对低频端较之对高频端更敏感。
　　③人耳对语音信号的相位变化不敏感。
（7）信息熵冗余（编码冗余）
信息熵是指一组数据所携带的平均信息量。
　　由信息理论的有关原理可知，表示图像信息数据的一个像素，只要按其信息熵的大小分配相应的比特数即可。然而对于实际图像数据的每个像素，很难得到它的信息熵，在数字化一幅图像时，对每个像素是用相同的符号，这样必然存在冗余。比如，使用相同码长表示不同出现概率的符号，则会造成比特数的浪费。如果采用可变长编码技术，对出现概率大的符号用短码字表示，对出现概率小的符号用长码字表示，则可去除符号冗余，从而节约码字。
　
种类内容目前用的主要方法
统计
特性空间冗余像素间的相关性变换编码，预测编码
时间冗余时间方向上的相关性帧间预测，移动补偿
结构冗余图像本身的构造轮廓编码，区域分割
知识冗余收发两端对人物的共有认识基于知识的编码
视觉冗余人的视觉特性非线性量化、位分配
其他不确定性因素
电视图像压缩利用的各种冗余信息
数据压缩就是去掉信号数据的冗余性。数据压缩常常又称为数据信源编码，或简称为数据编码。与此对应，数据压缩的逆过程称为数据解压缩，也称为数据信源解码，或简称为数据解码。
3．多媒体数据压缩编码的分类
　　多媒体数据压缩的方法根据不同的依据可产生不同的分类。
　　第一种，常用的压缩编码方法可根据质量是否有损失可以分为两大类，一类是无损压缩法（冗余压缩法）、一类是有损压缩法（熵压缩法）、有失真压缩法。
　　无损压缩法（Lossless compression coding）和有损压缩法（Loss compression coding）
　　第二种，按照其作用域在空间域或频率域上分为：空间方法、变换方法和混合方法。
　　第三种，根据是否自适应分为自适应性编码和非自适应性编码。
　　第四种，根据编码后产生的码词长度是否相等，数据编码又可分为定长码和变长码两类。
多媒体数据编码算法
　（1）脉冲编码调制PCM
　　（2）预测编码
　　（3）变换编码
　　（4）统计编码
　　（5）混合编码
（1）脉冲编码调制PCM
　　数据编码方式之一。主要过程是将话音、图像等模拟信号每隔一定时间进行取样，使其离散化，同时将抽样值按分层单位四舍五人取整量化，同时将抽样值按一组二进制码来表示抽样脉冲的幅值。
　（2）预测编码
　　编码器记录的不是样本的真实值，而是它对预测值的差。这种编码方式称为差值脉冲编码调制（DPCM）。预测值由欲编码图像信号的过去信息决定。通常采用线性预测。由于空间相关性，真实值与预测值的差值的变化范围远远小于真实值的变化范围，因而可以彩较少的位数来表示。另外，若利用人的视觉特性对差值进行非均匀量化，则会获得更高的压缩比。
（3）变换编码
　　其主要思想是利用图像块内像素值之间的相关性，把图像变换到一组新的基上，使得能量集中在少数变换系数上，通过存储这些系数从而达到压缩图像的目的。在变换编码中，由于对整幅图进行变换的计算量太大，所以一般把原始图像分成许多个矩形区域子图像独立进行变换。如DCT变换。
（4）统计编码
　　最常用的统计编码是Huffman编码。其基本原理是根据信源的频率进行编码。对于出现频率大的符号用较少的位数来表示，而对于出现频率小的符号用较多位数来表示。这种方法的压缩率取决符号的分布频率，分布越集中压缩效果越好。
还有一种算术编码方法，也是统计编码。算术编码适合于信源符号概率比较接近的情况。在JPEG的扩展系统中，用算术编码代替Huffman编码。
（5）混合编码
　　一般是将预测编码和变换编码合并使用。比如在一个方向上进行变换，在另一个方向上用DPCM对变换系数进行预测编码。或是对动态图像二维变换加上时间方向上的DPCM预测。
数据压缩技术的重要指标
　　衡量一种数据压缩技术的好坏有3个重要指标。
　　一是，压缩比要大，即压缩前后所需要的信息存储量之比要大；
　　二是，实现压缩的算法要简单，压缩、解压速度要快，尽可能地做到实时压缩解压；
　　三是，恢复效果要好，要尽可能地恢复原始数据。
4.2　多媒体数据的量化
1．量化（Quantization）概念与原理
　　量化的作用是在图像质量或声音质量达到一定保真度的前提下，舍弃那些对视觉或听觉影响不大的信息。
　　量化的过程是模拟信号到数字信号的映射。模拟量是连续量，而数字量是离散量，因此量化操作实际上是用有限的离散量代替无限的连续模拟量的多对一的映射操作。
　　量化概念主要来自于从模拟量到数字量的转换，即A/D转换，也就是通过采样把连续的模拟量离散化。量化过程预先设置一组判决电平和一组重建电平，各个判决电平覆盖一定的区间，所有判决电平将覆盖整个有效取值区间。量化时将模拟量的取样值同这些电平比较，若采样值幅度落在覆盖区间之上，则取这个量化级的代表值，称为码字。一个量化器只能取有限多个量化级，因此量化过程不可避免地存在量化误差。
　　量化方法分为标量量化和矢量量化。
2．标量量化
　　标量量化是一维量化，它使用一个量化器进行量化，每个采样的量化都和其他采样无关。A/D转换器中所使用的PC编码器是最典型的例子。标量量化的输入-输出特性采用阶梯形函数的形式。
　　标量量化又可分为均匀量化、非均匀量化和自适应量化。
均匀量化、非均匀量化和自适应量化
　　均匀量化是将量化输入值的振幅进行等值均分，优点是计算处理简单，缺点是量化误差大。
　　非均匀量化就是将输入数据的振幅，按照其变化曲线的曲率大小进行不等值划分，优点是量化误差小，缺点是计算处理复杂，需要较多的比特数。
　　自适应量化是按照输入数据的变化曲率的局部区域的特点，自适应地修改和调整量化器的箱宽，优点是量化误差小，缺点是算法设计复杂、硬件实现难度大、成本高。
均匀量化、非均匀量化和自适应量化
3．矢量量化（Vector Quantization）
　　量化时一次量化多个点，即将输入数据几个一组地分成许多组，成组的量化编码，这种方法就是矢量量化。矢量量化又称为多维量化，是从称为码本的码字集合中选出最紧密适配于输入序列的一个码字来近似一个采样序列，这种方法以输入序列与选出的码字之间失真最小为依据。矢量量化与标量量化相比有更大的数据压缩能力。
　　矢量量化经常与其他的编码方法一同构成混合方法使用。一般是与变换编码相结合使用，对信源进行变换后，形成多维向量组，然后到码本中寻找最佳码字。矢量量化是一种有失真的编码过程。
矢量量化编码原理框图
图中输入矢量X是一个待编码的k维矢量，该矢量原则上既可以是原始图像，也可以是图像的预测误差或变换矩阵分块（或称分组）。码本C是一个具有N个k维矢量的集合，即C={Yi},i=1,2,...,N，它实际上是一个长度为N的表，这个表的每个分量是一个k维矢量Yi，称为码字。
　　矢量编码的过程就是在码本C中搜索一个与输入矢量最接近的码字Yi。传输时，并不传送码字Yi本身，而只需传送码字Yi的下标i。在接收端解码器中，有一个与发送端面相同的码本C，根据下标i可简单地用查表法找到Yi作为对应X的近似。
4．量化器
　　对模拟量进行数字化时，要经历一个量化过程，这需要使用量化器。如果要量化的数据在其动态范围内的概率密度服从均匀分布，则量化级别可以等间隔地分配。
　　量化器的设计方法有两种：第1种是当量化器的量化电平数K已给定时，根据量化误差的均匀值取最小值的原则来设计；第2种是给出固定的量化噪声或失真要求，以量化电平总数K尽量小为原则来设计。
　　如何降低量化器误差是量化需要考虑的主要问题，另一个就是尽量少的比特数输出。显然这是一对矛盾，不能同时满足，只能根据不同的需要，设计不同的量化器，并求得上述问题的折中处理。
4.3　统计编码
1．统计编码原理──信息量和信息熵
　　根据香农信息论的原理，最佳的数据压缩方法的理论极限是信息熵。如果要求在编码过程中不丢失信息量，即要求保存信息熵，这种信息保持的编码又叫熵保存编码，或叫熵编码。熵编码是无失真压缩。当然在考虑人眼失真不易察觉的生理特性时，有些图像编码不严格要求熵保存，信息允许通过部分损失来换取高的数据压缩比。这种编码属于有失真数据压缩。
　　信息是用不确定性的量度定义的，也就是说信息被假设为由一系列的随机变量所代表，它们往往用随机出现的符号来表示。我们称输出这些符号的源为“信源”。也就是要进行研究与压缩的对象。
　　信息量
　　信息熵
　　定长码与变长码
信息量
　　信息量指从N个相等可能事件中选出一个事件所需要的信息度量或含量，也可以说是辨别N个事件中特定事件过程中所需提问“是”或“否”的最小次数。
　　例如：从64个数（1～64的整数）中选定某一个数（采用折半查找算法），提问：“是否大于32？”，则不论回答是与否，都消去半数的可能事件，如此下去，只要问6次这类问题，就可以从64个数中选定一个数，则所需的信息量是 =6（bit）。
　　我们现在可以换一种方式定义信息量，也就是信息论中信息量的定义。
　　设从N中选定任一个数X的概率为P(x)，假定任选一个数的概率都相等，即P(x)=1/N，则信息量I (x)可定义为：
上式可随对数所用“底”的不同而取不同的值，因而其单位也就不同。设底取大于1的整数α，考虑一般物理器件的二态性，通常α取2，相应的信息量单位为比特（bit）；当α=e，相应的信息量单位为奈特（Nat）；当α=10，相应的信息量单位为哈特（Hart）。
　　显然，当随机事件x发生的先验概率P(x)大时，算出的I(x)小，那么这个事件发生的可能性大，不确定性小，事件一旦发生后提供的信息量也少。必然事件的P(x)等于1， I(x)等于0，所以必然事件的消息报导，不含任何信息量；但是一件人们都没有估计到的事件（P(x)极小），一旦发生后，I(x)大，包含的信息量很大。所以随机事件的先验概率，与事件发生后所产生的信息量，有密切关系。I(x)称x发生后的自信息量，它也是一个随机变量。
　　P(x)大时，算出的I(x)小必然事件的P(x)等于1， I(x)等于0。
　　P(x)小时，算出的I(x)大必然事件的P(x)等于0， I(x)等于1。
　　I(x)称x发生后的自信息量，它也是一个随机变量。
信息熵
　　现在可以给“熵”下个定义了。信息量计算的是一个信源的某一个事件（X）的自信息量，而一个信源若由n个随机事件组成，n个随机事件的平均信息量就定义为熵(Entropy)。
　　熵的准确定义是：信源X发出的xj(j=1,2,……n), 共n个随机事件的自信息统计平均（求数学期望），即
H(X)在信息论中称为信源X的“熵（Entropy）” ，它的含义是信源X发出任意一个随机变量的平均信息量。
　　更详细的说，一般在解释和理解信息熵有4种样式
　　（1）当处于事件发生之前，H(X)是不确定性的度量；
　　（2）当处于事件发生之时，是一种惊奇性的度量；
　　（3）当处于事件发生之后，是获得信息的度量；
　　（4）还可以理解为是事件随机性的度量．
下面为了掌握信息熵的概念，我们来做一道计算题。
　　例如：以信源X中有8个随机事件，即n=8。每一个随机事件的概率都相等，即P(x1)=P(x2)=P(x3)……P(x8)=1/8 ，计算信源X的熵。
　　应用“熵”的定义可得其平均信息量为3比特
　再例：信源X中有17个随机事件，即n=17。每一个随机事件的概率分别为：
计算信源X的熵。
　　信息熵的计算公式：
信源X的熵：
定长码与变长码
　　定长码（fixed-length code）即采用相同的位数（bit）对数据进行编码。大多数存储数字信息的编码系统都采用定长码。如我们常用的ASCII码就是定长码，其码长为1字节（Byte）。汉字国标码也是定长码，其码长为2字节（Byte）。
　　变长码（variable-length code）即采用不相同的位数（bit）对数据进行编码，以节省存储空间。
　　例如，不同的字符或汉字出现的概率是不同的，有的字符出现的概率非常高，有的则非常低。根据统计，英文字母中“E”的使用概率约为13％，而字母“Z”的使用概率则为0.08％。又如大多数图像常含有单色的大面积图块，而且某些颜色比其他颜色出现更频繁。为了节省空间，在对数据进行编码时，就有可能对那些经常出现的数据指定较少的位数表示，而那些不常出现的数据指定较多的位数表示。这样从总的效果看还是节省了存储空间。用这种方法得到的代码，其码的位数，也即码长就是不固定的，故称为变长码。香农-范诺编码，以及霍夫曼编码，都是变长码。
2．赫夫曼（Huffman）编码
　　基本原理：按信源符号出现的概率大小进行排序，出现概率大的分配短码，出现概率小的则分配长码。（定长码采用相同的码长对数据进行编码，如ASCII码是定长码，其码长为1字节。）
　　定理：在变长码中，对于出现概率在的信息符号编以短字长的码，对于出现概率小的信息符号以长字长的码，如果码字长度严格按照符号概率的大小的相反顺序排列，则平均码字长度一定小于按任何其他符号顺序排列方式得到的码字长度。
2．赫夫曼（Huffman）编码
　　定理证明
　　Huffman编码的编码步骤
　　利用Huffman编码方式对信源进行编码
　　Huffman编码的特点
定理证明
设最佳排列方式的码字平均长度为，则有：
　　　
　　式中为信源符号出现的概率，是符号的编码
长度。规定，。如果将的码字与的码字互换，其余码字不变，经过这样的互换以后，平均码字长度变成，即
因为，所以，也就是说最短。证毕。
Huffman编码的编码步骤
　　① 概率统计（如对一幅图像，或m幅同种类型图像作灰度信号统计），得到n个不同概率的信息符号。
　　② 将n个信源信息符号的n个概率，按概率大小排序。
　　③ 将n个概率中，最后两个小概率相加，这时概率个数减为n-1个。
　　④ 将n-1个概率，按大小重新排序。
　　⑤ 重复③，将新排序后的最后两个小概率再相加，相加和与其余概率再排序。
　　⑥ 如此反复重复n-2次，得到只剩两个概率序列。
　　⑦ 以二进制码元(0.1)赋值，构成霍夫曼码字。编码结束。
利用Huffman编码方式对信源进行编码
已知信源：
编码结果：
平均码长：＝（0.35＋0.20）×2＋（0.15＋0.10＋0.10）×3＋（0.06＋0.04）×4＝2.55（bit）　（对于等长码则需要3比特）。
X1 X2 X3 X4 X5 X6 X7
00 10 010 011 110 1110 1111
利用Huffman编码方式对信源进行编码
Huffman编码的特点
　　（1）平均码长（熵）；
　　（2）平均码长 bits（等长码需要的比特数）；
　　（3）保证解码的唯一性，短码字不构成长码字的前缀；
　　（4）在接收端需保存一个与发送端相同的赫夫曼码表。
　Huffman不足方面：
　　（1）构造出的码不唯一，其原因是：一是在给两个分支赋值时，可以是左支（或上支）为0，也可以是右支（或下支）为0，造成编码的不唯一；二是当两个消息的概率相等时，谁前谁后也是随机的，构造出来的码字也不唯一。
　　（2）编码码字字长参差不齐，因此硬件实现起来不大方便。
　　（3）编码对不同信编码效率是不同的。在概率颁很不均匀时，Huffman编码才会有显著的效果，在信源颁均匀的情况下，一般不使用Huffman编码。
3．算术编码（Arithmetic Coding）
　　算术编码方法也是利用信源概率分布特性、能够趋近熵极限的编码的方法。算术编码不按符号编码，即不是用一个特定的码字与输入符号之间建立一一对应的关系，而是从整个符号序列出发，采用递推形式进行连续编码，用一个单独的浮点数来表示一串输入符号。算术编码是将被编码的信息表示成实数0和1之间的一个间隔。信息越长编码表示它的间隙就越小，表示这一间隙所须二进位就越多，大概率符号出现的概率越大对应于区间愈宽，可用长度较短的码字表示；小概率符号出现概率越小层间愈窄，需要较长码字表示。它的编码方法比Huffman编码方式要复杂，但它不需要传送像Huffman编码中的Huffman码表，同时算术编码还有自适应的优点，所以算术编码是实现高效压缩数据中很有前途的编码方法。
　　特点：方法比较复杂，具有自适应能力（随着编码符号流中01出现的概率的变化将自适应的改变）。在信源符号概率接近时，算术编码比Huffman编码效率要高。
　算术编码与解码举例
　假设信源符号为{00, 01, 10, 11}，这些符号的概率分别为{ 0.1, 0.4, 0.2, 0.3 }，根据这些概率可把间隔[0,1)分成4个子间隔：[0, 0.1), [0.1, 0.5), [0.5, 0.7), [0.7, 1)，其中[x,y)表示半开放间隔，即包含x不包含y。上面的信息可综合在下表中。
表信源符号，概率和初始编码间隔
符号 00　 01　 10 11
概率 0.1　 0.4 0.2 0.3
初始编码间隔 [0,0.1)　 [0.1,0.5) [0.5,0.7) [0.7,1)
如果二进制消息序列的输入为：10 00 11 00 10 11 01。编码时首先输入的符号是10，找到它的编码范围是[0.5, 0.7)。由于消息中第二个符号00的编码范围是[0, 0.1)，因此它的间隔就取[0.5, 0.7)的第一个十分之一作为新间隔[0.5, 0.52)。依此类推，编码第3个符号11时取新间隔为[0.514, 0.52)，编码第4个符号00时，取新间隔为[0.514, 0.5146)，… 。消息的编码输出可以是最后一个间隔中的任意数。整个编码过程如下图示：
表: 编码过程
步骤输入符号编码间隔编码判决
1 10 [0.5, 0.7) 符号的间隔范围[0.5, 0.7)
2 00 [0.5, 0.52) [0.5, 0.7)间隔的第一个1/10
3 11 [0.514, 0.52) [0.5, 0.52)间隔的最后三个1/10
4 00 [0.514, 0.5146) [0.514, 0.52)间隔的第一个1/10
5 10 [0.5143, 0.51442) [0.514, 0.5146)间隔的第六个1/10开始的两个1/10
6 11 [0.514384, 0.51442) [0.5143, 0.51442)间隔的最后三个1/10
7 01 [0.5143836, 0.514402) [0.514384, 0.51442)间隔的从第二个1/10开始的四个1/10
8 从[0.5143876, 0.514402中选择一个数作为输出：0.51439
表：译码过程
步骤间隔译码符号译码判决
1 [0.5, 0.7) 10 0.51439在间隔 [0, 1) 第六个1/10
2 [0.5, 0.52) 00 0.51439在间隔 [0.5, 0.7)的第一个1/10
3 [0.514, 0.52) 11 0.51439在间隔[0.5, 0.52)的第八个1/10
4 [0.514, 0.5146) 00 0.51439在间隔[0.514, 0.52)的第一个1/10
5 [0.5143, 0.51442) 10 0.51439在间隔[0.514, 0.5146)的第七个1/10
6 [0.514384, 0.51442) 11 0.51439在间隔[0.5143, 0.51442)的第八个1/10
7 [0.5143876, 0.514402) 01 0.51439在间隔[0.5143876, 0.514402)的第二个1/10
8 译码的消息：10 00 11 00 10 11 01
译码器的译码过程应无限制地运行下去。在译码器中需要添加一个专门的终止符，当译码器看到终止符时就停止译码。
　　在算术编码中需要注意的几个问题：
　　①由于实际的计算机的精度不可能无限长，运算中出现溢出是一个明显的问题，但多数机器都有16位、32位或者64位的精度，因此这个问题可使用比例缩放方法解决。
　　②算术编码器对整个消息只产生一个码字，这个码字是在间隔[0, 1)中的一个实数，因此译码器在接受到表示这个实数的所有位之前不能进行译码。
　　③算术编码也是一种对错误很敏感的编码方法，如果有一位发生错误就会导致整个消息译错。
算术编码可以是静态的或者自适应的。在静态算术编码中，信源符号的概率是固定的。在自适应算术编码中，信源符号的概率根据编码时符号出现的频繁程度动态地进行修改，在编码期间估算信源符号概率的过程叫做建模。需要开发自适应算术编码的原因是因为事先知道精确的信源概率是很难的，而且是不切实际的。当压缩消息时，不能期待一个算术编码器获得最大的效率，所能做的最有效的方法是在编码过程中估算概率。因此动态建模就成为确定编码器压缩效率的关键。
　　算术编码的实现相应地比Huffman编码复杂，但当与信号源符号的出现概率接近时，算术编码的效率高于Huffman编码。在图像测试中表明，算术编码效率比Huffman效率高5%左右。
4.4　预测编码
1．预测编码的基本原理
　　预测编码（Prediction Coding）是根据某一种模型，利用以前的（已收到）一个或几个样值，对当前的（正在接收的）样本值进行预测，将样本实际值和预测值之差进行编码。如果模型足够好，图像样本时间上相关性很强，一定可以获得较高的压缩比。具体来说，从相邻像素之间有很强的相关性特点考虑，比如当前像素的灰度或颜色信号，数值上与其相邻像素总是比较接近，除非处于边界状态。那么，当前像素的灰度或颜色信号的数值，可用前面已出现的像素的值，进行预测（估计），得到一个预测值（估计值），将实际值与预测值求差，对这个差值信号进行编码、传送，这种编码方法称为预测编码方法。
　　预测编码的基本思想
　　建立一个数学模型利用以往的样本数据对新样本值进行预测
将预测值与实际值相减对其差值进行编码，这时差值很少，可以减少编码码位。
2．预测编码的分类
　　最佳预测编码：在均方误差最小的准则下，使其误差最小的方法。
　　线性预测：利用线性方程计算预测值的编码方法。非线性预测：利用非线性方程计算预测值的编码方法。线性预测编码方法，也称差值脉冲编码调制法（Differention Pulse Code Modulation，DPCM）。
　　如果根据同一帧样本进行预测的编码方法叫帧内预测编码。根据不同帧样本进行预测的编码方法叫帧间预测编码。
　　如果预测器和量化器参数按图像局部特性进行调整，称为自适应预测编码（ADPCM）
　　在帧间预测编码中，若帧间对应像素样本值超过某一阈值就保留，否则不传或不存，恢复时就用上一帧对应像素样本值来代替，称为条件补充帧间预测编码。
　　在活动图像预测编码中，根据画面运动情况，对图像加以补偿再进行帧间预测的方法称为运动补偿预测编码方法。
3．DPCM编码算法
　　一幅二维静止图像，设空间坐标(i,j)像素点的实际样本为f(i,j)，是预测器根据传输的相邻的样本值对该点估算得到的预测（估计）值。编码时不是对每个样本值进行量化，而是预测下一个样本值后，量化实际值与预测值之间的差。计算预测值的参考像素，可以是同一行扫描行的前几个像素，这种预测叫一维预测；也可以是本行、前一行或者前几行的像素，这种预测叫二维预测；除此之外，甚至还可以是前几帧图像的像素，这种预测就是三维预测。一维预测和二维预测属于帧内预测，三维预测则属于帧间预测。
　　实际值和预测值之间的差值，以下式表示：e(i,j)=f(i,j)-
　　将差值e(i,j)定义为预测误差，由于图像像素之间有极强的相关性，所以这个预测误差是很小的。编码时，不是对像素点的实际灰度f(i,j)进行编码，而是对预测误差信号进行量化、编码、发送，由此而得名为差值脉冲编码调制法，简写DPCM。
DPCM预测编、解码的原理图如下。
DPCM系统包括发送端、接收端和信道传输3个部分。发送端由编码器、量化器、预测器和加减法器组成；接收端包括解码器和预测器等。DPCM系统的结构简单，容易用硬件实现。
　　预测编码的步骤：
　　①f(i,j)与发送端预测器产生的预测值相减得到预测误差e(i,j)。
　　②e(i,j)经量化器量化后变为e'(i,j)，同时引起量化误差。
　　③e'(i,j)再经过编码器编成码字发送，同时又将e'(i,j)加上恢复输入信号f'(i,j)。因存在量化误差，所以f(i,j)≠f'(i,j)，但相当接近。发送端的预测器及其环路作为发送端本地解码器。
　　④发送端预测器带有存储器，它把f'(i,j)存储起来以供对后面的像素进行预测。
　　⑤继续输入下一像素，重复上述过程。
4．预测编码方法的特点
　　①算法简单、速度快、易于硬件实现。
　　②编码压缩比不太高,DPCM一般压缩到2～4bit/s。
　　③误码易于扩散，抗干扰能力差。
4．预测编码方法的特点
　　①算法简单、速度快、易于硬件实现。
　　②编码压缩比不太高,DPCM一般压缩到2～4bit/s。
　　③误码易于扩散，抗干扰能力差。
变换编码系统中压缩数据分为三步，即变换、变换域采样和量化。变换本身并不进行压缩，只是把数据映射到另一个域，使信号在变换域里容易进行压缩，变换后的样值更独立和有序。这样，量化操作通过比特分配可以有效地压缩数据。
正交变换的几何意义
现在举一个例子，设有两个相邻的数据样本x1与x2，每样本采用3bit编码，因此各有23=8个幅度等级。而两个样本的联合事件，共有8×8=64种可能性，可用二维平面坐标表示。其中x1轴与x2轴分别表示相邻两样本可能的幅度等级。对于慢变信号，相邻两样本x1与x2同时出现相近幅度等级的可能性较大。因此，如图阴影区内45°斜线附近的联合事件，其出现概率也就较大，不妨将此阴影区之边界称为相关圈。信源的相关性愈强，则相关圈愈加扁长。或者形象地说，x1与x2呈现“水涨船高”的紧密关联特性。为了要对圈内各点的位置进行编码，就要对两个差不多大的坐标值分别进行编码。当相关性愈弱时，此相关圈就愈显方圆形状，说明x1处于某一幅度等级时，x2可能出现在不相同的任意幅度等级上。
　　现在若对该数据对进行正交变换，从几何上相当于坐标系旋转45°，变成y1，y2坐标系。那么此时该相关圈正好处在y1坐标轴上下，且该圈愈扁长，其在y1上的投影就愈大，而在y2上的投影就愈小。因而从y1，y2坐标来看，任凭y1在较大范围内变化，而y2却巍然“不动”或只有“微动”。这就意味着变量y1和y2之间在统计更加相互独立。因此，通过这种坐标系旋转变换，就能得到一组去掉大部分甚至全部统计相关性的另一种输出样本。
正交变换的几何意义
变换编码技术上比较成熟，广泛应用于各种图像数据压缩，如单傅立叶（Fouries）变换、沃尔什（Walsh）变换、哈尔（Haar）变换、斜（slant）变换、余弦变换、正弦变换、K-L（Karhunen - Loeve）变换等。离散Karhunen - Loeve（K-L）变换是以图像的统计特性为基础的一种正交变换，也称为特征向量变换或主分量变换。
2．离散余弦变换（DCT）
　　变换编码的理论基础是“联合信息熵必不大于各分量信息熵之和。”也就是说，对于联合信源（x,y），其冗余度也隐含在信源间的相关性之中，通常不易直接对各分量进行编码；应尽量去除各分量间的相关性。
　　余弦变换是傅里叶变换的一种特殊情况。在傅里叶级数展开式中，如果被展开的函数是实偶函数，那么，其傅里叶级数中只包含余弦项，再将其离散化由此可导出余弦变换，或称之为离散余弦变换（Discrete Cosine Transtorm，DCT）。
　　离散余弦变换，在数字图像数据压缩编码技术中，可与最佳变换K-L变换媲美，因为DCT与K-L变换压缩性能和误差很接近，而DCT计算复杂度适中，又具有可分离特性，还有快速算法等特点，所以近年来在图像数据压缩中，采用离散余弦变换编码的方案很多，特别是90年代迅速崛起的计算机多媒体技术中，JPEG、MPEG、H.261等压缩标准，都用到离散余弦变换编码进行数据压缩。
4．6　多媒体数据压缩编码的国际标准
　　由于多媒体技术迅速发展，用户如何选择产品，用户能自由地，组合、装配来自不同厂家的产品部件，构成自己满意的系统？！这就提出了一个不同厂家产品的兼容性问题，因此需要一个，全球性的统一的国际技术标准。
　　国际标准化协会(International Standardization Organization ISO)，国际电子学委员会(International Electronics Committee IEC)，国际电信协会(International Telecommunication Union ITU)等国际组织，于90年代领导制定了三个重要的多媒体国际标准，①JPEG标准，②H.261标准；③MPEG标准。
一．静态图像压缩编码的国际标准（JPEG）
　　1986年CCITT和ISO两个国际标准化组织联合成立一个联合图像专家组JPEG（Joint Photograohic Exoerts Group），该小组开发研制出连续色调、多级灰度、静止图像的数字图像压缩编码方法，这个压缩编码方法就是JPEG算法，于1991年成为正式的国际标准。该标准不仅适用于静态图像的压缩，对于电视图像序列中的帧内图像的压缩编码也常用JPEG压缩标准。基于离散余弦变换（DCT）的编码方法是JPEG算法的核心内容。
　　JPEG只有帧内压缩，每帧可随机存取。JPEG压缩方法满足以下要求：
　　（1）达到或接近当前压缩比与图像保真度的技术水平，用户可选择期望的压缩/质量比。
　　（2）能适用于任何连续色调数字图像，且长宽比都不受限制，同时也不受限于景物内容、图像的复杂程序和统计特性等。
　　（3）计算机的复杂性是可控制的，其软件可在各种CPU上完成，算法也可用硬件实现。
　　（4）为了适应不同的应用需求，JPEG标准提供了4种不同的工作模式，用户可以根据自身需要进行选择。
JPEG标准提供了4种不同的工作模式
　①顺序编码模式。每个图像分量从左到右、从上到下扫描，一次扫描完成编码。
　　②累进编码模式（递增编码模式）。图形编码在多次扫描中完成。累进编码传输时间长，接收端收到的图像是多次扫描由粗糙到清晰的累进过程。
　　③无失真编码模式。保证解码后，完全精确地恢复源图像采样值，其压缩比低于有失真的编码方法。
　　④分层编码模式。图像在多个空间分辨率进行解码。当信道传送速率慢、接收端显示器分辨率也不同的情况下，只需要做低分辨率图像解码，不必进行高分辨率解码。
基于离散余弦变换（DCT）的有失真JPEG编码示例
基于离散余弦变换（DCT）的有失真JPEG编码算法包括基本系统和增强系统两种不同层次的系统，并定义了两种工作方式：顺序方式和累进方式。基本系统采用顺序方式，编码过程中只采用霍夫曼编码，且只能存储两套码表。增加系统是基本系统的扩充，可采用累进工作方式、分层工作方式等，熵编码时可选用霍夫曼码或算术编码。
　　基于DCT编码的过程为先进行正变换，再对DCT系数进行量化，并对量化后的直流系数和交流系数分别进行差分编码或行程编码，最后再进行熵编码。
（1）离散余弦变换（DCT）
　　首先把一幅图像（单色图像的灰度值或彩色图像的亮度分量或色度分量信号）分成8×8的块进行离散余弦正变换（FDTC）或离散余弦逆变换（IDCT）。
在编码器的输入端，原始图像被分成一系列8×8的块，作为离散余弦正变换（FDTC）的输入。在解码器的输出端，离散余弦逆变换（IDCT）输出许多8×8的数据块，用以重构图像。8×8FDCT正变换和8×8IDCT逆变换的数学定义表达式如下：
　IDCT：
　　FDCT：
其中：
（2）量化
　　为了达到压缩数据的目的，对DCT系数F（u,v）需作量化处理。如果没有量化过程，经过离散余弦逆变换（IDCT）原始图像就能精确恢复。量化的作用是在一定的主观保真度图像质量的前提下，丢掉那些对视觉效果影响不大的信息。量化处理是一个多到一的映射，它是造成DCT编解码信息损失的根源。在JPEG标准中采用线性均匀量化器。量化定义为对64个DCT变换系数F（u,v）除以量化步长Q（u,v）后四舍五入取整。
　　
（3）DC系数编码和AC系数的行程编码
　　经过离散余弦变换后得到的64个变换系数经量化后，坐标0，0的系数是直流分量DC，其它的为交流分量AC。转换后DC系数采用DPCM编码或差分编码，AC系数采沿对角线方向，以“Z”字形方式进行行程扫描，进行行程编码。
　（4）熵编码
　　为进一步达到压缩数据的目的，需要对量化后的DC系数和行程编码后的AC系数进行基于统计特性的熵编码。63个AC系数行程编码的码字，可用两个字节表示。JPEG建议使用两种熵编码方法：Huffman编码和自适应二进制算术编码。熵编码可分成两步进行，首先把DC和AC系数转换成一个中间格式的符号序列；第二步是给这些符号赋以变长码字。
二．MPEG-1标准
　　MPEG是运动图像的数字图像压缩编码方法，是英文Moving Picture Experts Group（即运动图像专家小组）的缩写。MPEG-1标准（ISO/IEC11172-II）是针对全活动视频的压缩标准，该标准包括MPEG视频、MPEG音频和MPEG系统三大部分。MPEG视频是面向位速率约1.5Mbit/s全屏幕运动图像的数据压缩，MPEG音频是面向每通道数率为64，128，192kbit/s的数字音频信号的压缩。
　　MPEG输入图像亮度信号的分辨率为360×240，色度信号的分辨率为180×120，每帧29.97帧，采用双向运动补偿。MPEG把输入的视频信号分成组，用三种图像格式标出：帧内图像、预测图像和差补图像。每组中的第一帧用帧内图像格式编码，第1M、2M、3M帧（M一般选为3）用预测图像格式编码，其它各帧使用差补图像格式编码。差补图像不仅利用过去的帧内图像或预测图像，也利用未来的帧内图像或预测图像进行运动补偿，因此可以达到更高的图像压缩率。
1．MPEG-1视频
　　（1）MPEG-1压缩特点：
　　①随机存取：要求能在被压缩的视频比特流中间进行存取，并且能在限定的时间内对视频的任一帧进行解码。
　　②快速正向/逆向搜索：可对压缩数据流进行扫描，利用合适的存取点来显示所选择的图像。
　　③逆向重播：交互式应用有时需要视频信号能够逆向重播。
　　④视听同步：提供机制使视频音频能持久地同步。
　　⑤容错性：要能在有误差的情况下，也能避免编码失败。
　　⑥编解码延迟：传输质量与延迟是一对矛盾，延迟时间被看作为一个阈值参数设定。
（2）MPEG-1视频压缩策略：
　　为了提高压缩比，MPEG-1同时使用了帧内图像数据压缩和帧间图像数据压缩技术。帧内压缩算法与JPEG压缩算法大致相同，采用基于DCT的变换编码技术，以减少空域冗余信息。帧间压缩算法采用预测和插补法，预测法有单纯性预测（因果预测）和非因果预测（插补）。预测误差可再通过DCT变换编码处理，进一步压缩，帧间编码技术可减少时间轴方向的冗余信息。
　　①减少时间冗余度
　　②减少空间冗余度
　①减少时间冗余度
　　MPEG通过帧运动补偿有效地压缩了数据的比特数。MPEG采用了3种类型的图像：帧内图（Intrapictures I）、预测图（Predicted Pictures P）和双向预测图（Bidrectional Prediction B 插补图）。这样做的原因有两个：一是考虑随机访问视频存储的重要性，二上运动补偿可显著降低位速率。帧内图是独立编码的图像，是不能由其他帧构造的，必须存储或传输，可提供随机存取的存取位置，但压缩比不大；帧间插补可减少时域的冗余信息。帧间预测编码时，要用到先前的图（帧内图或预测图），当前的预测图通常又作为后面预测图的参考值；双向预测图的数据压缩效果最显著，但是它在预测时需要先前和后续的信息。另外，双向预测图不能作为其他图的预测参考图。帧内图（I）和预测图（P）及双向预测图（B）沿时间轴上的顺序排列，如下图：
运动补偿是应用得最广泛的降低时间冗余度的方法，是许多视频压缩算法的基础。
运动补偿有两种算法分别是：运动补偿预测法和运动补偿插补法。
②减少空间冗余度
　　MPEG用于减少空间冗余度的方法与JPEG类似，混合使用变换编码、基于视觉加权的标量量化和行程编码等技术。整个过程分为三个阶段，第一阶段为基于DCT的正交变换，计算变换系数；第二阶段对变换系数进行量化，把数据按Z字形扫描顺序重新组合；最后对变换系数行程编码进行熵编码，以达到进一步压缩数据的目的。
　　在JPEG压缩算法中，针对静止图像，对DCT系数采用等宽量化。在MPEG中的视频信号包含静止画面（帧内图）和运动信息（帧间预测图）等不同的内容，故量化器的设计需做特殊考虑。一方面量化器结合行程编码能使大部分数据得以压缩；另一方面要求通过量化器，编码器使之输出一个与信道传输速率匹配的比特流。
（3）MPEG-1视频的分层结构
MPEG-1视频图像数据流是一个分层结构，目的是把比特流中逻辑上独立的实体分开，防止语意模糊，并减轻译码过程的负担。对分层的要求是支持通用性、灵活性和有效性。MPEG标准的通用性可以用MPEG比特流来更好地说明。通用性的含义是使MPEG标准的语法规定可满足不同的应用要求。如下表所示的MPEG视频比特流分层结构。共包括六层，每一层支持一个确定的函数，或者是一个信号处理函数（DCT，运动补偿），或者是一个逻辑函数（同步，随机存取点）等。
层次名称功能
图像序列层随机存取单元：上下文
图像组层随机存取单元：视频编码
图像层基本编码单元
宏块片层重同步单元
宏块层运动补偿单元
块层 DCT单元
表：MPEG视频比特流语法的六个层次
2．MPEG-1音频
　　MPEG-1音频编码过程如下：输入的音频抽样被读入编码器；映射器建立经滤波的输入音频数据流的子带抽样表示，如在层1或层2是子带抽样，在层3则是经过变换的子带抽样；心理声学模型建立一组控制量化的数据；各子带系数经过量化和编码，再加上其他一些附加信息；最后形成已编码的数据流。
　　压缩后的比特流可以按以单声道模式、双-单声道模式（dual-monophonic mode）、立体声模式和联合立体声模式4种模式之一支持单声道或双声道。
　　MPEG-1音频标准提供3个独立的压缩层次：第一层（Layer 1）、第二层（Layer 2）和第三层（Layer 3），用户对层次的选择可在编码方案的复杂性和压缩质量之间进行权衡。
　　第一层的编码器最为简单，应用于数字小型盒式磁带（Digital Compact Casstte，DCC）记录系统。第二层的编码器的复杂程序属中等，应用于数字音频广播（DAB）、CD-ROM、CD-I和VCD等。第三层的编码器最为复杂，应用于综合业务数字网（ISDN）上的音频传输、Internet上的广播、MP3光盘存储等。
　　MPEG-1标准是VCD工业标准的核心。MPEG-1音频第3层的MP3是广受欢迎的音乐格式。
三．MPEG-2标准
　
　　MPEG-2是MPEG-1的扩充，丰富和完善。MPEG-2标准包括MPEG系统、MPEG视频、MPEG音频和MPEG一致性4部分内容，是运动图象及其伴音的通用编码国际标准。MPEG-2标准克服并解决了MPEG-1标准不能满足的日益增长的多媒体技术、数字电视技术、多媒体分辨率和舆率等方面技术要求的缺陷。
1．MPEG-2系统
　　MPEG-2标准的系统功能是将一个或多个音频、视频或其他的基本数据流合成单个或多个数据流，以适应存储和传送。符合MPEG-2标准的编码数据流，可以在一个很宽的恢复和接收条件下进行同步解码。MPEG-2系统支持的5项基本功能分别是：解码时多压缩流的同步、将多个压缩流交织成单个的数据流、解码时缓冲器初始化、缓冲区管理和时间识别。
　　MPEG-2标准的压缩编码系统是将视频和音频编码算法结合起来开发的。系统编码有两种方法，其编码输出包括传送流（Transport Stream，TS）和程序流（Program Stream，PS）两种定义流。传送流和协议ISO/IEC11172-1系统定义的流相似：程序流是一种用来传送和保存的编码数据或其数据的数据流。
2．MPEG-2视频
　　MPEG-2视频体系的视频分量的数据速率范围大约为2Mbit/s～15Mbit/s。MPEG-2视频体系要求保证与MPEG-1视频体系向下兼容，并且同时应满足数据在存储媒体、可视电话、数字电视、高清晰电视（HDTV）、通信网络等领域的应用。分辨率有低（352×288）、中（720×480）、次高（1440×1080）、高（1920×1080）等不同档次，压缩编码方法也从简单至复杂有不同等级。
　　MPEG-2标准详细地叙述了数字存储媒体和数字视频通信中的图像信息的编码描述和解码过程。它支持固定比特率传送、可变比特率传送、随机访问、信道跨越、分级解码、比特流编辑以及一些特殊功能。
　　MPEG-2视频编码的关键技术与MPEG-1基本一致，其与MPEG-1的区别主要是隔行扫描制式下，DCT到底是在场内进行不是在帧内进行由用户自行选择，亦可自适应选择。一般情况下，对细节多、运动部分少的图像在帧内进行DCT，而细节少、运动部分多的图像在场内进行DTC。
　　MPEG-2采用了分层的编码体系，提供了较好的可扩充性及互操作能力。MPEG-2整个视频比特流由逐级嵌入的若干层组成，这样不同复杂度的解码器可根据自身的能力从同一比特流中抽出不同层解码，得到不同质量、不同时间/空间分辨率的视频信号。分层编码使同一比特流能适应不同特性的解码器，极大地提高了系统的灵活性、有效性。为了实现分层编码，MPEG-2提供了4种工具：空间可扩展性、时间可扩充性、信噪比可扩充性及数据分块。MPEG-2还提供了框架及等级的概念，给出了丰富的编码、灵活的操作模式，以适应不同场合的需要。
3．MPEG-2音频
　
　　MPEG-2标准委员会定义了两个音频压缩编码算法，一种是MPEG-2 Audio或MPEG-2多通道声音，其与MPEG-1 Audio是兼容的，称为MPEG-2 BC（Back Compatible）；另一种是MPEG-2高级音频编码标准，称为MPEG-2 ACC（Advanced Ausio Coding），其与MPEG-1 Audio是不兼容的，所以称为MPEG-2 NBC（Non-Backward Compatible）标准。
　　DVD格式的视频部分将采用MPEG-2压缩标准，音频部分压缩标准将随电视制式而异，MPEG-2压缩标准已被以欧洲为主的国家采纳并用于制的音频中，美国和日本的NTSC制中的是AC3音频压缩标准。
MPEG-2 BC（Back Compatible）
与MPEG-1相比较，MPEG-2 BC主要在两个方面做了重大改进。一是增加了声道数，支持5.1声道和7.1声道的环绕声；二是为某些低数码率应用场合，增加了16kHz、22.05kHzt 24kHz三种低采样频率。同时，标准规定的码流形式还可以与MPEG-1的第一层和第二层做到前、后向兼容，并可做到与双声道、单声道形式的向下兼容，还能够与环绕声形式兼容。MPEG-2 BC的压缩算法中，除了沿用了MPEG-1的绝大部分技术外，还采用了多种新技术，如动态传输声道切换、动态串音、自适应多声道预测、中央声道部分编码（Phantom Coding of Center）等。
MPEG-2 ACC（Advanced Ausio Coding）
MPEG-2 AAC是一种非常灵活的声音感知编码标准。其主要使用听觉系统的掩蔽特性来压缩声音的数据量，并且通过把量化噪声分散到各个子带中，用全局信号把噪声掩蔽掉。AAC支持的采样频率可从8kHz到96kHz，AAC编码器的音源可以是单声道的、立体声的和多声道的声音。AAC标准可支持48个主声道、16个低频音效加强通道、16个多语言声道和16个数据流。MPEG AAC的压缩比为11：1，即每个声道的数据率为（44.1×16）/11=64Kbps，在5声道的总数据畜类为320Kbps的情况下，很难区分还原后的声音与原始声音之间的差别。与MPEG的层2相比，MPEG-2 AAC的压缩率可提高1倍，而且质量更高，与MPEG的层3相比，在质量相同的条件下数据率是它的70%。
标准标题制定标准的起止日期目标比特率采用的主要编码技术应用场合
MPFG-1 面向数字存储的运动图像及其伴音的编码 1988.5-1992.11 小于1.5Mbps JPEG所有技术
自适应量化
运动补偿预测
双向运动补偿
半像素运动估计光盘存储
VCD
消费视频
视频监控
MPEG-2 运动图像及其伴音信息的通用编码 1990.7-1994.11 1.5～35Mbps MPEG-1所有技术
基于帧/场的运动补偿
空间可伸缩编码
时间可伸缩编码
质量可伸缩编码
容错编码数字电视
数字高清晰度电视
高品质视频
卫星电视
有线电视
地面广播
视频编辑
视频存储
MPEG-4 音视频对象的编码 v1：1993.7-1998.10
v2：1999.12
v3和v4：2001.1 8Kbps～35Mbps MPEG-2所有技术
标准标题制定标准的起止日期目标比特率采用的主要编码技术应用场合
MPFG-1 面向数字存储的运动图像及其伴音的编码 1988.5-1992.11 小于1.5Mbps JPEG所有技术
自适应量化
运动补偿预测
双向运动补偿
半像素运动估计
光盘存储
VCD
消费视频
视频监控
MPEG-2 运动图像及其伴音信息的通用编码 1990.7-1994.11 1.5～35Mbps MPEG-1所有技术
基于帧/场的运动补偿
空间可伸缩编码
时间可伸缩编码
质量可伸缩编码
容错编码数字电视
数字高清晰度电视
高品质视频
卫星电视
有线电视
地面广播
视频编辑
视频存储
MPEG-4 音视频对象的编码 v1：1993.7-1998.10
v2：1999.12
v3和v4：2001.1 8Kbps～35Mbps
MPEG-2所有技术
小波变换
高级运动估计
重叠运动补偿
视相关可伸缩编码
位图形状编码
对象编码
脸部动画
动态网格编码
因特网
交互式电视
可视编辑
内容操作
消费视频
专业视频
2D/3D计算机图形
移动通信
MPEG-7 多媒体内容描述接口 1996-2001.7 多媒体数据库等
MPEG-21 多媒体应用框架 1999.10- 多媒体应用框架
四．H.261视听通信编码、解码标准
　　H.261是电视电话/会议电视标准，即P×64Kbps视频编码/解码标准。其中P是一个可变参数，取值为1～30。当P=1或2时，仅能支持桌面上的面对面直观通信（即64Kbps或128Kbps）；当P≥6时，支持通用中间格式每秒帧数较高活动图像的电视会议。由于位率的提高，复杂的画面能传送出去，画面质量也得到改善。
　　P×64Kbps视频编码压缩算法，是采用了混合编码方案，即基于DCT的离散余弦变换编码方法和带有运动预测的差分脉冲编码调制方法相混合。该算法与MPEG算法有相同之处，但也有区别。区别在于P×64Kbps的目标是为了适应各种信道容量的传输，而MPEG标准的目标是为了在狭窄的频带上实现高质量的图像和高保真声音的传递。
　　P×64Kbps视频编码压缩算法包括信息源编码和统计编码（熵编码）两部分。信息源编码采用失真编码方法又分帧内编码（一般采用单一性的基于DCT的8×8块变换编码方法）和帧间编码（采用混合编码方法）两种情况。

展开更多......

收起↑

请用微信扫码

第四章 多媒体数据压缩编码技术 课件(共92张PPT)- 《多媒体技术基础及应用（第2版）》同步教学（清华大学版）

第四章 多媒体数据压缩编码技术 课件(共92张PPT)- 《多媒体技术基础及应用（第2版）》同步教学（清华大学版）

第四章多媒体数据压缩编码技术课件(共92张PPT)- 《多媒体技术基础及应用（第2版）》同步教学（清华大学版）

第四章多媒体数据压缩编码技术课件(共92张PPT)- 《多媒体技术基础及应用（第2版）》同步教学（清华大学版）