资源简介 (共41张PPT)3.1数据编码学习目标1.知道模拟信号与数字信号2.能够解释声音的数字化过程3.理解声音数字化过程中影响音频的声音质量的因素4.能够计算无压缩音频占用的存储空间回顾数据是现实世界客观事物的符号记录,是信息的载体,是计算机加工的对象。数据记录的形式是多样的、可看的、可听的、可感知的,如图形、图像、视频、音频、文本等。我们的姓名文字视频图形、图像奥运主题曲声音诗人的诗句文字思考计算机进行处理的数据,是通过什么设备收集的,完成P56任务一的表格3.1.1表现形式 实例 采集该类数据的设备文本 姓名、家庭住址、性别数字 身高、体重图像 照片声音 语音视频 监控视频键盘、手写板等相机、扫描仪等键盘、手写板等话筒(声卡)等摄像机、摄像头等以上数据在计算机内部如何存储?按照编码格式的不同,可以分为模拟信号和数字信号模拟信号和数字信号因为计算机只能存储和处理二进制数值,所以这些数据需要经过编码,用预先规定的方法编成可以存储在计算机里的数值。随时间的变化是连续的,波形光滑随时间的变化是非连续的,波形如台阶数字信号模拟信号模拟信号和数字信号模拟信号:是指用连续变化的物理量所表达的信息。信号的幅度、频率或相位随时间作连续变化。如:声音信号、图形信号等。水银温度计呈现的温度值、电流表指向的电流值、汽车速度表盘指向的速度值等。模拟信号和数字信号数字信号:数字信号在取值上是离散的、不连续的信号。在信息技术中,是指被计算机存储、处理的二进制数据。如:开关电路中输出信号和电压脉冲都是离散的信号。在计算机中,数字信号的大小常用有限位的二进制表示。字长为2的二进制数可表示00、01、10、11四种数字信号模拟信号和数字信号分析、比较模拟信号与数字信号在通信应用中的优劣名称 优点 缺点模拟信号 模拟信号信息密度大,对自然界物理量的真实值进行尽可能逼近的描述。 模拟信号是传导能力的一种方式,在传到过程中能量会因为不断损耗而减弱。数字信号 1.抗干扰能力强 2.保密性和可靠性较强 3.便于存储、加密、纠错 1.技术复杂2.模数转换可能带来量化误差声音的数字化过程声音的模拟信号如何转换为数字信号?声音的数字化过程数字化是将复杂多样的事物(文字、图像、声音、视频等数据)转化为计算机可以保存、处理、传输、发布的对象的过程。优势:便于在数字设备中存储、处理和传输。模拟信号先由采样器按照一定时间间隔采样获得时间上离散的信号,再经过模数转换器(ADC)在数值上进行离散化(量化),经过编码转换成数字信号。模数转换(A/D)模拟量数字量声音声音文件话筒声卡电流电压采样”和“量化声音的数字化过程:采样——量化——编码采样:在横轴上按照一定的时间间隔从信号中取一个瞬时值。采样频率(Hz):1秒内对声音信号的采样次数。常用的采样频率有:11.025kHz、22.05kHz、44.1kHz。11.025kHz是语音效果,22.05kHz是音乐效果,44.1kHz高保真效果。不同的采样频率对音频的声音质量有什么影响?声音的数字化过程:采样——量化——编码采样频率越高(采样的时间间隔越短),音频的声音质量越真实,但采样点也越多,需要保存的数据也越多,所占存储空间也越大。因此,需要在音频的声音质量与存储数据量之间寻找平衡点。将信号波形的纵轴划分为若干区间。落到某一区间的采样点按四舍五入的规则取整选值,这个过程叫做量化。纵坐标划分得越细,量化就越精细,保真度越高,与实际数据也越接近。量化位数:每个采样点用多少二进制位数表示数据范围量化位数的多少决定了音频的声音动态范围,量化位数越大,可记录的数值越多,音频的声音质量越好,但相对应所需的存储空间也越大。标准CD音频的量化位数为16位。声音的数字化过程:采样——量化——编码将量化得到的整数值用计算机能够存储和处理的二进制数值表示,这个过程称为编码。声音的数字化过程:采样——量化——编码声音的数字化过程:采样——量化——编码声音编码方案——不同的音频格式●确定编码规则,优化数据排列●常见方式:未压缩、无损压缩、有损压缩AAAEEEEEEEE优化数据排列方式A03E08● 生成音频文件格式类型 音频文件格式未压缩 WAN无损压缩 APE有损压缩 MP3、AMR声音的数字化过程请参照图3.1.5及十进制与二进制数对应表,把量化得到的整数值所对应的二进制数值填入P58表3.1.2。时刻 1 2 3 4 5 6 7 8 9 10二进制数值 001011011100010010010010011011声音的声道双声道比单声道的表现力更丰富,但需占用的存储空间翻倍。声音的数字化过程无压缩音频存储空间的计算无压缩音频所需存储空间(B/s)=(采样频率(Hz)×量化位数(bit)×声道数)÷8字节(Byte,简写为B):计算机中存储数据的基本单位。1字节(Byte)= 8 位(bit)。数据存储以“字节”(Byte)为单位,数据传输大多以“位”(比特,bit)为单位。声音的数字化过程无压缩音频存储空间的计算例:一段时长为1分钟的双声道立体声的无压缩音频(采样频率为44.1kHz,量化位数为16位),占用的存储空间是多少MB(精确到0.1)?无压缩音频所需存储空间(B/s)=(采样频率(Hz)×量化位数(bit)×声道数)÷8= 44.1×1000×16×2÷8 = 176400(B/s)故:1分钟的无压缩音频存储空间 = 176400 ×60= 10584000(B) ÷1024÷1024 ≈ 10.1MB声音的数字化,要经过采样、量化、编码三个过程采样频率、量化位数、编码、声道数都会影响音频的声音质量。无压缩音频所需存储空间(采样频率(Hz)×量化位数(bit)×声道数)÷8模拟信号与数字信号模拟信号随时间变化是连续的、波形光滑的,数字信号的变化非连续的、波形像台阶。课堂小结二进制与数制转换二进制计算机外部的各种形式的数据经过编码,都以二进制数的形式存储在计算机里。十进制 1 2 3 4 5 6 7 8 …二进制 001 …0111011001101111000010二进制只有0和1两个数字符号,基本计数规则是“逢二进一”。二进制位,用比特(bit,简写为b)表示:计算机中存储数据的最小单位。1比特可以表示0或1两种(21)状态2比特可以表示00、01、10、11四种(22)状态8比特构成1字节,可以表示256种(28)状态二进制与数制转换每一个数字符号在不同的位置都具有不同的权值。常用的十进制数,10是十进制的基数。各位上的权值是基数10的若干次幂。【例】285(10)十进制数 2 8 5各位上的权值 102 101 100对于任何一种进制(R进制),每一位置上的数运算时都是逢R进一位。R是此进制数的基数。各位上的权值是基数R的若干次幂。从右往左的权值为R0、R1、R2……二进制各位上的权值是基数2的若干次幂。从右往左的权值为20、21、22……权值【例】10001(2)二进制数 1 0 0 0 1各位上的权值 24 23 22 21 20二进制与数制转换R进制非负整数转换为十进制非负整数把R(R为不小于2的整数)进制非负整数转换为十进制非负整数,使用“按权展开求和法”。【例】10001(2)转换成十进制数10001(2)= 1×24 + 0×23 + 0×22 + 0×21 + 1×20二进制数 1 0 0 0 1各位上的权值 24 23 22 21 20= 16 + 0 + 0 + 0 + 1= 17(10)权值:每一个数字符号在不同的位置都具有不同的权值。常用的十进制数,10是十进制的基数。各位上的权值是基数10的若干次幂。二进制与数制转换十进制非负整数转换为R进制非负整数把十进制非负整数转换为R(不小于2的整数)进制数,可使用短除法,即“除R取余法”。【例】把18(10)转换为二进制数答案:10010(2)182924222120余数01010低位高位二进制与数制转换(1)请将11001(2)转换为十进制。(2)请将2071(8)转换为十进制。练一练11001(2)=1×24 + 1×23 + 0×22 + 0×21 + 1×20=16+8+0+0+1=25(10)2071(8)=2×83 + 0×82 + 7×81 + 1×80=1024+0+56+1=1081(10)二进制与数制转换练一练(3)将175(10)转换为16进制提示:当R>10时,可能会出现余数为二位数(10)的情况,此时要转换为对应的R进制的单个数字符号。(如10→A,11→B,…,15→F)答案:AF(16)1751610160余数1510低位高位二进制与数制转换在Python中,可使用函数将十进制非负整数转换为其他进制,如下表所示。函数 函数的作用bin(num) 将十进制转换成二进制oct(num) 将十进制转换成八进制hex(num) 将十进制转换成十六进制>>> bin(100)'0b1100100'>>> oct(100)'0o144'>>> hex(100)'0x64'【例】文本数据的编码计算机只能处理由0和1这两个二进制数组成的数据,那么文本数据是怎么存储在计算机中的呢?文本数据的编码通过对其中每一个字符进行编码实现。用于文本数据字符编码的方案有多种类型,常见的有ASCII码和Unicode码等。文本数据的编码文本数据:用来表示一定意思的一系列字符,包括字母、数字、标点符号、汉字等。字符(文字、符号)数字(二进制等)预先确定的规则编码方案每个字符拥有对应的数字编码,便于不同计算机系统间交换信息文本数据的编码共128个因此,计算机内部用一个字节(8位)即可存放一个ASCII字符,最高位用0表示注:一个字节 = 8位,1位可存放2个字符,27可存放128个,28可存放256个ASCII码American Standard Code for Information Interchange美国信息交换标准代码,1960年由香农创立。ASCII码(十进制) 字符0-31 控制字符或通信专用字符(不可见)32 空格48-57 数字0-965-90 大写英文字母A-Z97-122 小写英文字母a-z其他 英文标点符号、运算符号、括号文本数据的编码汉字编码(即国标码)创建于1980年,目的为了使每个汉字有一个全国统一的代码而颁布了汉字编码的国家标准。每个汉字有个二进制编码,叫汉字国标码。收录6763个汉字,及包括数字、拉丁字母等在内的682个字符字符编码:兼容ASCII编码;1个字节表示ASCII规定的英文字符,采用2个字节表示1个汉字以及其他字符。GB2312-1980GBK《汉字内码扩展规范》扩充2万多个字符GB18030-2005收录7万多个汉字兼容GB2312-1980、GBK、ASCII等采用多字节编码,包括1个、2个、4个字节文本数据的编码Unicode字符集产生:为了解决传统字符编码方案的局限性,用2个字节表示一个符号。Unicode编码兼容ASCII编码,是在原来的ASCII码前加8个0国际化标准组织和Unicode组织联合制定,致力于纳入世界上所有字符,是全球可以共享的编码字符集,涵盖了世界上主要文字的字符,其中包括简繁体汉字,共计74686个汉字。文本数据的编码>>> ord('1') #显示字符“1”的Unicode码值49>>> ord('男') #显示字符“男”的Unicode码值30007>>> chr(30007) #显示Unicode码编码值为30007的字符'男'查看字符编码|Unicode【例】在Python中:函数ord()返回的是字符的Unicode码值(十进制)函数chr()返回的是Unicode码对应的字符扩展:图像数据的编码与声音数据类似,图像数据(如颜色)的数字化,也需要先进行采样,但不同的是,图像数据是在空间上变化,而不是时间上变化。模拟图像数字图像图像采样图像量化图像编码像素矩阵属性分级设备采集编码方法图像采样——图像量化——图像编码图像采样在水平和垂直方向上分割形成矩阵图像是由许许多多像素组成的像 素像素越多还是越少质量更好呢?图像数据的编码3×4=126×8=48像素属性进行分级每一级对应一个数用有限的数近似地表示连续变化的各项属性图像量化绿色黄色4级颜色白色红色绿色黄色6级颜色白色橙色红色深黄图像数据的编码图像采样——图像量化——图像编码分级越多还是越少质量更好呢?颜色深度:像素颜色所占二进制位数图像量化黑白:1位256阶灰度:8位彩色: 16位、24位、32位等颜色深度越多,可表达的色彩越丰富;但存储容量也越大。图像数据的编码图像采样——图像量化——图像编码确立编码的方法,生成不同文件借助图像压缩技术图像编码01010010100…如何存储?图像数据的编码图像采样——图像量化——图像编码类型 未压缩 无损压缩 有损压缩文件格式 BMP TIFF等 JPEG/JPG存储容量 相对较大 不损失信息 压缩比小 损失一定信息压缩比大影响因素:输入分辨率等颜色位数图像文件格式图像质量拍照设置选择高像素图像数据的编码温馨提示在选择高像素的同时注意保护个人信息安全图像数据的编码 展开更多...... 收起↑ 资源预览