资源简介 3.1 数据编码 教师: 了解各类数据采集的基本方法 能够解释文本、音频等数据的编码原理 理解数据编码的意义和作用 1 3 2 学习目标 智能公交系统是智慧城市的重要组成部分,它的应用提高了城市公交的运营效率,方便了人们的出行。市民在办理市民卡时,一般要到指定地点办理录入信息、拍摄照片等手续。 想一想,在办理市民卡的流程中,管理系统都收集了哪些数据? 生活中还有哪些数据可以采集以及如何采集? {9D7B26C5-4107-4FEC-AEDC-1716B250A1EF}表现形式 实例 采集该数据的设备 文本 姓名、 键盘、 数字 年龄、 图像 声音 讲话的声音、 视频 监控视频 摄像机、 想一想,在办理市民卡的流程中,管理系统都收集了哪些数据? 生活中还有哪些数据可以采集以及如何采集? {9D7B26C5-4107-4FEC-AEDC-1716B250A1EF}表现形式 实例 采集该数据的设备 文本 姓名、家庭住址、性别、手机号…… 键盘、手写输入、语言输入 数字 年龄、身高、体重、身份证号…… 键盘、手写输入、数字化采集仪 图像 照片…… 手机、相机、扫描仪 声音 讲话的声音、音乐、其他声音…… 手机、录音机、录音笔 视频 监控视频、电影…… 摄像机、手机、摄像头 想一想,在办理市民卡的流程中,管理系统都收集了哪些数据? 生活中还有哪些数据可以采集以及如何采集? 这些数据计算机能直接处理吗? 编码就是信息从一种形式或格式转换成另一种形式或格式的过程。 指用预先规定的方法将文字、数字或其他对象编成可以存储在计算机里的数值。 编码 模拟信号与数字信号 模拟信号 模拟信号一般用传感器直接获得,如声音、温度、压强等。 模拟信号的值随时间而连续变化,波形光滑 数字信号 数字信号一般随时间而产生非连续的变化。数字信号可以由模拟信号转化而来,数字信号的值即数字数据,可直接用计算机所能理解的二进制表示,方便计算机对其处理。 模拟信号:连续变化,温度可以自己估读出来,可以是区间里的任何一个数字 数字信号:离散,不连续,只能是固定的数字 音频编码 将模拟声音数据转换为数字数据的这一个过程, 称为声音的数字化。 01 采样 02 量化 03 编码 对模拟声音信号按给定的时间间隔进行采样 对采样数据进行量化 将量化后的数据用二进制数值表示 声音数字化 时间 1s 2s 3s 4s 5s 1 2 3 4 5 振 幅 采样:以相等的时间间隔测得声音模拟信号的值。 采样点越多还是越少质量更好? 时间 1s 2s 3s 4s 5s 1 2 3 4 10 5 6 7 8 9 振 幅 每秒采集2次 每秒采集1次 采样频率越高声音还原度越好; 但记录数据越多,存储容量越高。 时间 1s 2s 3s 4s 5s 2 1 4 5 1 3 5 7 5 2 量化:将采样点的值分级量化,变换到最接近的数字。 振 幅 用有限个数近似表示原来连续变化的值。 0 1 2 3 4 5 6 7 量 化 值 2.12 分级越多还是越少质量会更好? 1s 2s 3s 4s 5s 2 1 4 5 1 3 5 7 5 2 量 化 值 0 1 2 3 4 5 6 7 12 14 时间 1s 2s 3s 4s 5s 5 2 9 10 2 7 11 15 11 5 0 2 4 6 8 11 9 5 3 1 10 13 15 7 量 化 值 3位 二进制 4位 二进制 10 11 5 5 {3B4B98B0-60AC-42C2-AFA5-B58CD77FA1E5}样本序号 1 2 3 4 5 量化值(十进制) 5 2 9 10 7 二进制编码 0101 0010 1001 1010 0111 样本序号 6 7 8 9 10 量化值(十进制) 11 15 11 5 2 二进制编码 1011 1111 1011 0101 0010 编码:确立编码规则,优化数据排列。 未压缩、无损压缩与有损压缩 01010010 1001…… WAV 无压缩:声音质量高 所占存储容量较大 AAAEEEEEEEEEE 优化数据 排列方式 A03E10 APE 无损压缩:还原压缩数据后 与压缩前相同 有损压缩:损失信息,提高压缩 比例,减少存储容量 MP3 AMR 热身小游戏 我会读心术,你信吗? 二进制转换为十进制(对应数字与权值相乘): 10011(2)=19 (10) 10011=1*20+1*21+0*22+0*23+1*24=19 从右往左进行运算! 十进制转换为二进制(除二取余法): 19 (10)=10011(2) 19 9 4 2 1 0 2 2 2 2 2 余数 1 1 0 0 1 从低往高进行读 取 ! 二进制与十进制相互转换 100(2)=____(10) 25(10)=_________(2) 1001(2)=____(10) 14(10)=______ (2) 4 11001 9 1110 练一练 ord:字符—编码 chr:编码—字符 必须在二进制数之前加“0b”,表示一个二进制数值 bin:十进制 — 二进制 查看数据编码 例如:22 第一位:不在 0 第二位: 在 1 第三位: 在 1 第四位:不在 0 第五位: 在 1 第六位:不在 0 第七位:不在 0 转化为十进制:21+22+24=22 二进制:0010110 A B C 文本数据包括字母、数字、标点符号、汉字等 ASCII码和Unicode码是最经典的两种编码方案 文本数据的编码通过对其中每一个字符进行编码实现 字符编码 美国信息交换标准代码 (American Standard Code for Information Interchange) 字符集:大小写字母、数字、常用符号等128个字符 {9DCAF9ED-07DC-4A11-8D7F-57B35C25682E}ASCII码(十进制) 字符 0~31 控制字符或通信专用字符(不可见)) 32 空格 48~57 数字0~9 65~90 大写英文字母A~Z 97~122 小写英文字母a~z 其他 英文标点符号、运算符号、括号等 Unicode码:在原来的ASCII码前加上8个0, 如大写字母X的ASCII码是88(十进制),二进制就为________,所以Unicode码为_______________。 1011000 0000000111001 Unicode码为了解决传统字符编码方案的局限性而产生。 Unicode码字符集是全球可以共享的编码字符集,涵盖了世界上主要的文字符号,其中包括简繁体汉字,共74686汉字。 《信息交换用汉字编码字符集——基本集》 收录6763个汉字,一级汉字3755个,二级汉字3008个 包括拉丁字母、希腊字母等在内的682个字符 字符编码:兼容ASCII编码;1个字节表示ASCII规定的英文字符,采用2个字节表示1个汉字以及其他字符。 GB2312-1980 GB2312-1980 兼容CB23312—1980标准,收入汉字21003个汉字,883个符号,共计21886个字符 GBK 《汉字内码扩展规范》 包含GBK字符集和CJK统一汉字扩充A的汉字,共计27533个汉字 GB2312-1980 GBK GB18030-2000 在GB18030—2000的基础上,增加了CJK统一汉字扩充B的汉字及其他汉字,共计70244个汉字。 GB2312-1980 GBK GB18030-2000 GB18030-2005 小结 好好学习 天天向上 展开更多...... 收起↑ 资源预览