资源简介 第一章1.1数据数据定义:数据是对客观事物的符号表示。表现形式:文字、符号、图形、图像、声音、视频等。单纯的数据是没有意义的,经过解释的数据才有意义。科学研究离不开数据,数据的客观性为科学研究提供可靠的依据。1.2 数据、信息与知识信息的载体:语言、文字、图像、声音、视频、动画。 信息的特征:载体依附性、价值性、时效性、共享性、可加工处理性、真伪性。信息的价值包括显性价值和隐性价值。知识是人类在社会实践中所获得的知识和经验的总和。智慧:是一种更高层次的综合能力,主要表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法。1.3数据采集与编码数据采集方式:传感器和网络爬虫。传感器获取来自自然信源的数据 。网络爬虫可在短时间内获取大量网络数据。信号数据可用于表示任何信息,如符号、文字、语音、图像等,从表现形式上可归结为两类:模拟信号和数字信号。模拟信号:以连续变化的物理量存在,如水银温度表呈现的温度值,电流表指针指向的电流值等。平时我们听到的声音、看到的电视图像都是模拟信号。数字信号:取值上是离散的,不连续的信号。在信息技术中,这种信号表示的数据是指可被计算机存储、处理的二进制数据。从模拟信号转换到数字信号一般要经过采样、量化和编码这样三个过程,最终变成由一连串由0和1来代表的脉冲数字信号。采样——连续时间(空间)域上的模拟信号转换到离散时间(空间)域上的离散信号。对于同一模拟信号,采样的时间间隔越小,采集到的信号样本数量越多。每一秒的采样样本数叫做采样频率,单位用赫兹(Hz)表示。相同时间内,采样频率越高,采集的样本数量越多。模拟信号转为数字信号会引起失真,影响信号保真度的因素是采样频率和量化位数。量化:将信号的连续取值近似为有限个离散值的过程。连续信号经过采样成为离散信号,离散信号经过量化后可用数值表示。将采样到的信号用数字表示出来,即将模拟信号的波形转换为数字。编码:用二进制数表示每个采样的量化值(十进制数)。进制之间的关系十进制转二进制 除二取余,逆排余数二进制转十进制 按权展开,相加求和二进制转十六进制 四位变一位,不足位补0,8421法十六进制转二进制 一位变四位,不足位补0,8421法十六转十进制 (低频) 按权展开,相加求和(权值是16)十转十六(低频) 短除法,除16取余,逆排余数二进制末尾去掉0,转换成十进制是原数的一半。二进制末尾加0,是原数的两倍。十进制 8 二进制 10004 100十六进制 0-9,A-F 以0-F作为一个循环。(10以上换成字母)编码:信息按照某种规则或格式,从一种形式转换为另一种形式的过程。计算机中存储容量最小单位是比特(bit),1位二进制数码表示1个bit。计算机中以8bit为一个基本单位,称为字节(Byte)。常见的字符编码有ASCII、Uniode以及各种汉字编码。ASCII码(信息交换标准代码)一共128个,内码在比较时,最大值一定是小于128。ASCII码 十六进制0(30)- 9(39) A 41 – Z 5A a 61 – z 7A注意:49 (I) 后是4A (J) 到4F (O) 之后 才进入50(P)的循环。十六进制以0-F作为一个完整循环。(2)汉字编码每个字母或者数字都用1个字节的编码表示。内码单位是1B.首位大于等于8,内码需要两个两个写。注意:全角模式下,一个字母、数字或者标点符号也会占两个字节。声音编码:在音频信号数字化过程中,声音的保真度不仅受到采样频率的影响,也依赖于量化值。量化值一般用二进制数表示,其二进制位数决定了量化的精度,也称作量化位数。量化位数越大,量化精度也越高。音频文件的存储容量计算公式:存储容量=采样频率(Hz) X 量化位数(bit) X 声道数 X 时长(s)/8做题注意KHz 需要x1000. 此外注意内存单位转换。图像编码:数字图像包括矢量图形与位图图像。矢量图:用点、直线或者多边形等几何图表示的图像。特点:内存小,放大不失真。位图图像:又称栅格图或点阵图,像素是组成位图图像的基本单位。位图放大会失真。考试注意色和位的区别。位深可以直接使用,多少色需要转换为2的次方形式才可使用。如256色是8位,16色为4位。图像存储容量计算公式:存储容量 =水平像素 X 垂直像素X颜色位深度/8视频编码:静态的图像连续播放就形成视频。PAL制式:25帧 NTSC制式:30帧视频存储容量=水平像素×垂直像素×每个像素所需位数×帧频×时间 /8比较内存大小的时候,可以尝试使用比例法。1.4数据管理与安全数据管理:利用计算机硬件和软件技术对数据进行有效收集、存储、处理和应用的过程。数据管理的阶段:人工管理、文件管理、数据库管理计算机管理文件方式:树形目录结构Windows:文件夹结构化数据:也称作行数据。是由二维表结构来进行逻辑表达和实现的数据,严格地遵据格式与长度规范,主要通过关系型数据库进行存储和管理。非结构化数据:是数据结构不规则或不完整,没有预定义的数据模型,是不方便用数据库维逻辑表来表现的数据。包括各类格式的办公文档、文本、图片、网页、音频、视频等。半结构化数据:介于结构化数据和非结构化数据之间的数据,具有一定的结构性。威胁数据安全的因素:硬盘驱动器损坏、操作失误、黑客入侵、感染计算机病毒、遭受自然灾害数据防护手段:异地容灾、数据备份、磁盘列阵提高数据本身安全的方法:数据加密和数据校验。数据加密可以提高保密性。数据校验保证完整性。可采用MD5,CRC,SHA-1等。1.5数据与大数据大数据:代表信息量大、速度快、种类繁多的信息资产,需要特定的技术和分析方法将其转化为价值。大数据的特征:数据体量大(volume)速度快(Velocity):数据产生速度快,处理速度快。数据类型多(Variety):有人工产生的,也有机器产生的。价值密度低(Value)大数据思维:1.大数据要分析的是全体数据,而不是抽样数据。2.对于数据不再追求精确性,而是能够接受数据的混杂性。3.不一定强调对事物因果关系的探求,而是更加注重它们的相关性 展开更多...... 收起↑ 资源预览