资源简介 (共27张PPT)第四章 数据处理与应用4.1 数据整理DATA ACQUISITION AND CODING《数据与计算》1. 数据整理2004年,乔布斯确诊为胰腺癌之后,医生曾断言其活过1年的几率不足10%。但很明显的,乔布斯多活了7年。乔布斯的“续命”关键就是基因检测,为此,他前后花费了约10万美元。简单说,基因检测为乔布斯做的就是,对他的全部基因和肿瘤组织基因测序后再解读,了解其肿瘤发生的独特基因和分子特征。在此基础上,医疗团队能够更加精准地为其制定治疗方案、选择特定药物,降低细胞癌变分子的活动频率。1. 数据整理数据整理的目的是检测和修正错漏的数据,整合数据资源,规整数据格式,提高数据质量。常见的数据问题有数据缺失,数据重复,数据异常,逻辑错误,格式不一致等。1. 数据整理下图是学生体质健康数据的部分原始数据,观察该数据存在什么问题。缺失数据为空错误数据不准确重复重复的数据非标准数据单位格式不一致1. 数据整理数据整理整理目的整理方法解决问题数据去重勘误补漏重复数据非标准化数据错误数据缺失数据1. 练一练1. 某表格中部分数据如图所示。 图中数据存在的问题主要为( )A.数据缺失B.数据重复C.逻辑错误D.格式不一致2.下列软件主要用于表格数据处理的有( )A.“记事本”“画图”程序B.“记事本”程序、SAS软件 C.Excel、MATLAB软件D.SPSS、Word软件AC1. 数据整理常见的数据处理软件:Excel、SPSS、SAS、MATLAB、R、Python、Java。P1091. 数据整理常用的数据处理和统计分析工具Excel软件是微软公司推出的Microsoft Office系列套装软件中的组成部分,是一个简单易用的电子表格软件,可以进行数据的处理、统计分析和辅助决策操作,广泛应用于文秘办公、财务管理、市场营销、行政管理和协同办公等事务。SPSS是IBM公司推出的一款统计分析软件,具备数据收集、准备、分析、描述、解释和展现的功能。SPSS提供丰富的统计算法,并且操作简使、功能强大、扩展性强,但需要使用人员具备一定的数理统计学知识背器,比较退合专业分析、研究等人员使用。SAS是SAS软件研究所开发的一套大同集成应用软件系统,共有三十多个功能模块,具有数据访问、数据管理、数据分析、数据皇现等功能。SAS系统从大型机上的系统发展而来,其操作以编程为主。系统地学习和掌握SAS, 需要花费一定的精力,比较适合统计专业人员使用。MATLAB是MathWorks公司推出的一种科学计算语言和编程环境,主要应用于数据分析、无线通信、深度学习、计算机视觉、量化金融与风险管理等领域。MATLAB 将适合选代分析和设计过程的桌面环境与直接表达矩阵和数组远算的编程语言相结合,为分析数据、开发算法和创建模型等提供了便于探索和发现的环境,深受工程师和料学家的青缺。2. 数据整理——Excel单元格地址B5区域地址A2:C52. 数据整理——Excel★单元格格式设置数值(小数点) 百分比(百分比)文本(01、02)(身份证号)(文字内容)2. Excel——数据计算①公式基本格式: = 表达式其中表达式有运算符号,常量,单元格地址,函数以及括号组成。=B4+100=(A1+B1)/2例如:2. Excel——数据计算①公式基本格式: = 表达式其中表达式有运算符号,常量,单元格地址,函数以及括号组成。算术运算符 含义 举例+ 加法运算 =B2+B3 - 减法运算 =20-B6 * 乘法运算 =D3*D4 / 除法运算 =D6/20 % 百分号 =5% ^ 乘方运算 =6^2运算符 描述 举例 值= 等于 =B3="团员" < 小与 =40<37 FALSE(假)> 大于 =40>37 TRUE(真)<> 不等于 =B2<>10 <= 小于等于 =B2<=B3 >= 大于等于 =B2>=100 2. Excel——数据计算② 函数2. Excel——数据计算★绝对引用和相对引用①相对引用:公式中单元格的相对引用是包含公式和引用单元格的相对位置的。例如(=A1/B1) 。如果公式所在的单元格的位置改变(或复制、填充公式),引用也会随之改变。 ②绝对引用:公式中单元格的绝对引用总是引用特定位置的单元格。例如($A$1),如果公式所在单元格的位置改变(或复制、填充公式),绝对引用将保持不变。 ③混合引用:混合引用具有绝对列和相对行(例如:$A1),或者绝对行和相对列(例如:A$1),如果公式所在单元格的位置改变(或复制、填充公式),则相对引用将改变,而绝对引用将不变。2. Excel——数据计算1、已知学生的成绩存放在A1到A16单元格内,若想在A17单元格内计算学生成绩的平均值,则A17中的公式为_______________2、若要利用函数计算C2、E2、G2单元格中的数据之和,则公式为________________3、在E2单元格中输入“=D2/D$45”,并自动填充至E4单元格,则E4单元格中的公式为_____________4、已知G3单元格中的公式如下所示,对G4:G16进行自动填充,则G8单元格中的公式为_______________________3. Excel——数据分析排 序①选择排序区域:1、必要数据要选全 2、合并单元格不要 3、多余的内容不要特别注意:书写数据区域时不要加括号!!!!②选定主要关键字、次要关键字、升序/降序等内容,进行排序。程序会先按主要关键字排序,当排序结果有重复时,再按次要关键字排序,依此类推3. Excel——数据分析①筛选一般选择全部数据区域(合并单元格除外)②文本筛选与数字筛选的条目不尽相同。筛 选3. Excel——数据分析筛 选①*和?的区别?代表单个字符*代表多个字符②10个最大的值可以筛最小不一定是10个注意项和百分比③两列同时筛选时,没有先后顺序,未被筛选出的数据被隐藏3. Excel——数据分析筛 选6、关于数据筛选,下列说法正确的是( )A、筛选后,不符合条件的数据将被删除B、筛选10个最大的值,只能将满足条件的前10个数据筛选出来C、筛选条件中若是“与”的关系,表明两个条件只需满足一个D、筛选最多只允许同时定义两个条件D7、已知某张工作表有“部门”与“销售额”等项目,现已对该工作表建立了“筛选”,下列说法中错误的是( )A、可以筛选出销售额的前5名和后5名B、可以筛选出部门名中带有“运”字的所有部门C、可以同时筛选出销售额在10000以上与在5000以下的所有部门D、不可以筛选出部门名有“运”字,且销售额在5000以下的数据D4. Excel——图表①选择图表的数据区域,连续区域中间用“:”,不连续区域用“,”例如:A1:A16,B1:B16注意:若选择多列的图表区域,则选择的长度要一致②选择对应的图表类型柱形图:比大小折线图:变化趋势饼图:所占比例创建图表4. Excel——图表设置图表③图表的标题、坐标轴、图例、数据标签等都可以自主设置④图表的类型可以更改,数据区域可以更改4. Excel——图表更改图表图表数据区域内的数据发生改变,图表就会发生改变,除非图表被转换为图片。特别注意:筛选和排序操作一般会引起图表的改变。若图表被粘贴到了Word中,改变Excel中的图表,Word中的图表是否变化,取决于粘贴时选择的粘贴类型。不变且保留图表本质链接数据的会变变成一张图片 不变4. Excel——图表E18:F23降低5. Excel——常见错误######单元格列宽不足调整到合适列宽#DIV/0!公式中除数为0,或AVERAGE函数范围内全无内容#VALUE!公式引用了错误的数据类型,例如公式引用了汉字的单元格进行加减乘除运算#REF!删除了公式引用的单元格(不是内容),例如删除了一整列,导致某个单元格不存在#NULL!公式中不连续的区域没有用逗号隔开例如:=SUM(A2:A4 D2:D4)5. Excel——常见错误C6. Excel——小结 展开更多...... 收起↑ 资源预览