资源简介 (共35张PPT)《常用表格数据的处理》主讲人:数据整理下图是学生体质健康数据的部分原始数据,观察该数据存在什么问题?学籍号 性别 既往 病史 生日 体重(kg) 身高(cm) BMI评价1840116 女 无 2003/9/29 44.8 1.615 正常男 无 2002年9月30日 93.7 165.5 肥胖1840118 女 无 2003/3/1 56.6 156.3 超重1840118 女 无 2003/3/1 56.6 156.3 超重1840120 男 无 2003/10/3 68 174.2 正常1840121 男 无 2003/2/31 50 180.5 消瘦学籍号 性别 既往 病史 生日 体重(kg) 身高(cm) BMI评价1840116 女 无 2003/9/29 44.8 1.615 正常男 无 2002年9月30日 93.7 165.5 肥胖1840118 女 无 2003/3/1 56.6 156.3 超重1840118 女 无 2003/3/1 56.6 156.3 超重1840120 男 无 2003/10/3 68 174.2 正常1840121 男 无 2003/2/31 50 180.5 消瘦数据缺失格式不一致逻辑错误数据异常数据重复18401172002/9/302003/2/28161.5数据整理:检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。数据整理数据问题 处理方法数据缺失 忽略含有缺省值的实例或属性(简单)采用平均值、中间值或概率统计值来填充(优)数据重复 在进一步审核的基础上进行合并或删除处理异常数据 不符合一般规律的数据对象,可能为噪声或重要数据对象逻辑错误 通过检测字段中各属性有效数据值的范围来判断格式不一 数据转换成适合后续分析和挖掘的统一形式数据整理的应用乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了几年的生命。excel基础知识单元格地址B5区域地址A2:C5=C2+D2+E2=SUM(C2:E2)=SUM(C2,D2,E2)数据计算excel常见函数SUM( ):求和AVERAGE( ):求平均值MIN( ):求最小值MAX( ):求最大值课堂练习如果EXCEL中单元格B4的值是单元格B1、B2、B3 的平均值,则输入公式错误的是( )A.=AVERAGE(B1:B3)B.=AVERAGE(B1,B2,B3)C.AVERAGE(B1+B2+B3)D.=(B1+B2+B3)/3C公式运算公式:以“=”开头,由常数、函数、单元格引用和运算符组成的算式。单元格引用:连续的单元格用“:”连接,不连续的单元格用“,”连接,如A2:A5,D2:D5。自动填充:利用填充柄将公式复制到其它相邻单元格中=C2+D2+E2一般情况,上下填充变行号,左右填充变列号!=C7+D7+E7自动填充excel自动填充自动填充如在单元格F8中输入“=(E8+D8)*C2-B3*D4”,则自动填充到G10单元格后,单元格的内容为?=(F10+E10)*D4-C5*E6相对引用一般情况,上下填充变行号,左右填充变列号!引用A1——相对引用(默认):公式所在单元格的位置改变,引用也随之改变。$A$1——绝对引用:公式所在单元格的位置改变,引用保持不变。混合引用:公式所在单元格的位置改变,绝对引用部分不变,相对引用部分随之改变,如$A1(仅锁定列号), A$1(仅锁定行号) 。“$”在谁前面,谁被锁定。=E4*B$16引用上机实践如图所示为2012-2016年部分省市区国内生产总值,请使用Excel完成部分空白数据的统计。分别计算北京地区的5年生产总值和年生产平均值,并填充到G3、H3单元格中。设置年生产平均值数单元格格式为保留两位小数。利用自动填充功能完成其它省市区空白数据的计算。函数函数是预定义的公式,通过使用参数按特定顺序或结构进行计算,其中参数可以是数字、单元格或单元格区域。注意:函数名称的字母均采用大写、以“=”为开头。常用函数 功能 举例SUM(num1,num2…) 求参数的和 =SUM(A1:A12)AVERAGE(num1,num2…) 求参数的平均值 =AVERAGE(A1:A12)MAX(num1,num2…) 返回参数列表中的最小值 =MAX(A1:A12)MIN(num1,num2…) 返回参数列表中的最大值 =MIN(A1:A12)上机实践修改已完成的2012-2016年部分省市区国内生产总值表。使用函数计算北京地区的5年生产总值和年生产平均值,并填充到G3、H3单元格中。设置年生产平均值数单元格格式为保留两位小数。利用自动填充功能完成其它省市区空白数据的计算。上机实践根据已完成的2012-2016年部分省市区国内生产总值表,完成占比表数据的填充。在K3单元格计算北京地区2012年生产值占5年总产值的比例,并自动填充到K3:O10单元格中。设置K3:O10单元格格式为百分数,并保留两位小数。上机实践根据已完成的2012-2016年部分省市区国内生产总值表,完成数据的排序。将生产总值表按“5年生产总值”进行降序排序,当“5年生产总值”相等时按照年生产平均值进行升序排序。对“上海、北京、天津、山西”四地按照“5年生产总值”进行升序排序。上机实践根据已完成的2012-2016年部分省市区国内生产总值表,绘制如图所示的柱形图。绘制2012-2016年各省市区生产总值图。修改图表标题为“2012-2016年部分省市区国内生产总值图”。数据区域选取根据图表判断数据区域:根据x轴、y轴选定数据区域,根据图例选定标题区域,最终数据区域呈现矩形状,如图所示的数据区域为A2:A10,E2:F10。图表的标题与选定数据区域无关。数据排序1.选取数据区域避开合并单元格不能只选定关键字进行排序,而应将参与排序数据的整条记录全部选中后再排序2.确定主要关键字、次要关键字,设置对应的排序依据和排序次序先按主要关键字排序,当主要关键字相同按次要关键字排序.数据包含标题,选区第一行为标题,不参与排序;数据不含标题,则所选区域即为排序区域,全部参与排序数据筛选筛选:符合筛选条件的显示,不符合条件的隐藏文本筛选:通配符(?匹配一个字符,*匹配任意多个字符)、包含、结尾是、开头是数字筛选:大于、小于、不等于任意、10个最大的值多条件筛选多条件筛选:筛选结果为多个条件的交集。筛选后再排序,只有筛选出的记录参与排序。如何选出女生中成绩最好的三个?先选出性别为女生,再选出成绩最大的三项先选出成绩最大的三项,再选出性别为女生先选出女生,再按成绩进行排序先按成绩进行排序,再选出女生Excel图表创建图表:选择数据区域—选择图表类型—创建图表—增加/删除/修改图表元素。创建图表:①选择数据区域②选择图表类型③创建图表④增加/删除/修改图表元素★ 图表呈现数据,让数据更直观,更有吸引力……图表柱形图用于显示一段时间内的数据变化或显示各项之间的比较情况。柱形图折线图可以显示随时间而变化的连续数据,非常适用于显示在相等时间间隔下数据的趋势柱形图用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。柱形图雷达图也称为网络图,蜘蛛图,星图。用于两组或者多组变量进行多项指标对比,反应数据相对中心点和其他数据点的变化情况。常用与多项指标的全面分析。散点图一般研究2~3个变量之间的关系,图中点的位置,由X值和Y值确定,也叫XY散点图。气泡图用于展示3~4个变量之间的关系,与散点图类似。气泡大小反应第三维度变量值,气泡颜色反应第四维度变量值。Excel图表图表和数据区域相关联:当图表引用的数据区域发生变化时(数据修改、排序、筛选等),该图表也随之发生变化;但设置单元格小数位数不影响图表。常见错误类型错误类型 错误名称 错误原因#DIV/0! 除零错误 除数为0#REF! 引用错误 删除一个在公式中被引用的单元格#VALUE 数据类型错误 如一个文本型加一个数值型#NAME 函数名错误 如SUM拼成了SAM###### 不是错误,是单元格列宽不够造成的 谢谢 展开更多...... 收起↑ 资源预览