第四章 课时1 数据整理与计算 教案 浙教版(2019)必修1(课件 学案 教案三份打包)

资源下载
  1. 二一教育资源

第四章 课时1 数据整理与计算 教案 浙教版(2019)必修1(课件 学案 教案三份打包)

资源简介

课时1 数据整理与计算
课时目标
1.学会根据实际需求,对表格数据进行简单整理、计算。2.学会使用数据排序功能,把数据变为有序。3.学会使用数据筛选功能,筛选出符合要求的数据。
1.数据整理的目的
数据整理的目的是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。
2.常见的数据问题
数据缺失、数据重复、数据异常、逻辑错误、格式不一致等。
(1)数据缺失问题:最简单处理的方法是忽略含有缺失值的实例或属性。还可以采用平均值、中间值或概率统计值来填充缺失值。
(2)数据重复问题:检测数据集中的重复数据可以从字段和记录两个方面着手,检查到重复数据,在审核后可进行合并或删除等处理。
(3)异常数据:数据集中不符合一般规律的数据,可能是要去掉的噪声数据,也可能是含有重要信息的数据对象。
(4)逻辑错误问题:数据集中的属性值与实际值不符,或违背业务规则或逻辑。
(5)格式不一致问题:对于不同来源的数据中存在格式不一致的情况,可根据后续分析和挖掘的需要进行数据转换。
3.常用表格数据处理和统计分析工具有Excel、SPSS、SAS、MATLAB等软件,也可以通过R、Python、Java等计算机语言编程进行数据处理。
4.使用Excel软件进行数据计算的一般方法
分析表格数据→抽象计算模型→计算→分析计算结果,描述其含义。
5.数据计算
数据计算是数据处理的常用方法之一。在Excel软件中,主要有自定义公式和函数两种方式。
(1)自定义公式
以“=”开头,由常数、函数、单元格引用和运算符组成的式子。
(2)函数
函数是预定义的公式,通过使用参数按特定顺序或结构进行计算。常用函数有:sum、average、min和max等。
6.数据排序
(1)分为单个关键字排序和多关键字排序。
(2)排序时选择的数据区域必须是连续的。
(3)排序时根据情况选择有标题行或无标题行排序。
7.数据筛选(自动筛选)
筛选后表格中显示满足条件的记录,其他记录将被隐藏,筛选的范围是表格中的所有记录。自动筛选的方式主要有:
(1)自定义筛选。
(2)10个最大(小)的值,单位可以是项或百分比。
(3)多条件筛选。
1.数据整理的目的是检测和修正错漏的数据,整合数据资源,规整数据格式,提高数据的质量。常见的数据问题有数据缺失、数据重复、数据异常,存在逻辑错误、格式不一致或达不到分析要求等。
2.数据计算是数据处理的常用方法之一。日常简单的数据处理可以使用Excel软件完成,专业的数据处理和统计分析工具有SPSS、SAS、MATLAB等,也可以通过R、Python、Java等计算机语言编程进行数据处理。在Excel软件中,可以应用公式进行数据的计算。公式是以“=”号开头,由常数、函数、单元格引用和运算符组成的式子。
                
例1 下列关于数据整理的说法,正确的是 (  )
A.数据集中的缺失值一般用任意值填充
B.数据集中的异常数据须直接删除或忽略
C.数据集中的重复数据可进行合并或删除
D.数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
答案 C
解析 数据处理的核心是数据,数据的质量直接影响数据分析的结果。A选项,缺失数据可以忽略或采用平均值、中间值或概率统计值进行填充,不能用任意值填充;B选项,异常数据可能是要去掉的噪声数据或含有重要信息的数据,需根据具体情况进行分析判断;D选项,格式不一致的数据需要根据后续分析和挖掘的需要进行数据转换。
变式训练1 小明在整理全国房价数据时,发现上海市的房价数据缺失,下列做法合理的是 (  )
A.产生一个全国房价平均值,作为上海房价
B.取全国房价的最高值,作为上海房价
C.将上海从数据表中剔除
D.找出北京、深圳等同为一线城市的房价数据,求出中间值作为上海房价
答案 D
解析 缺失值问题最简单的处理方法是忽略含有缺失值的实例或属性。但这样处理可能造成数据集不完整,致使后继的统计分析结果出现偏差。因此较好的方法是根据数据间的关联性估计较准确的缺失值,并通过合适的方法对缺失值进行填充。通常采用平均值、中间值或概率统计值来填充缺失值。
例2 小王搜集了近5年各省(市)生产总值数据,并用Excel软件进行处理,如图a所示。
图a
请回答下列问题:
(1)小王对收集的数据先进行了数据整理,以下关于数据整理说法错误的是    (单选,填字母)。
A.对于数据缺失的问题,最简单的处理方法是忽略含有缺失值的实例或属性
B.对于重复数据,可以在进一步审核的基础上进行合并或删除等处理
C.逻辑错误的数据是指数据集中不符合一般规律的数据对象
(2)为计算图a中的“相对2016年的增长率(%)”,小王已经正确计算了单元格G4中的数据。他希望将单元格G4中的公式向下自动填充至单元格G34,再将区域G4:G34中的公式向右自动填充至J 列,从而正确计算出区域G4:J34中的数据,则单元格G4中的公式应修改为    。
(3)利用图a数据制作的图表如图b所示,下列说法正确的是    (多选,填字母,全部选对的得2分,选对但不全的得1分,不选或有选错的得0分)
2020年北京、天津、上海生产总值情况图
图b
A.制作该图表的数据区域为A2:A5,A12,F2:F5,F12
B.图表创建后,无法更改图表的类型
C.图表的柱形上方显示的具体数值,是通过设置图例实现的
D.若修改F4单元格的数据,则图表中北京市对应柱形高度将发生变化
答案 (1)C (2)=(C4-$B4)/$B4*100 (3)AD
解析 本题考查Excel表格处理。由于要向下向右进行自动填充,而相对应的数据一直在B列,因此需要用绝对引用符号固定列。B选项图表创建后,可以修改图表的类型,C选项柱形上方的具体数值,是通过数据标签实现的。
变式训练2 小红在多家电商平台开设了自己的网店,她下载并合并了商品购买表和用户信息表得到新数据集,现要分析不同年龄、性别的用户购买商品种类、数量的情况。部分数据如图所示:
(1)分析前,小红对数据进行了整理,下列说法正确的是    (多选,填字母)。
A.数据整理有利于提高数据的质量
B.D列数据格式不一致,一般保留一种格式的数据,删除其他格式的数据
C.B9单元格与实际不符,存在逻辑错误问题
D.F4单元格数据缺失,最简单的处理方法是填充任意值
(2)小红想通过购买日期与顾客生日推算出顾客的年龄(年龄=购买年份-出生年份),在H2单元格输入    ,随后使用自动填充功能计算H3:H159单元格的值。(提示:YEAR函数可以返回日期中的年份值,例如“=YEAR(B2)”返回的值为1994)
(3)为了直观得展现顾客的性别比例,应选用的图表类型为    。
答案 (1)AC (2)=YEAR(G2)-YEAR(B2) (3)饼图
解析 本题考查电子表格Excel的处理中相关函数、图表知识,以及数据处理相关的概念。
(1)整理数据有利于提高数据的质量。数据格式不一致,可以通过一定的手段处理修正相应格式,不能直接删除某种格式数据。某个数据如果部分缺失,分析时不能随意填充数据。
                                
1.下列关于数据整理目的的描述,错误的是 (  )
A.减少数据量 B.检测和修正错漏的数据
C.整合数据资源 D.提高数据质量
答案 A
解析 数据整理的目的是检测和修正错漏的数据,整合数据资源,规整数据格式,提高数据的质量,因此A选项不是数据整理的目的。
2.小张合并商品购买表和用户信息表得到新数据集,部分数据如图所示。
现要分析用户不同年龄、性别的用户购买商品种类、数量的情况,小张分析前对数据进行了以下整理,恰当的是 (  )
①删除“birthday”列数据 ②删除“年龄”列数据 ③删除“购买日期”列数据
④修改“user_id”、“birthday”列名称为中文名称 ⑤修改单元格D6中数据为M ⑥修改“birthday”列日期格式与G列一致
A.①②③⑤ B.②④⑤⑥
C.①④⑤⑥ D.③④⑤
答案 B
解析 整理数据前要先明确此次数据分析的目的,选取满足分析的必要字段,确保数据集中的数据正确、规范、一致。删除“birthday”或“购买日期”列数据后将无法确定客户购买商品时的年龄信息,影响本次数据分析,因此①③的操作是不恰当的,故答案为B。
3.小慈从浙江省统计局网站上收集了2020年末人口数据,并用Excel软件进行处理,如图a所示。
图a
(1)由于误操作等原因,温州市的户籍人口出现了数据缺失的现象,若表中其他数据正确的前提下,    (单选,填字母A.可以/B.不可以)通过适当的方法对温州的户籍入口进行找回并填充。
(2)在数据完整的前提下,区域E5:El5的数据是通过公式计算得到的,在E5单元格中输入公式      ,再使用自动填充功能完成区域E6:El5的计算。
(3)根据图a中数据制作的图表如图b所示。
各地方户籍人口占全省户籍人口情况
图b
关于该图表的描述,下列说法正确的是    (多选,填字母)。
A.创建该图表的数据区域为A3:Al5,D3:D15
B.该图表较为直观地反映了省内各地市户籍人口占全省户籍人口比率的大小
关系
C.若删除“舟山”所在行,则其他地市的比率会降低
D.若要在图表各柱形上方显示具体比率数值,可以通过设置数据标签来实现
答案 (1)A (2)=D5/SUM($D$5:$D$15)或=D5/SUM(D$5:D$15) (3)BD
解析 本题考查利用Excel加工数据。(1)缺失数据可以忽略或采用平均值、中间值或概率统计值进行填充。(2)全省户籍人口为SUM(D5:D15),且在向下填充过程中保持不变,需对行号加以固定。
一、基础巩固
                                
1.下列软件主要用于表格数据处理的有 (  )
A.“记事本”“录音机”程序 B.PowerPoint、SAS软件
C.Excel、SPSS软件 D.MATLAB、Word软件
答案 C
解析 本题主要考查的是软件的功能。表格数据处理的有Excel、SPSS软件等,因此,答案为C。
2.小明收集了班级同学住宿情况,并进行了汇总,如图所示。
下列说法正确的是 (  )
A.表中有重复数据,删除第5行或第8行任意一行即可
B.班级列为重复数据,可删除D列
C.第4行“是否住宿”列为False没有歧义,可以不用修改
D.为方便后续处理,可以修改F列5、6行单元格日期格式与其他人一致
答案 D
解析 观察图可知,第5行和第8行的姓名虽然相同,但是否住宿和生日的信息不一致,有可能是同班同姓名的两位不同的同学,因此不能删除数据,即A选项不正确;班级列是学生信息的一个有效的组成部分,不能删除,因此B选项不正确;第4行“是否住宿”列为False,而其他学生登记的住宿和不住宿,容易产生歧义,因此修改住宿情况,即C选项不正确。
3.小明收集了本周信息技术学科学习评价的数据,如图所示。
观察上表小明做了如下操作,其中属于数据整理的是     (多选,填字母)。
A.删除重复行第五行 B.验证并修改D2单元格数据
C.通过公式计算全班平均分 D.重新设置C3单元格格式
答案 ABD
4.下列关于数据整理的说法,错误的是 (  )
A.数据集中缺失的数据可以采用中间值来填充
B.数据集中异常数据可能包含重要信息
C.数据集中的重复数据可进行合并删除处理
D.数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
答案 D
解析 本题考查数据加工整理相关知识。格式不一致的数据需要根据后续分析和挖掘的需要进行数据转换。
二、能力提升
5.小明收集了我省2022年4月30日每个时间段,我省的各个监测站的PM2.5浓度的数据,存储在"数据.xlsx"中,如图所示。
(1)为了绘制某监测站24小时PM2.5的浓度变化趋势,小明需要对如图所示的表中数据进行整理,下列选项中说法不正确的是    (单选,填字母)。
A.通过检测发现E2单元格中的数据不正确,应进行修正
B.应删除第10行数据
C.第3行和第4行数据重复,应该删除其中一行数据
D.删除"0时"和"24小时平均浓度"两列数据,图绘制结果保持不变
(2)区域AA2:AA39的数据是通过公式计算出相应的平均值的,在AA2单元格中输入公式    ,再使用自动填充功能完成区域AA3:AA39的计算。
答案 (1)D (2)=AVERAGE(C2:Z2)
6.小明是油价分析师,他收集了3月份部分地区的油价,先将数据存储在Excel文件中,如图所示。
(1)为了准确求出平均油价,小明需要对如图表中的数据进行整理,下列说法正确的是    (多选,注:全部选对的得2分,选对但不全的得1分,不选或有选错的得0分)
A.第8行和第9行数据重复,应删除其中一行数据
B.应对B21单元格中的数据进行修改
C.对B2:D23单元格格式设置为“保留1位小数”,影响平均油价的计算结果
D.求出平均油价后,删除某一行的数据,平均油价可能发生改变
(2)对数据进行整理后,在中间插入一行某地区的油价。若求平均油价,需要在B24单元格中输入平均值函数    ,然后使用自动填充功能对C24和D24的计算。(注:平均值函数AVERAGE)
答案 (1)ABD (2)=AVERAGE(B2:B23)
7.查看近十年按年龄分类的人口调查抽样样本数据,并对数据用Excel软件进行处理,如图所示。
(1)下列关于数据整理的说法,正确的是    (多选)。
A.异常数据指数据不符合一般规律的数据对象
B.重复数据可以在审核的基础上进行合并或删除处理
C.逻辑错误如某人的生日为2022/2/30
D.数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
(2)区域B16:I16的数据是通过公式计算得到。用sum函数修改B16中的公式为    ,并用自动填充功能完成C16:I16。
答案 (1)ABC (2)=SUM(B10:B15)/B2(共41张PPT)
课时1 数据整理与计算
第四章 数据处理与应用
1.学会根据实际需求,对表格数据进行简单整理、计算。
2.学会使用数据排序功能,把数据变为有序。
3.学会使用数据筛选功能,筛选出符合要求的数据。
目 录
CONTENTS
知识梳理
01
例题精析
02
随堂检测
03
巩固与提升
04
知识梳理
1
1.数据整理的目的
数据整理的目的是______________________、整合数据资源、______________、提高数据质量。
检测和修正错漏的数据
规整数据格式
2.常见的数据问题
数据缺失、__________、__________、逻辑错误、____________等。
(1)数据缺失问题:最简单处理的方法是____________________________。还可以采用平均值、中间值或概率统计值来填充缺失值。
(2)数据重复问题:检测数据集中的重复数据可以从____________两个方面着手,检查到重复数据,在审核后可进行______或______等处理。
(3)异常数据:数据集中不符合一般规律的数据,可能是要去掉的______数据,也可能是含有重要信息的数据对象。
数据重复
数据异常
格式不一致
忽略含有缺失值的实例或属性
字段和记录
合并
删除
噪声
(4)逻辑错误问题:数据集中的属性值与实际值不符,或违背业务规则或逻辑。
(5)格式不一致问题:对于不同来源的数据中存在格式不一致的情况,可根据后续分析和挖掘的需要进行__________。
数据转换
3.常用表格数据处理和统计分析工具有Excel、SPSS、SAS、MATLAB等软件,也可以通过R、Python、Java等计算机语言编程进行数据处理。
4.使用Excel软件进行数据计算的一般方法
分析表格数据→______________→计算→分析计算结果,描述其含义。
抽象计算模型
5.数据计算
数据计算是数据处理的常用方法之一。在Excel软件中,主要有自定义公式和函数两种方式。
(1)自定义公式
以“=”开头,由常数、函数、单元格引用和运算符组成的式子。
(2)函数
函数是预定义的公式,通过使用参数按特定顺序或结构进行计算。常用函数有:sum、average、min和max等。
6.数据排序
(1)分为单个关键字排序和多关键字排序。
(2)排序时选择的数据区域必须是连续的。
(3)排序时根据情况选择有标题行或无标题行排序。
7.数据筛选(自动筛选)
筛选后表格中显示满足条件的记录,其他记录将被隐藏,筛选的范围是表格中的所有记录。自动筛选的方式主要有:
(1)自定义筛选。
(2)10个最大(小)的值,单位可以是项或百分比。
(3)多条件筛选。
1.数据整理的目的是检测和修正错漏的数据,整合数据资源,规整数据格式,提高数据的质量。常见的数据问题有数据缺失、数据重复、数据异常,存在逻辑错误、格式不一致或达不到分析要求等。
2.数据计算是数据处理的常用方法之一。日常简单的数据处理可以使用Excel软件完成,专业的数据处理和统计分析工具有SPSS、SAS、MATLAB等,也可以通过R、Python、Java等计算机语言编程进行数据处理。在Excel软件中,可以应用公式进行数据的计算。公式是以“=”号开头,由常数、函数、单元格引用和运算符组成的式子。
例题精析
2
例1 下列关于数据整理的说法,正确的是 (  )
A.数据集中的缺失值一般用任意值填充
B.数据集中的异常数据须直接删除或忽略
C.数据集中的重复数据可进行合并或删除
D.数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
C
解析 数据处理的核心是数据,数据的质量直接影响数据分析的结果。A选项,缺失数据可以忽略或采用平均值、中间值或概率统计值进行填充,不能用任意值填充;B选项,异常数据可能是要去掉的噪声数据或含有重要信息的数据,需根据具体情况进行分析判断;D选项,格式不一致的数据需要根据后续分析和挖掘的需要进行数据转换。
变式训练1 小明在整理全国房价数据时,发现上海市的房价数据缺失,下列做法合理的是 (  )
A.产生一个全国房价平均值,作为上海房价
B.取全国房价的最高值,作为上海房价
C.将上海从数据表中剔除
D.找出北京、深圳等同为一线城市的房价数据,求出中间值作为上海房价
解析 缺失值问题最简单的处理方法是忽略含有缺失值的实例或属性。但这样处理可能造成数据集不完整,致使后继的统计分析结果出现偏差。因此较好的方法是根据数据间的关联性估计较准确的缺失值,并通过合适的方法对缺失值进行填充。通常采用平均值、中间值或概率统计值来填充缺失值。
D
例2 小王搜集了近5年各省(市)生产总值数据,并用Excel软件进行处理,如图a所示。
图a
请回答下列问题:
(1)小王对收集的数据先进行了数据整理,以下关于数据整理说法错误的
是    (单选,填字母)。
A.对于数据缺失的问题,最简单的处理方法是忽略含有缺失值的实例或属性
B.对于重复数据,可以在进一步审核的基础上进行合并或删除等处理
C.逻辑错误的数据是指数据集中不符合一般规律的数据对象
(2)为计算图a中的“相对2016年的增长率(%)”,小王已经正确计算了单元格G4中的数据。他希望将单元格G4中的公式向下自动填充至单元格G34,再将区域G4:G34中的公式向右自动填充至J 列,从而正确计算出区域G4:J34中的数据,则单元格G4中的公式应修改为    。
(3)利用图a数据制作的图表如图b所示,下列说法正确的是    (多选,填字母,全部选对的得2分,选对但不全的得1分,不选或有选错的得0分)
2020年北京、天津、上海生产总值情况图
图b
A.制作该图表的数据区域为A2:A5,A12,F2:F5,F12
B.图表创建后,无法更改图表的类型
C.图表的柱形上方显示的具体数值,是通过设置图例实现的
D.若修改F4单元格的数据,则图表中北京市对应柱形高度将发生变化
答案 (1)C (2)=(C4-$B4)/$B4*100 (3)AD
解析 本题考查Excel表格处理。由于要向下向右进行自动填充,而相对应的数据一直在B列,因此需要用绝对引用符号固定列。B选项图表创建后,可以修改图表的类型,C选项柱形上方的具体数值,是通过数据标签实现的。
变式训练2 小红在多家电商平台开设了自己的网店,她下载并合并了商品购买表和用户信息表得到新数据集,现要分析不同年龄、性别的用户购买商品种类、数量的情况。部分数据如图所示:
(1)分析前,小红对数据进行了整理,下列说法正确的是    (多选,填字母)。
A.数据整理有利于提高数据的质量
B.D列数据格式不一致,一般保留一种格式的数据,删除其他格式的数据
C.B9单元格与实际不符,存在逻辑错误问题
D.F4单元格数据缺失,最简单的处理方法是填充任意值
(2)小红想通过购买日期与顾客生日推算出顾客的年龄(年龄=购买年份-出生年份),在H2单元格输入    ,随后使用自动填充功能计算H3:H159单元格的值。(提示:YEAR函数可以返回日期中的年份值,例如“=YEAR(B2)”返回的值为1994)
(3)为了直观得展现顾客的性别比例,应选用的图表类型为    。
答案 (1)AC (2)=YEAR(G2)-YEAR(B2) (3)饼图
解析 本题考查电子表格Excel的处理中相关函数、图表知识,以及数据处理相关的概念。
(1)整理数据有利于提高数据的质量。数据格式不一致,可以通过一定的手段处理修正相应格式,不能直接删除某种格式数据。某个数据如果部分缺失,分析时不能随意填充数据。
随堂检测
3
A
解析 数据整理的目的是检测和修正错漏的数据,整合数据资源,规整数据格式,提高数据的质量,因此A选项不是数据整理的目的。
A.减少数据量 B.检测和修正错漏的数据
C.整合数据资源 D.提高数据质量
2.小张合并商品购买表和用户信息表得到新数据集,部分数据如图所示。
D
现要分析用户不同年龄、性别的用户购买商品种类、数量的情况,小张分析前对数据进行了以下整理,恰当的是 (  )
①删除“birthday”列数据 ②删除“年龄”列数据 ③删除“购买日期”列数据
④修改“user_id”、“birthday”列名称为中文名称 ⑤修改单元格D6中数据为M ⑥修改“birthday”列日期格式与G列一致
A.①②③⑤ B.②④⑤⑥ C.①④⑤⑥ D.③④⑤
B
解析 整理数据前要先明确此次数据分析的目的,选取满足分析的必要字段,确保数据集中的数据正确、规范、一致。删除“birthday”或“购买日期”列数据后将无法确定客户购买商品时的年龄信息,影响本次数据分析,因此①③的操作是不恰当的,故答案为B。
3.小慈从浙江省统计局网站上收集了2020年末人口数据,并用Excel软件进行处理,如图a所示。
图a
(1)由于误操作等原因,温州市的户籍人口出现了数据缺失的现象,若表中其他数据正确的前提下,    (单选,填字母A.可以/B.不可以)通过适当的方法对温州的户籍入口进行找回并填充。
(2)在数据完整的前提下,区域E5:El5的数据是通过公式计算得到的,在E5单元格中输入公式      ,再使用自动填充功能完成区域E6:El5的计算。
(3)根据图a中数据制作的图表如图b所示。
各地方户籍人口占全省户籍人口情况
图b
关于该图表的描述,下列说法正确的是    (多选,填字母)。
A.创建该图表的数据区域为A3:Al5,D3:D15
B.该图表较为直观地反映了省内各地市户籍人口占全省户籍人口比率的大小关系
C.若删除“舟山”所在行,则其他地市的比率会降低
D.若要在图表各柱形上方显示具体比率数值,可以通过设置数据标签来实现
答案 (1)A (2)=D5/SUM($D$5:$D$15)或=D5/SUM(D$5:D$15) (3)BD
解析 本题考查利用Excel加工数据。(1)缺失数据可以忽略或采用平均值、中间值或概率统计值进行填充。(2)全省户籍人口为SUM(D5:D15),且在向下填充过程中保持不变,需对行号加以固定。
4
巩固与提升
基础巩固
能力提升
1.下列软件主要用于表格数据处理的有 (  )
A.“记事本”“录音机”程序 B.PowerPoint、SAS软件
C.Excel、SPSS软件 D.MATLAB、Word软件
C
解析 本题主要考查的是软件的功能。表格数据处理的有Excel、SPSS软件等,因此,答案为C。
2.小明收集了班级同学住宿情况,并进行了汇总,如图所示。
D
下列说法正确的是 (  )
A.表中有重复数据,删除第5行或第8行任意一行即可
B.班级列为重复数据,可删除D列
C.第4行“是否住宿”列为False没有歧义,可以不用修改
D.为方便后续处理,可以修改F列5、6行单元格日期格式与其他人一致
解析 观察图可知,第5行和第8行的姓名虽然相同,但是否住宿和生日的信息不一致,有可能是同班同姓名的两位不同的同学,因此不能删除数据,即A选项不正确;班级列是学生信息的一个有效的组成部分,不能删除,因此B选项不正确;第4行“是否住宿”列为False,而其他学生登记的住宿和不住宿,容易产生歧义,因此修改住宿情况,即C选项不正确。
3.小明收集了本周信息技术学科学习评价的数据,如图所示。
观察上表小明做了如下操作,其中属于数据整理的是     (多选,填字母)。
A.删除重复行第五行 B.验证并修改D2单元格数据
C.通过公式计算全班平均分 D.重新设置C3单元格格式
ABD
A.数据集中缺失的数据可以采用中间值来填充
B.数据集中异常数据可能包含重要信息
C.数据集中的重复数据可进行合并删除处理
D.数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
D
解析 本题考查数据加工整理相关知识。格式不一致的数据需要根据后续分析和挖掘的需要进行数据转换。
5.小明收集了我省2022年4月30日每个时间段,我省的各个监测站的PM2.5浓度的数据,存储在"数据.xlsx"中,如图所示。
(1)为了绘制某监测站24小时PM2.5的浓度变化趋势,小明需要对如图所示的表中数据进行整理,下列选项中说法 的是    (单选,填字母)。
A.通过检测发现E2单元格中的数据不正确,应进行修正
B.应删除第10行数据
C.第3行和第4行数据重复,应该删除其中一行数据
D.删除"0时"和"24小时平均浓度"两列数据,图绘制结果保持不变
(2)区域AA2:AA39的数据是通过公式计算出相应的平均值的,在AA2单元格中输入公式    ,再使用自动填充功能完成区域AA3:AA39的计算。
答案 (1)D (2)=AVERAGE(C2:Z2)
6.小明是油价分析师,他收集了3月份部分地区的油价,先将数据存储在Excel文件中,如图所示。
D
(1)为了准确求出平均油价,小明需要对如图表中的数据进行整理,下列说法正确的是    (多选,注:全部选对的得2分,选对但不全的得1分,不选或有选错的得0分)
A.第8行和第9行数据重复,应删除其中一行数据
B.应对B21单元格中的数据进行修改
C.对B2:D23单元格格式设置为“保留1位小数”,影响平均油价的计算结果
D.求出平均油价后,删除某一行的数据,平均油价可能发生改变
(2)对数据进行整理后,在中间插入一行某地区的油价。若求平均油价,需要在B24单元格中输入平均值函数    ,然后使用自动填充功能对C24和D24的计算。(注:平均值函数AVERAGE)
答案 (1)ABD (2)=AVERAGE(B2:B23)
7.查看近十年按年龄分类的人口调查抽样样本数据,并对数据用Excel软件进行处理,如图所示。
(1)下列关于数据整理的说法,正确的是    (多选)。
A.异常数据指数据不符合一般规律的数据对象
B.重复数据可以在审核的基础上进行合并或删除处理
C.逻辑错误如某人的生日为2022/2/30
D.数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
(2)区域B16:I16的数据是通过公式计算得到。用sum函数修改B16中的公式为    ,并用自动填充功能完成C16:I16。
答案 (1)ABC (2)=SUM(B10:B15)/B2课时1 数据整理与计算
课时目标
1.学会根据实际需求,对表格数据进行简单整理、计算。2.学会使用数据排序功能,把数据变为有序。3.学会使用数据筛选功能,筛选出符合要求的数据。
1.数据整理的目的
数据整理的目的是________________________、整合数据资源、________________、提高数据质量。
2.常见的数据问题
数据缺失、____________、____________、逻辑错误、________________等。
(1)数据缺失问题:最简单处理的方法是________________________________。还可以采用平均值、中间值或概率统计值来填充缺失值。
(2)数据重复问题:检测数据集中的重复数据可以从________________两个方面着手,检查到重复数据,在审核后可进行________或________等处理。
(3)异常数据:数据集中不符合一般规律的数据,可能是要去掉的________数据,也可能是含有重要信息的数据对象。
(4)逻辑错误问题:数据集中的属性值与实际值不符,或违背业务规则或逻辑。
(5)格式不一致问题:对于不同来源的数据中存在格式不一致的情况,可根据后续分析和挖掘的需要进行____________。
3.常用表格数据处理和统计分析工具有Excel、SPSS、SAS、MATLAB等软件,也可以通过R、Python、Java等计算机语言编程进行数据处理。
4.使用Excel软件进行数据计算的一般方法
分析表格数据→________________→计算→分析计算结果,描述其含义。
5.数据计算
数据计算是数据处理的常用方法之一。在Excel软件中,主要有自定义公式和函数两种方式。
(1)自定义公式
以“=”开头,由常数、函数、单元格引用和运算符组成的式子。
(2)函数
函数是预定义的公式,通过使用参数按特定顺序或结构进行计算。常用函数有:sum、average、min和max等。
6.数据排序
(1)分为单个关键字排序和多关键字排序。
(2)排序时选择的数据区域必须是连续的。
(3)排序时根据情况选择有标题行或无标题行排序。
7.数据筛选(自动筛选)
筛选后表格中显示满足条件的记录,其他记录将被隐藏,筛选的范围是表格中的所有记录。自动筛选的方式主要有:
(1)自定义筛选。
(2)10个最大(小)的值,单位可以是项或百分比。
(3)多条件筛选。
1.数据整理的目的是检测和修正错漏的数据,整合数据资源,规整数据格式,提高数据的质量。常见的数据问题有数据缺失、数据重复、数据异常,存在逻辑错误、格式不一致或达不到分析要求等。
2.数据计算是数据处理的常用方法之一。日常简单的数据处理可以使用Excel软件完成,专业的数据处理和统计分析工具有SPSS、SAS、MATLAB等,也可以通过R、Python、Java等计算机语言编程进行数据处理。在Excel软件中,可以应用公式进行数据的计算。公式是以“=”号开头,由常数、函数、单元格引用和运算符组成的式子。
例1 下列关于数据整理的说法,正确的是(  )
A.数据集中的缺失值一般用任意值填充
B.数据集中的异常数据须直接删除或忽略
C.数据集中的重复数据可进行合并或删除
D.数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
听课笔记:                                    
                                    
变式训练1 小明在整理全国房价数据时,发现上海市的房价数据缺失,下列做法合理的是(  )
A.产生一个全国房价平均值,作为上海房价
B.取全国房价的最高值,作为上海房价
C.将上海从数据表中剔除
D.找出北京、深圳等同为一线城市的房价数据,求出中间值作为上海房价
例2 小王搜集了近5年各省(市)生产总值数据,并用Excel软件进行处理,如图a所示。
图a
请回答下列问题:
(1)小王对收集的数据先进行了数据整理,以下关于数据整理说法错误的是________(单选,填字母)。
A.对于数据缺失的问题,最简单的处理方法是忽略含有缺失值的实例或属性
B.对于重复数据,可以在进一步审核的基础上进行合并或删除等处理
C.逻辑错误的数据是指数据集中不符合一般规律的数据对象
(2)为计算图a中的“相对2016年的增长率(%)”,小王已经正确计算了单元格G4中的数据。他希望将单元格G4中的公式向下自动填充至单元格G34,再将区域G4:G34中的公式向右自动填充至J 列,从而正确计算出区域G4:J34中的数据,则单元格G4中的公式应修改为________。
(3)利用图a数据制作的图表如图b所示,下列说法正确的是________(多选,填字母,全部选对的得2分,选对但不全的得1分,不选或有选错的得0分)
2020年北京、天津、上海生产总值情况图
图b
A.制作该图表的数据区域为A2:A5,A12,F2:F5,F12
B.图表创建后,无法更改图表的类型
C.图表的柱形上方显示的具体数值,是通过设置图例实现的
D.若修改F4单元格的数据,则图表中北京市对应柱形高度将发生变化
听课笔记:                                    
                                    
                                    
                                    
变式训练2 小红在多家电商平台开设了自己的网店,她下载并合并了商品购买表和用户信息表得到新数据集,现要分析不同年龄、性别的用户购买商品种类、数量的情况。部分数据如图所示:
(1)分析前,小红对数据进行了整理,下列说法正确的是________(多选,填字母)。
A.数据整理有利于提高数据的质量
B.D列数据格式不一致,一般保留一种格式的数据,删除其他格式的数据
C.B9单元格与实际不符,存在逻辑错误问题
D.F4单元格数据缺失,最简单的处理方法是填充任意值
(2)小红想通过购买日期与顾客生日推算出顾客的年龄(年龄=购买年份-出生年份),在H2单元格输入________,随后使用自动填充功能计算H3:H159单元格的值。(提示:YEAR函数可以返回日期中的年份值,例如“=YEAR(B2)”返回的值为1994)
(3)为了直观得展现顾客的性别比例,应选用的图表类型为________。
1.下列关于数据整理目的的描述,错误的是(  )
A.减少数据量 B.检测和修正错漏的数据
C.整合数据资源 D.提高数据质量
2.小张合并商品购买表和用户信息表得到新数据集,部分数据如图所示。
现要分析用户不同年龄、性别的用户购买商品种类、数量的情况,小张分析前对数据进行了以下整理,恰当的是(  )
①删除“birthday”列数据
②删除“年龄”列数据
③删除“购买日期”列数据
④修改“user_id”、“birthday”列名称为中文名称
⑤修改单元格D6中数据为M
⑥修改“birthday”列日期格式与G列一致
A.①②③⑤ B.②④⑤⑥
C.①④⑤⑥ D.③④⑤
3.小慈从浙江省统计局网站上收集了2020年末人口数据,并用Excel软件进行处理,如图a所示。
图a
(1)由于误操作等原因,温州市的户籍人口出现了数据缺失的现象,若表中其他数据正确的前提下,________(单选,填字母A.可以/B.不可以)通过适当的方法对温州的户籍入口进行找回并填充。
(2)在数据完整的前提下,区域E5:El5的数据是通过公式计算得到的,在E5单元格中输入公式__________________________________________________,
再使用自动填充功能完成区域E6:El5的计算。
(3)根据图a中数据制作的图表如图b所示。
各地方户籍人口占全省户籍人口情况
图b
关于该图表的描述,下列说法正确的是________(多选,填字母)。
A.创建该图表的数据区域为A3:Al5,D3:D15
B.该图表较为直观地反映了省内各地市户籍人口占全省户籍人口比率的大小关系
C.若删除“舟山”所在行,则其他地市的比率会降低
D.若要在图表各柱形上方显示具体比率数值,可以通过设置数据标签来实现

展开更多......

收起↑

资源列表