5.3.1《特征探索》粤教版(2019)数据与计算必修1-课后练习(含答案)

资源下载
  1. 二一教育资源

5.3.1《特征探索》粤教版(2019)数据与计算必修1-课后练习(含答案)

资源简介

特征探索练习题
(粤教版·必修一《数据与计算》)
一、单选题(共15题,每题5分,共75分)
1. 某数据分析团队进行特征探索时,发现数据集中存在大量空缺值,他们决定用该列的平均值来填补这些空缺。这属于特征探索中的( )
A. 异常值处理
B. 缺失值处理
C. 重复值处理
D. 数据可视化
2. 以下关于特征探索的主要任务,描述不正确的是( )
A. 发现并处理缺失值
B. 发现并处理异常数据
C. 直接对数据进行预测建模
D. 绘制直方图,观察数据分布特征
3. 某数据集中的最小值为10,最大值为45,则该数据集的极差为( )
A. 10
B. 35
C. 45
D. 55
4. 某中学对高一学生进行了体育测试,在整理成绩数据时,发现某个学生的成绩为“999分”(满分100分),这属于特征探索中需要处理的( )
A. 缺失值
B. 异常数据
C. 重复数据
D. 离散数据
5. 以下统计量中,属于描述性统计量的是( )
A. 回归系数
B. 最小值
C. 关联度
D. 置信度
6. 在特征探索中,绘制散点图的主要作用是( )
A. 观察数据分布形态
B. 发现和处理异常值
C. 计算最大值和最小值
D. 填补缺失值
7. 以下哪种图表最适合用于观察一组数据的分布特征?( )
A. 折线图
B. 散点图
C. 直方图
D. 饼图
8. 数据特征探索的主要任务中,对数据进行预处理的目的是( )
A. 增加数据量
B. 发现和处理缺失值、异常数据,提高数据质量
C. 删除所有数据
D. 改变数据格式
9. 某班级进行数学测验,学生成绩分别为:85、92、78、100、56、88、92、76、85、94、92、97。该组数据的众数是( )
A. 85
B. 92
C. 88
D. 100
10. 关于极差的说法,正确的是( )
A. 一组数据中最小值与平均值的差
B. 一组数据中最大值与最小值的差
C. 一组数据中最大值与中位数的差
D. 一组数据中平均值与中位数的差
11. 以下哪个选项最能反映一组数据的波动程度?( )
A. 平均数
B. 中位数
C. 极差
D. 众数
12. 用均值填补缺失值的方法属于( )
A. 异常值处理
B. 缺失值替换法
C. 重复值删除法
D. 数据离散化
13. 关于箱线图(盒须图),下列说法正确的是( )
A. 只能展示数据的集中趋势
B. 可以直观地展示数据的分布范围和异常值
C. 无法识别异常值
D. 箱线图与直方图没有区别
14. 关于数据预处理的目的,下列说法不正确的是( )
A. 提高数据质量
B. 去除错误数据
C. 确保数据都为正数
D. 填补缺失值便于后续分析
15. 在某次测量中,测得一组数据: 23、25、24、26、28、150。其中“150”最可能属于( )
A. 有效数据
B. 异常值
C. 缺失值
D. 重复数据
二、填空题(共10题,每题2分,共20分)
1. 数据特征探索的主要任务是对数据进行预处理,发现和处理__________、__________数据。
2. 为了直观地观察分析数据的分布特征,常绘制__________图。
3. 描述性统计量包括最大值、__________、极差等。
4. 极差的计算公式是:极差 = 最大值 __________。
5. 缺失值是指数据集中__________或__________的值。
6. __________是指一组数据中偏离预期范围的值,通常不是错误值,但会对分析结果造成偏差。
7. 常见的数据预处理任务包括__________处理、缺失值处理、异常值处理等。
8. 箱线图(盒须图)可以直观地展示数据的__________、分布范围和异常值。
9. 样本数据___________、___________、___________等是反映一组数据集中趋势的指标。
10. 特征探索是数据分析的基础步骤,它的结果直接影响后续__________分析、聚类分析等环节的质量。
三、情景作答题(共3题)
情景一:校园视力健康数据预处理
某校为监测学生视力健康,采集了全校1500名学生的视力数据,存储在一个CSV文件中。数据中包含字段:班级、姓名、性别、左眼视力、右眼视力。信息中心教师在预处理时发现如下问题:
部分学生的“左眼视力”单元格为空;
有个别记录显示“左眼视力”为“5”(正常视力范围为4.0—5.2之间);
还有两条记录的班级、姓名完全相同,疑似重复录入;
数据导入时发现“左眼视力”列中有个别特殊符号“ ”。
请回答以下问题:
1. 上述数据存在哪些类型的数据质量问题?(每答出一种问题类型加2分,满分6分)
2. 针对“左眼视力”为空的情况,可以采取哪些方法进行处理?(4分)
3. 如果绘制“右眼视力”的直方图,你认为有助于发现什么问题?请你描述在该情景中如何利用散点图帮助分析处理异常数据。(4分)
4. 学生小张认为直接把有问题的数据全部删除即可,这样做是否合理?为什么?(4分)
情景二:超市商品价格数据的特征探索
百乐超市IT部门对各商品价格和月销量数据进行特征探索,获得初步观察如下:
商品A价格:通常22.5元左右,但在6月1日出现一次“9999”元(促销活动测试数据)。
商品B价格:日常在510元之间波动。
商品C:连续一周的“上架日期”字段输入为空。
商品D和商品E:品牌名相同,但商品名称高度相似(“清爽洗面奶”和“清爽洗颜奶”)。
请回答以下问题:
1. “9999”元的商品A价格属于哪种类型的数据问题?在特征探索中应该如何处理?(4分)
2. 商品B的价格在510元之间波动,可以使用什么指标描述价格变化范围?(4分)
3. 商品C“上架日期”字段为空,请给出两种缺失值处理方法并简单说明。(4分)
4. 商品D与E品牌名与商品名高度相似但不完全相同,它们可能导致哪些数据分析问题?(4分)
情景三:运动手环数据预处理与分析
某运动App收集了用户的日步数数据(单位:步),现从中抽样得到十位用户某一天的步数:2300、2600、2500、2450、2700、2650、2400、7800、2550、2500。
请回答以下问题:
1. 计算这组数据的最小值、最大值及极差。(3分)
2. 在这组数据中,有一个数明显偏离其他数据,请找出并说明判断理由。(3分)
3. 在特征探索中,对于这种偏离较大的数据进行处理之前,应该先采取什么措施?(4分)
4. 某同学认为“超出所有数据平均值两倍的都是异常值”,你认为这句话正确吗?请说明理由。(4分)
参考答案与解析
一、单选题答案解析
1. B
解析:用平均值填补空缺值属于缺失值处理。粤教版教材指出,特征探索任务包括“发现和处理缺失值”,常用的缺失值处理方法包括直接删除法、替换法或插值法,均值替换是一种常用方法。A异常值处理针对偏离正常范围的数据;C重复值处理针对完全重复的记录;D数据可视化是展示数据的手段。
2. C
解析:特征探索的主要任务是对数据进行预处理,包括发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。直接进行预测建模不是特征探索阶段的任务,特征探索为后续的数据分析(如关联分析、聚类分析、建立模型等)做准备。因此C项不正确。
3. B
解析:极差是一组数据中最大值与最小值的差,计算公式为:极差 = 最大值 最小值。本题中最大值45减去最小值10,结果为35。
4. B
解析:“999分”明显超出正常范围(0—100分),属于异常数据。教材明确指出,异常数据指那些偏离正常范围的值,虽然不是错误值,但会对实际项目分析造成偏差。正是特征探索中需要发现和处理的对象。
5. B
解析:粤教版教材中明确,特征探索要求“求最大值、最小值、极差等描述性统计量”。最小值属于描述性统计量。A回归系数、C关联度、D置信度均属于推断统计或数据分析中的其他指标,不属于描述性统计量。
6. B
解析:在特征探索的数据预处理过程中,可利用散点图发现异常值。教材配套素材明确指出,“异常值处理,利用画散点图发现异常值部分”。散点图将数据点在平面上绘出,能直观观察到偏离主体分布的点,用于发现和处理异常值。
7. C
解析:粤教版教材中明确指出,特征探索要“绘制直方图,观察分析数据的分布特征”。直方图是展示数据分布特征的常用图表。折线图适合展示变化趋势;散点图适合观察变量间关系;饼图适合展示占比。故直方图最适合观察分布特征。
8. B
解析:数据预处理的目的是发现和处理缺失值、异常数据,提高数据质量,为后续分析奠定基础。A增加数据量、C删除所有数据、D改变数据格式都不是预处理的核心目的。
9. B
解析:众数是一组数据中出现次数最多的数值。成绩中92出现3次(第2、第6、第11位),出现次数最多,因此众数为92。
10. B
解析:极差(又称全距)是描述一组数据离散程度最简单的指标,指一组观测值中最大值与最小值之差。B选项正确。
11. C
解析:极差是描述一组数据离散程度最简单的指标,能反映数据的波动范围。平均值、中位数、众数都是反映集中趋势的指标,不能直接反映波动程度。
12. B
解析:缺失值处理方法包括直接删除法和替换法,均值替换是替换法的一种。教材指出“常用的替换法有均值替换、前向、后向替换和常数替换”。A异常值处理、D数据离散化均与此无关。
13. B
解析:箱线图可以直观地展示数据的分布范围、中位数、四分位数以及异常值,是特征探索中识别异常值的重要工具。教材指出常用“箱线图法(分位差法)或者分布图(标准差法)判断异常值”。箱线图不仅可以识别异常值,还能展示分位数、分布范围、集中趋势等多种信息。
14. C
解析:数据预处理旨在提高数据质量,处理缺失值、异常值、重复值等问题,但不需要“确保数据都为正数”。很多客观数据可能是零或负数(如气温零度、亏损金额等),强制改为正数反而会损失信息的真实性和准确性。因此C项不正确。
15. B
解析:在这组数据中,23、24、25、26、28均在23—28的范围内,而150明显偏离正常范围,属于异常数据。异常值出现频率较低,但会对实际项目分析造成偏差。特征探索的任务就是发现并处理此类问题。
二、填空题答案解析
1. 缺失值;异常
解析:根据粤教版教材,特征探索的主要任务是对数据进行预处理,发现和处理缺失值和异常数据。
2. 直方
解析:教材明确指出“绘制直方图,观察分析数据的分布特征”,直方图是观察数据分布特征的关键工具。
3. 最小值
解析:特征探索要求求最大值、最小值等描述性统计量。最小值与最大值、极差等都是描述性统计量的基本内容。
4. 最小值
解析:极差的计算公式是:极差 = 最大值 最小值,这是衡量数据离散程度的基础公式。
5. 空缺;未填写
解析:缺失值指数据集中某些记录缺少数据,表现形式为空值、空白或特殊符号如“ ”等。
6. 异常值
解析:异常数据是指那些偏离正常范围的值,虽然不是错误值,但会对实际项目分析造成偏差。需要特征探索阶段发现并处理。
7. 重复值
解析:特征探索中的数据预处理主要包括重复值处理、缺失值处理和异常值处理。
8. 离散程度
解析:箱线图(盒须图)能够直观地展示数据的分布范围和异常值,是特征探索中发现异常的重要工具。
9. 平均数;中位数;众数
解析:平均数、中位数、众数是反映一组数据集中趋势的三个核心统计指标,属于描述统计分析的基础内容。
10. 关联
解析:特征探索是数据预处理和质量分析的基础,其结果直接影响后续的关联分析、聚类分析等数据分析环节的质量。
三、情景作答题答案解析
情景一:校园视力健康数据预处理
1. 数据质量问题类型
存在的问题类型包括:
缺失值问题:“左眼视力”单元格为空。
异常值问题:“左眼视力”为“5”(低于正常范围下限4.0),属于范围异常值。
重复数据问题:两条记录的班级、姓名完全相同。
格式异常问题:“左眼视力”列中出现特殊符号“ ”。
(每答出一种类型给2分,满分6分)
2. “左眼视力”为空值的处理方法
可采用以下几种方法:
直接删除法:如果缺失记录占比较小,可以直接删除相关记录行。
均值替换法:用其他有效记录的“左眼视力”平均值填补缺失值。
分组均值替换:按班级或性别分组后,用该组内有效记录的平均值填补缺失值。
常数替换:统一用某个合理的常数(如4.8)填补。
插值法:根据前后记录的关系推算缺失值(适用于时间序列数据)。
上述方法选用时需结合数据样本特征与数据量大小进行判断,确保不影响后续视力健康分析结论的有效性与准确性。例如,若缺失值占比较高,直接删除可能损失有效样本量;均值替换要确保数据分布大致对称,否则可能引入偏差。
3. 直方图与散点图的作用
直方图的作用:绘制“右眼视力”的直方图可以观察数据的分布特征,如发现学生的视力是否集中分布在某个区间(如4.8—5.0),是否呈正态分布,以及是否存在与整体分布明显脱离的视力异常数值等。
利用散点图发现异常数据:可绘制横轴为“班级编号”、纵轴为“右眼视力”的散点图。将学生按班级分组,观察各班的视力分布情况,如果某班级整体视力较好但个别点严重偏低,或某学生视力远高于整体水平,则该点在图中会明显偏离,便于定位后核实原因的合理性,并根据核实结果判断是否作为异常值处理。
4. 直接删除有问题的数据是否合理
不合理。是否删除应视具体情况而定:
重复数据可以删除,保留一条有效记录即可。
缺失值如果比例较低可以用删除法,但如果缺失比例较高(如超过5%—10%)且删除后严重影响样本量,则采用替换法或插值法更为合理。
异常值需要区分是数据录入错误还是真实存在的特例:若是录入错误,删除或修正均可;若是真实特例(如某学生视力确实偏低),删除会丢失重要信息,应保留标注并在报告中说明。
格式异常值(如“ ”) 应由教师先溯源,核实原始采集表格的实际情况,可能涉及采集设备或填写人员失误。不经调查直接删除可能导致错误认识,必须在充分分析原因后选择修正补录或保留合理化调整。
综上,建议优先采取“分析原因→合理填补或修正→保留有效信息”的策略,避免简单地全部删除。删除记录可能会引入数据质量风险,使总体代表性下降。
情景二:超市商品价格数据的特征探索
1. “9999”元价格的问题与处理
该数据属于异常值。原因:“9999”远超市价范围,是促销活动测试数据而非真实销售价格,对后续价格分析(如平均价格计算)会产生极大干扰,可能导致严重偏差。
处理方法:由于该异常值是测试数据,不应参与正常的价格分析,可采用删除法(删除该条测试记录),或改用均值替换法(用同类商品的价格平均值替换)。需要注意的是,如果系统中保留测试数据用于其他分析目的(如促销系统验证),应另设临时数据集标记分析或单独保留。
2. 描述价格波动范围的指标
可用极差(最大值与最小值的差)描述商品B价格在5—10元的总体波动范围。极差是描述数据离散程度最简单的指标,能直观反映价格变化的最大跨度。
3. 缺失值的处理方法
均值填补法:计算其他有效商品的“上架日期”在对应时间位置的平均值或取距离缺失最近的有效日期来填补。但“上架日期”是日期型数据,对此可考虑提取异常字段并执行单一填充,或强制标记为统一日期占位符辅以后续核查。
前向填补法:选用该商品缺失日期之前(最邻近)的有效上架日期填充,适合商品上架日期大多连续的情况。
后向填补法:用缺失日期之后的首次有效上架日期填充。
直接删除法:如果缺失行数较少且无其他方式获得准确日期,也可删除该记录。
手动核实法:若缺失值数量不多时,优先联系业务部门或采购人员查阅原始采购台账补录上架时间,保障数据的真实准确。
4. 商品D与E相似名称导致的问题
数据冗余:同一品牌并高度相似的商品被视为两个条目,造成数据重复或冗余存储,可能增加清理和分析成本。
分类混乱:在特征探索中按品牌或品类统计时,可能将两者计数为不同商品类别,影响补货计划和市场分析。
影响关联分析精度:商品D与E高度相似但录入有差异,关联分析时可能将二者视为多样商品,导致产生不合理的商品组合关联规则。
聚类分析误判:特征探索后进行聚类时,由于名称录入差异,可能导致两个实际应合并的SKU被划分为不同的数据类簇,优化货架和捆绑销售策略时将误判同质商品属性,影响后续决策类簇归属。
建议数据清洗阶段引入文本相似度比较或人工进行实体融合,将同款商品合并为单个分析实体,消除数据一致性问题。
情景三:运动手环数据预处理与分析
1. 最值及极差计算
最小值:2300步
最大值:7800步
极差:7800 2300 = 5500步
2. 明显偏离的数据
7800是明显偏离其他数据的值。其余9个数据集中在2300—2700步范围(组内均为工作日步行数据),而7800明显高于正常数值,二者波动幅度超出日常运动的典型范围。判断该点可能存在设备异常、数据采集错误或被测试用户当天未佩戴异常活动(例如记录了其他设备的步数),属于异常值。具体是否剔除异常值还需核实原始测量条件后综合决定。
3. 处理异常数据的步骤
发现明显偏离数据后,不建议直接删除,一般应依次采取以下措施:
① 溯源核实:通过数据产生源头(如手环设备记录)查找该异常数据的原始记录,判断是否为设备故障或测试环境错误;
② 判断类型:确定异常数据属于“录入错误”、“设备故障”还是“真实稀有情况下的偏高运动量(如马拉松)”,不同场景对应不同的处理策略;
③ 合理处理:若为设备异常或数据错误,可用删除法或均值替换法处理;若为真实特殊情况,应保留并在相关分析报告中说明分析边界与处理方式。
4. 对“超出两倍平均值即为异常值”的评价
该观点不准确,理由如下:
阈值不统一:不同分布数据判断异常值的阈值标准并不唯一,只有假设数据满足正态分布且分析需要时才可参考2—3倍标准差的边界(不是两倍平均值);如数据分布偏态(如步数分布形如右偏分布)时用两倍平均值会误判正常高值数据为异常值。
平均值易受极端值影响:当数据中已存在极端值(如7800)时,平均值会被拉高,用“两倍平均值”作为正常值上限会增大临界值,可能掩盖真正的离群点信号;极端值应使用标准化残差等其他指标(如基于中位数绝对偏差MAD)进行识别。
应采用更稳健的指标:在实践中,判断异常值更常用箱线图法,基于四分位数间距(IQR)识别异常范围:Q1 1.5×IQR 和 Q3 + 1.5×IQR 之外的视为异常值;或使用基于均值和标准差的方法(如 |数据 平均值| > 3×标准差)来识别异常值,同时前提是数据分布大致符合正态。

展开更多......

收起↑

资源预览