5.3.1《特征探索》粤教版（2019）数据与计算必修1-课后练习（含答案）

资源简介

特征探索练习题
（粤教版·必修一《数据与计算》）
一、单选题（共15题，每题5分，共75分）
1. 某数据分析团队进行特征探索时，发现数据集中存在大量空缺值，他们决定用该列的平均值来填补这些空缺。这属于特征探索中的（）
A. 异常值处理
B. 缺失值处理
C. 重复值处理
D. 数据可视化
2. 以下关于特征探索的主要任务，描述不正确的是（）
A. 发现并处理缺失值
B. 发现并处理异常数据
C. 直接对数据进行预测建模
D. 绘制直方图，观察数据分布特征
3. 某数据集中的最小值为10，最大值为45，则该数据集的极差为（）
A. 10
B. 35
C. 45
D. 55
4. 某中学对高一学生进行了体育测试，在整理成绩数据时，发现某个学生的成绩为“999分”（满分100分），这属于特征探索中需要处理的（）
A. 缺失值
B. 异常数据
C. 重复数据
D. 离散数据
5. 以下统计量中，属于描述性统计量的是（）
A. 回归系数
B. 最小值
C. 关联度
D. 置信度
6. 在特征探索中，绘制散点图的主要作用是（）
A. 观察数据分布形态
B. 发现和处理异常值
C. 计算最大值和最小值
D. 填补缺失值
7. 以下哪种图表最适合用于观察一组数据的分布特征？（）
A. 折线图
B. 散点图
C. 直方图
D. 饼图
8. 数据特征探索的主要任务中，对数据进行预处理的目的是（）
A. 增加数据量
B. 发现和处理缺失值、异常数据，提高数据质量
C. 删除所有数据
D. 改变数据格式
9. 某班级进行数学测验，学生成绩分别为：85、92、78、100、56、88、92、76、85、94、92、97。该组数据的众数是（）
A. 85
B. 92
C. 88
D. 100
10. 关于极差的说法，正确的是（）
A. 一组数据中最小值与平均值的差
B. 一组数据中最大值与最小值的差
C. 一组数据中最大值与中位数的差
D. 一组数据中平均值与中位数的差
11. 以下哪个选项最能反映一组数据的波动程度？（）
A. 平均数
B. 中位数
C. 极差
D. 众数
12. 用均值填补缺失值的方法属于（）
A. 异常值处理
B. 缺失值替换法
C. 重复值删除法
D. 数据离散化
13. 关于箱线图（盒须图），下列说法正确的是（）
A. 只能展示数据的集中趋势
B. 可以直观地展示数据的分布范围和异常值
C. 无法识别异常值
D. 箱线图与直方图没有区别
14. 关于数据预处理的目的，下列说法不正确的是（）
A. 提高数据质量
B. 去除错误数据
C. 确保数据都为正数
D. 填补缺失值便于后续分析
15. 在某次测量中，测得一组数据: 23、25、24、26、28、150。其中“150”最可能属于（）
A. 有效数据
B. 异常值
C. 缺失值
D. 重复数据
二、填空题（共10题，每题2分，共20分）
1. 数据特征探索的主要任务是对数据进行预处理，发现和处理__________、__________数据。
2. 为了直观地观察分析数据的分布特征，常绘制__________图。
3. 描述性统计量包括最大值、__________、极差等。
4. 极差的计算公式是：极差 = 最大值 __________。
5. 缺失值是指数据集中__________或__________的值。
6. __________是指一组数据中偏离预期范围的值，通常不是错误值，但会对分析结果造成偏差。
7. 常见的数据预处理任务包括__________处理、缺失值处理、异常值处理等。
8. 箱线图（盒须图）可以直观地展示数据的__________、分布范围和异常值。
9. 样本数据___________、___________、___________等是反映一组数据集中趋势的指标。
10. 特征探索是数据分析的基础步骤，它的结果直接影响后续__________分析、聚类分析等环节的质量。
三、情景作答题（共3题）
情景一：校园视力健康数据预处理
某校为监测学生视力健康，采集了全校1500名学生的视力数据，存储在一个CSV文件中。数据中包含字段：班级、姓名、性别、左眼视力、右眼视力。信息中心教师在预处理时发现如下问题：
部分学生的“左眼视力”单元格为空；
有个别记录显示“左眼视力”为“5”（正常视力范围为4.0—5.2之间）；
还有两条记录的班级、姓名完全相同，疑似重复录入；
数据导入时发现“左眼视力”列中有个别特殊符号“ ”。
请回答以下问题：
1. 上述数据存在哪些类型的数据质量问题？（每答出一种问题类型加2分，满分6分）
2. 针对“左眼视力”为空的情况，可以采取哪些方法进行处理？（4分）
3. 如果绘制“右眼视力”的直方图，你认为有助于发现什么问题？请你描述在该情景中如何利用散点图帮助分析处理异常数据。（4分）
4. 学生小张认为直接把有问题的数据全部删除即可，这样做是否合理？为什么？（4分）
情景二：超市商品价格数据的特征探索
百乐超市IT部门对各商品价格和月销量数据进行特征探索，获得初步观察如下：
商品A价格：通常22.5元左右，但在6月1日出现一次“9999”元（促销活动测试数据）。
商品B价格：日常在510元之间波动。
商品C：连续一周的“上架日期”字段输入为空。
商品D和商品E：品牌名相同，但商品名称高度相似（“清爽洗面奶”和“清爽洗颜奶”）。
请回答以下问题：
1. “9999”元的商品A价格属于哪种类型的数据问题？在特征探索中应该如何处理？（4分）
2. 商品B的价格在510元之间波动，可以使用什么指标描述价格变化范围？（4分）
3. 商品C“上架日期”字段为空，请给出两种缺失值处理方法并简单说明。（4分）
4. 商品D与E品牌名与商品名高度相似但不完全相同，它们可能导致哪些数据分析问题？（4分）
情景三：运动手环数据预处理与分析
某运动App收集了用户的日步数数据（单位：步），现从中抽样得到十位用户某一天的步数：2300、2600、2500、2450、2700、2650、2400、7800、2550、2500。
请回答以下问题：
1. 计算这组数据的最小值、最大值及极差。（3分）
2. 在这组数据中，有一个数明显偏离其他数据，请找出并说明判断理由。（3分）
3. 在特征探索中，对于这种偏离较大的数据进行处理之前，应该先采取什么措施？（4分）
4. 某同学认为“超出所有数据平均值两倍的都是异常值”，你认为这句话正确吗？请说明理由。（4分）
参考答案与解析
一、单选题答案解析
1. B
解析：用平均值填补空缺值属于缺失值处理。粤教版教材指出，特征探索任务包括“发现和处理缺失值”，常用的缺失值处理方法包括直接删除法、替换法或插值法，均值替换是一种常用方法。A异常值处理针对偏离正常范围的数据；C重复值处理针对完全重复的记录；D数据可视化是展示数据的手段。
2. C
解析：特征探索的主要任务是对数据进行预处理，包括发现和处理缺失值、异常数据，绘制直方图，观察分析数据的分布特征，求最大值、最小值、极差等描述性统计量。直接进行预测建模不是特征探索阶段的任务，特征探索为后续的数据分析（如关联分析、聚类分析、建立模型等）做准备。因此C项不正确。
3. B
解析：极差是一组数据中最大值与最小值的差，计算公式为：极差 = 最大值最小值。本题中最大值45减去最小值10，结果为35。
4. B
解析：“999分”明显超出正常范围（0—100分），属于异常数据。教材明确指出，异常数据指那些偏离正常范围的值，虽然不是错误值，但会对实际项目分析造成偏差。正是特征探索中需要发现和处理的对象。
5. B
解析：粤教版教材中明确，特征探索要求“求最大值、最小值、极差等描述性统计量”。最小值属于描述性统计量。A回归系数、C关联度、D置信度均属于推断统计或数据分析中的其他指标，不属于描述性统计量。
6. B
解析：在特征探索的数据预处理过程中，可利用散点图发现异常值。教材配套素材明确指出，“异常值处理，利用画散点图发现异常值部分”。散点图将数据点在平面上绘出，能直观观察到偏离主体分布的点，用于发现和处理异常值。
7. C
解析：粤教版教材中明确指出，特征探索要“绘制直方图，观察分析数据的分布特征”。直方图是展示数据分布特征的常用图表。折线图适合展示变化趋势；散点图适合观察变量间关系；饼图适合展示占比。故直方图最适合观察分布特征。
8. B
解析：数据预处理的目的是发现和处理缺失值、异常数据，提高数据质量，为后续分析奠定基础。A增加数据量、C删除所有数据、D改变数据格式都不是预处理的核心目的。
9. B
解析：众数是一组数据中出现次数最多的数值。成绩中92出现3次（第2、第6、第11位），出现次数最多，因此众数为92。
10. B
解析：极差（又称全距）是描述一组数据离散程度最简单的指标，指一组观测值中最大值与最小值之差。B选项正确。
11. C
解析：极差是描述一组数据离散程度最简单的指标，能反映数据的波动范围。平均值、中位数、众数都是反映集中趋势的指标，不能直接反映波动程度。
12. B
解析：缺失值处理方法包括直接删除法和替换法，均值替换是替换法的一种。教材指出“常用的替换法有均值替换、前向、后向替换和常数替换”。A异常值处理、D数据离散化均与此无关。
13. B
解析：箱线图可以直观地展示数据的分布范围、中位数、四分位数以及异常值，是特征探索中识别异常值的重要工具。教材指出常用“箱线图法（分位差法）或者分布图（标准差法）判断异常值”。箱线图不仅可以识别异常值，还能展示分位数、分布范围、集中趋势等多种信息。
14. C
解析：数据预处理旨在提高数据质量，处理缺失值、异常值、重复值等问题，但不需要“确保数据都为正数”。很多客观数据可能是零或负数（如气温零度、亏损金额等），强制改为正数反而会损失信息的真实性和准确性。因此C项不正确。
15. B
解析：在这组数据中，23、24、25、26、28均在23—28的范围内，而150明显偏离正常范围，属于异常数据。异常值出现频率较低，但会对实际项目分析造成偏差。特征探索的任务就是发现并处理此类问题。
二、填空题答案解析
1. 缺失值；异常
解析：根据粤教版教材，特征探索的主要任务是对数据进行预处理，发现和处理缺失值和异常数据。
2. 直方
解析：教材明确指出“绘制直方图，观察分析数据的分布特征”，直方图是观察数据分布特征的关键工具。
3. 最小值
解析：特征探索要求求最大值、最小值等描述性统计量。最小值与最大值、极差等都是描述性统计量的基本内容。
4. 最小值
解析：极差的计算公式是：极差 = 最大值最小值，这是衡量数据离散程度的基础公式。
5. 空缺；未填写
解析：缺失值指数据集中某些记录缺少数据，表现形式为空值、空白或特殊符号如“ ”等。
6. 异常值
解析：异常数据是指那些偏离正常范围的值，虽然不是错误值，但会对实际项目分析造成偏差。需要特征探索阶段发现并处理。
7. 重复值
解析：特征探索中的数据预处理主要包括重复值处理、缺失值处理和异常值处理。
8. 离散程度
解析：箱线图（盒须图）能够直观地展示数据的分布范围和异常值，是特征探索中发现异常的重要工具。
9. 平均数；中位数；众数
解析：平均数、中位数、众数是反映一组数据集中趋势的三个核心统计指标，属于描述统计分析的基础内容。
10. 关联
解析：特征探索是数据预处理和质量分析的基础，其结果直接影响后续的关联分析、聚类分析等数据分析环节的质量。
三、情景作答题答案解析
情景一：校园视力健康数据预处理
1. 数据质量问题类型
存在的问题类型包括：
缺失值问题：“左眼视力”单元格为空。
异常值问题：“左眼视力”为“5”（低于正常范围下限4.0），属于范围异常值。
重复数据问题：两条记录的班级、姓名完全相同。
格式异常问题：“左眼视力”列中出现特殊符号“ ”。
（每答出一种类型给2分，满分6分）
2. “左眼视力”为空值的处理方法
可采用以下几种方法：
直接删除法：如果缺失记录占比较小，可以直接删除相关记录行。
均值替换法：用其他有效记录的“左眼视力”平均值填补缺失值。
分组均值替换：按班级或性别分组后，用该组内有效记录的平均值填补缺失值。
常数替换：统一用某个合理的常数（如4.8）填补。
插值法：根据前后记录的关系推算缺失值（适用于时间序列数据）。
上述方法选用时需结合数据样本特征与数据量大小进行判断，确保不影响后续视力健康分析结论的有效性与准确性。例如，若缺失值占比较高，直接删除可能损失有效样本量；均值替换要确保数据分布大致对称，否则可能引入偏差。
3. 直方图与散点图的作用
直方图的作用：绘制“右眼视力”的直方图可以观察数据的分布特征，如发现学生的视力是否集中分布在某个区间（如4.8—5.0），是否呈正态分布，以及是否存在与整体分布明显脱离的视力异常数值等。
利用散点图发现异常数据：可绘制横轴为“班级编号”、纵轴为“右眼视力”的散点图。将学生按班级分组，观察各班的视力分布情况，如果某班级整体视力较好但个别点严重偏低，或某学生视力远高于整体水平，则该点在图中会明显偏离，便于定位后核实原因的合理性，并根据核实结果判断是否作为异常值处理。
4. 直接删除有问题的数据是否合理
不合理。是否删除应视具体情况而定：
重复数据可以删除，保留一条有效记录即可。
缺失值如果比例较低可以用删除法，但如果缺失比例较高（如超过5%—10%）且删除后严重影响样本量，则采用替换法或插值法更为合理。
异常值需要区分是数据录入错误还是真实存在的特例：若是录入错误，删除或修正均可；若是真实特例（如某学生视力确实偏低），删除会丢失重要信息，应保留标注并在报告中说明。
格式异常值（如“ ”）应由教师先溯源，核实原始采集表格的实际情况，可能涉及采集设备或填写人员失误。不经调查直接删除可能导致错误认识，必须在充分分析原因后选择修正补录或保留合理化调整。
综上，建议优先采取“分析原因→合理填补或修正→保留有效信息”的策略，避免简单地全部删除。删除记录可能会引入数据质量风险，使总体代表性下降。
情景二：超市商品价格数据的特征探索
1. “9999”元价格的问题与处理
该数据属于异常值。原因：“9999”远超市价范围，是促销活动测试数据而非真实销售价格，对后续价格分析（如平均价格计算）会产生极大干扰，可能导致严重偏差。
处理方法：由于该异常值是测试数据，不应参与正常的价格分析，可采用删除法（删除该条测试记录），或改用均值替换法（用同类商品的价格平均值替换）。需要注意的是，如果系统中保留测试数据用于其他分析目的（如促销系统验证），应另设临时数据集标记分析或单独保留。
2. 描述价格波动范围的指标
可用极差（最大值与最小值的差）描述商品B价格在5—10元的总体波动范围。极差是描述数据离散程度最简单的指标，能直观反映价格变化的最大跨度。
3. 缺失值的处理方法
均值填补法：计算其他有效商品的“上架日期”在对应时间位置的平均值或取距离缺失最近的有效日期来填补。但“上架日期”是日期型数据，对此可考虑提取异常字段并执行单一填充，或强制标记为统一日期占位符辅以后续核查。
前向填补法：选用该商品缺失日期之前（最邻近）的有效上架日期填充，适合商品上架日期大多连续的情况。
后向填补法：用缺失日期之后的首次有效上架日期填充。
直接删除法：如果缺失行数较少且无其他方式获得准确日期，也可删除该记录。
手动核实法：若缺失值数量不多时，优先联系业务部门或采购人员查阅原始采购台账补录上架时间，保障数据的真实准确。
4. 商品D与E相似名称导致的问题
数据冗余：同一品牌并高度相似的商品被视为两个条目，造成数据重复或冗余存储，可能增加清理和分析成本。
分类混乱：在特征探索中按品牌或品类统计时，可能将两者计数为不同商品类别，影响补货计划和市场分析。
影响关联分析精度：商品D与E高度相似但录入有差异，关联分析时可能将二者视为多样商品，导致产生不合理的商品组合关联规则。
聚类分析误判：特征探索后进行聚类时，由于名称录入差异，可能导致两个实际应合并的SKU被划分为不同的数据类簇，优化货架和捆绑销售策略时将误判同质商品属性，影响后续决策类簇归属。
建议数据清洗阶段引入文本相似度比较或人工进行实体融合，将同款商品合并为单个分析实体，消除数据一致性问题。
情景三：运动手环数据预处理与分析
1. 最值及极差计算
最小值：2300步
最大值：7800步
极差：7800 2300 = 5500步
2. 明显偏离的数据
7800是明显偏离其他数据的值。其余9个数据集中在2300—2700步范围（组内均为工作日步行数据），而7800明显高于正常数值，二者波动幅度超出日常运动的典型范围。判断该点可能存在设备异常、数据采集错误或被测试用户当天未佩戴异常活动（例如记录了其他设备的步数），属于异常值。具体是否剔除异常值还需核实原始测量条件后综合决定。
3. 处理异常数据的步骤
发现明显偏离数据后，不建议直接删除，一般应依次采取以下措施：
① 溯源核实：通过数据产生源头（如手环设备记录）查找该异常数据的原始记录，判断是否为设备故障或测试环境错误；
② 判断类型：确定异常数据属于“录入错误”、“设备故障”还是“真实稀有情况下的偏高运动量（如马拉松）”，不同场景对应不同的处理策略；
③ 合理处理：若为设备异常或数据错误，可用删除法或均值替换法处理；若为真实特殊情况，应保留并在相关分析报告中说明分析边界与处理方式。
4. 对“超出两倍平均值即为异常值”的评价
该观点不准确，理由如下：
阈值不统一：不同分布数据判断异常值的阈值标准并不唯一，只有假设数据满足正态分布且分析需要时才可参考2—3倍标准差的边界（不是两倍平均值）；如数据分布偏态（如步数分布形如右偏分布）时用两倍平均值会误判正常高值数据为异常值。
平均值易受极端值影响：当数据中已存在极端值（如7800）时，平均值会被拉高，用“两倍平均值”作为正常值上限会增大临界值，可能掩盖真正的离群点信号；极端值应使用标准化残差等其他指标（如基于中位数绝对偏差MAD）进行识别。
应采用更稳健的指标：在实践中，判断异常值更常用箱线图法，基于四分位数间距（IQR）识别异常范围：Q1 1.5×IQR 和 Q3 + 1.5×IQR 之外的视为异常值；或使用基于均值和标准差的方法（如 |数据平均值| > 3×标准差）来识别异常值，同时前提是数据分布大致符合正态。

展开更多......

收起↑

请用微信扫码

5.3.1《特征探索》粤教版（2019）数据与计算必修1-课后练习（含答案）

5.3.1《特征探索》粤教版（2019）数据与计算必修1-课后练习（含答案）