5.3.3《聚类分析》粤教版(2019)-数据与计算必修1-课后练习(含答案)

资源下载
  1. 二一教育资源

5.3.3《聚类分析》粤教版(2019)-数据与计算必修1-课后练习(含答案)

资源简介

《 聚类分析》练习题
一、单选题(共15题)
1. 下列关于聚类分析的描述,正确的是( )。
A. 聚类分析需要事先给出明确的分类标准
B. 聚类分析是从样本数据出发,自动进行分类的探索性分析
C. 聚类分析只适用于已经标注好类别的数据
D. 聚类分析和数据分类的概念完全相同
2. 聚类分析中常说的“物以类聚,人以群分”体现的是( )。
A. 数据按照预设的规则进行分类
B. 数据按照时间和顺序进行排列
C. 相似的数据点被划分到同一个簇中
D. 数据按照数值大小进行排序
3. 在粤教版教材5.3.3节中介绍的经典聚类分析算法是( )。
A. Apriori算法
B. 贝叶斯算法
C. K平均算法(KMeans)
D. 线性回归算法
4. K平均算法中,字母“K”代表的是( )。
A. 数据点的总数
B. 初始选择作为中心点的点的数量
C. 算法的迭代次数
D. 数据的维度数量
5. 关于K平均算法的基本步骤,下列说法错误的是( )。
A. 首先需要从数据点集合中随机选择K个点作为初始的聚集中心
B. 依次判断其余数据点与哪个中心点的距离最近,就归入对应的聚类
C. 每个中心点的位置在算法运行过程中始终保持不变
D. 算法会不断更新中心点,直到达到设定的迭代次数或中心点不再频繁波动
6. 在聚类分析中,判断两个数据点是否属于同一类的主要依据是( )。
A. 两个数据点的数值是否相等
B. 两个数据点之间的空间距离
C. 两个数据点的采集时间是否相同
D. 两个数据点的类型是否相同
7. 以下关于聚类分析的特点,说法错误的是( )。
A. 聚类分析是一种探索性的分析
B. 聚类分析不需要事先给出分类标准
C. 聚类分析的结果与数据分类的结果完全相同
D. 聚类分析能够从样本数据出发自动分类
8. 某电商平台希望对用户进行细分,但事先并不知道应该分成几类比较合适,此时最适合采用的数据分析方法是( )。
A. 特征探索
B. 关联分析
C. 聚类分析
D. 数据分类
9. 在K平均算法的迭代过程中,重新计算新的聚簇集合的( )作为新的中心点。
A. 最大值
B. 最小值
C. 中位数
D. 平均值
10. 程序55中,聚类分析调用了Python的sklearn机器学习模块中的哪个类?
A. sklearn.cluster.Apriori
B. sklearn.cluster.KMeans
C. sklearn.classify.Bayes
D. sklearn.analysis.PCA
11. 某商家收集了顾客的年龄和消费金额数据,想将顾客自动分成“高消费”“中等消费”“低消费”三类客户群。使用K平均算法时,应将K的值设置为( )。
A. 1
B. 2
C. 3
D. 4
12. 聚类分析与数据分类最主要的区别是( )。
A. 聚类分析适用于文本数据,数据分类适用于数字数据
B. 聚类分析算法简单,数据分类算法复杂
C. 聚类分析不需要事先标注类别的训练样本,数据分类需要先构建分类器
D. 聚类分析的结果更加准确,数据分类的结果误差较大
13. 在K平均算法中,以下哪个条件通常被用作迭代终止条件?
A. 所有的数据点都移动到同一个中心点
B. 中心点的位置变化小于指定的阈值
C. 所有的数据点都被处理过一次
D. 初始中心点被全部替换
14. 教材company.csv文件中包含三个数据字段,聚类分析时通常会( )。
A. 不对数据做任何处理,直接对三个维度进行聚类
B. 分别选取两个字段进行两两聚类分析
C. 删除数据量最小的字段
D. 只选择其中一个字段进行聚类
15. 关于K平均算法的初始中心点选择,说法正确的是( )。
A. 初始中心点是提前固定好的已知数据点
B. 初始中心点是从数据点集合中随机选择的
C. 初始中心点的数量必须等于样本总数
D. 初始中心点必须选在数据点稀疏的位置
二、填空题(共10题)
1. 聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出分类的________,聚类分析能够从样本数据出发,自动进行分类。
2. K平均算法的基本思想是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算________,选择自己最近的点作为自己的中心点,以达到“________”的效果。
3. 在K平均算法中,每个中心点代表的是每个聚集中心的________。
4. 在整理数据时,发现和处理缺失值、异常数据,观察分析数据的分布特征等操作属于数据分析中的________分析。
5. 分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式,这属于数据分析中的________分析。
6. 在K平均算法迭代过程中,重新计算新的聚簇集合的平均值并将此平均值作为新的________。
7. K平均算法是一种________的聚类分析方法,其英文名称为“KMeans”。
8. 聚类分析的算法有很多,其中K平均算法是一种经典的________向下的聚类分析方法。
9. 程序55中,聚类分析相关代码首先使用“from sklearn.cluster import KMeans”导入了________模块中的KMeans类。
10. 聚类分析有一个显著的特点就是“________,________”,即相似的数据点往往会自动聚集在一起。
三、情景作答题(共3题)
1. 某视频平台收集了大量用户的观影数据,包括用户年龄、观影时长、观看影片类型等信息。平台希望将用户进行自动分组,从而为不同用户群体推荐更精准的内容。请回答以下问题:
(1)针对该平台的需求,应该采用数据分析中的哪种分析方法?请简述选择该方法的理由。
(2)如果选择使用K平均算法对用户进行分类,平台管理者应该如何确定K的取值?结合情景给出你的建议。
(3)若聚类分析完成后,发现某用户的观影行为与“高活跃度、偏好喜剧”的类别最为匹配,平台可以据此采取什么措施来提升用户满意度?
2. 某城市计划优化公交线路布局,采集了该城市各居民区的位置坐标数据(经度、纬度)。交通部门希望通过数据分析,将地理位置相近的居民区归为同一片区,以便统一规划公交站点。请回答以下问题:
(1)这一数据分析需求应该采用哪种分析方法?请说明理由。
(2)如果采用K平均算法进行分析,简述该算法的基本步骤。
(3)聚类分析完成后,交通部门可以将同一聚类中的居民区考虑为同一片区。这种片区划分方式相较于人为划分片区有什么优势?
3. 某大学招生办收集了新生的高考成绩数据,包含语文、数学、英语、综合四科成绩。学校希望对新生进行科学分班,让各班级学生的整体学业水平更加均衡,同时同一班级内的学生在某些学科上具有一定的相似性。请回答以下问题:
(1)学校可以采用什么数据分析方法来帮助实现这一分班目标?请说明该方法的基本原理。
(2)如果采用K平均算法进行分班,算法的核心依据是计算什么量?为什么可以依赖这个量来判断两个学生是否应该分在同一班级?
(3)在实际操作中,聚类分析的结果可能受到哪些因素的影响?请至少列出两点。
参考答案与解析
一、单选题参考答案与解析
1.【答案】B
【解析】 根据粤教版教材5.3.3节的定义,“聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。”选项A和C与此相反,选项D错误,聚类分析与数据分类是不同的概念。
2.【答案】C
【解析】 教材中明确指出,K平均算法的基本思想是达到“物以类聚,人以群分”的效果。这道成语生动表达了聚类分析的核心思想:相似的数据点会被划分到同一个簇(类)中,而相异的数据点会被划分到不同的簇中。
3.【答案】C
【解析】 教材5.3.3节原文:“聚类分析的算法有很多,其中K平均(KMeans)算法是一种经典的自下而上的聚类分析方法。”Apriori算法属于关联分析,贝叶斯算法属于数据分类,线性回归属于回归分析,均不属于聚类分析。
4.【答案】B
【解析】 K平均算法名称中的“K”代表用户希望将数据分成K个簇,其第一步就是从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。
5.【答案】C
【解析】 K平均算法的基本流程包括:随机选择K个初始中心点;计算其余数据点与中心点的距离,分配到最近的聚类中;重新计算每个聚类的平均值,即新的中心点;不断迭代更新中心点。选项C说中心点位置保持不变是错误的,中心点在整个迭代过程中会不断更新。
6.【答案】B
【解析】 在K平均算法的基本流程中,依次判断每个数据点与K个中心点的距离,距离最近的表明它属于这项聚类。因此,数据点之间的距离是判断是否属于同一类的核心依据。
7.【答案】C
【解析】 聚类分析与数据分类是两种不同的数据分析方法。从教材上下文可知,聚类分析是一种无需事先给出分类标准的探索性分析方法,而数据分类则需先基于样本数据训练构建分类器,再对未知数据进行分类。两者结果当然不会完全相同,故C项错误。
8.【答案】C
【解析】 题干中强调“事先并不知道应该分成几类比较合适”,这正是聚类分析的特点:在分类过程中人们不必事先给出分类的标准,聚类分析能够从样本数据出发自动进行分类。特征探索主要用于数据预处理,关联分析用于发现数据之间的相关性,数据分类需要事先有训练样本,均不符合此场景。
9.【答案】D
【解析】 教材中写明:聚类分析的基本算法中,“重新计算新的聚簇集合的平均值即中心点”。因此,新的中心点是该聚簇所有数据点的平均值。
10.【答案】B
【解析】 教材P124的程序55示例代码为:“from sklearn.cluster import KMeans; kms=KMeans(n_clusters=3); y=kms.fit_predict(x)”。可见使用的是sklearn.cluster模块中的KMeans类。
11.【答案】C
【解析】 题目中明确表示要将顾客分成“高消费”“中等消费”“低消费”三类客户群。在K平均算法中,K表示预期的聚类数量,即希望将数据分成K个簇。既然目标是分成三类,K应设为3。
12.【答案】C
【解析】 聚类分析与数据分类的主要区别在于:聚类分析是一种探索性方法,不需要事先给出分类标准,直接从样本数据出发自动分类;而数据分类通常需要基于已标注类别的样本数据先训练构建分类器(模型),再对待分类数据进行预测分类。对于这个问题,要注意区分:聚类是“无监督学习”的核心方法,数据分类则是“有监督学习”的典型应用。
13.【答案】B
【解析】 教材中给出K平均算法的迭代结束条件为:“直到达到预先设定的迭代次数或中心点不再频繁波动。”实践中常用“中心点的位置变化小于指定的阈值”作为判断标准。选项A、C、D都不符合算法实际。
14.【答案】B
【解析】 教材说明:“由于一起对3个数据的关系进行分析很难操作,所以分别选取2个类别进行比较。程序运行结果如下图:”。说明对三个维度的数据同时进行可视化分析较为困难,通常两两组合进行分析。
15.【答案】B
【解析】 教材中K平均算法的基本算法写得很明确:“从数据点集合中随机选择K个点作为初始的聚集中心”。A错在“固定好”而非随机,C错在数量不是等于总数而是远小于总数,D错在没有必须是稀疏位置的要求。
二、填空题参考答案与解析
1.【答案】标准
【解析】 教材原句:“在分类的过程中,人们不必事先给出一个分类的标准”。填空时注意与教材表述一致,“标准”之后不需要重复“分类标准”中的“分类”二字,因为前后文已经明确了语境。
2.【答案】距离、物以类聚人以群分
【解析】 教材原文:“初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,以达到‘物以类聚,人以群分’的效果。”注意“物以类聚”与“人以群分”之间可以有逗号,也可以连写,但两个字面要配正确。
3.【答案】平均值
【解析】 教材原文:“每个中心点代表着每个聚集中心的平均值。”平均值即聚簇内所有数据点的算术平均值。
4.【答案】特征探索
【解析】 教材P122123指出:“数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。”掌握这一点可以和其他数据分析方法形成区分:特征探索侧重于数据“清洗”和“基本描述”,聚类分析侧重于“自动归类”。
5.【答案】关联分析
【解析】 教材原文:“关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。”这个定义在选择题、填空题中经常出现,容易与聚类分析的定义相混淆,需要重点记忆。
6.【答案】中心点
【解析】 教材原文:“重新计算新的聚簇集合的平均值即中心点。”要注意的是,“重新计算”意味着中心点在每次迭代后都可能发生变化,这是算法叫作“K平均”(即K个均值)的原因。
7.【答案】K平均
【解析】 教材明确写明:“K平均(KMeans)算法是一种经典的自下而上的聚类分析方法。”“自下而上”的特点指的是算法将每一个样本点视为一个独立的子集,然后逐渐合并或者迭代更新中心点来形成更好的聚类——这也是KMeans与从上到下的层次聚类方法相比的一个重要特征。
8.【答案】自下而上
【解析】 粤教版教材第123页指出:K平均(KMeans)算法是一种经典的自下而上的聚类分析方法。“自下而上”指算法从单个数据点出发,逐步合并或迭代更新形成最终的聚类。该特性与“层次凝聚聚类”有所不同,但对于KMeans来说,教材专门强调了这一点,是容易被忽略但经常被考查的知识点。
9.【答案】sklearn.cluster
【解析】 教材代码:“from sklearn.cluster import KMeans”。sklearn.cluster是Python中sklearn库里的聚类算法集合模块,包含了KMeans、DBSCAN等多种聚类方法。
10.【答案】物以类聚、人以群分(或“物以类聚,人以群分”)
【解析】 K平均算法的最终目标是通过计算数据之间的距离,使得相似的数据自动聚集到一起,从而达到“物以类聚,人以群分”的效果。这是一句经典成语,用来概括聚类分析的最终效果。
三、情景作答题参考答案与解析
1.【参考答案】
(1)应该采用聚类分析。因为聚类分析是一种探索性的分析,在分类过程中不必事先给出分类的标准,能够从样本数据出发,自动进行分类。平台事先并不知道用户应该分成几类、每类有什么特征,因此聚类分析最适合这一需求。
(2)确定K的取值没有绝对的标准,可以从以下几个方面尝试:①尝试多个K值,比较不同K值下聚类结果的质量;②观察“肘部法则”,即当聚类数增加到一定程度后,继续增加K值时聚类效果的提升变得不明显,此时的K值较为合适;③结合业务需求,比如平台可能希望大致分成3~5个大类以便于运营管理,那么可以测试对应K值的分类效果。
(3)平台可以基于该用户的观影特征,向其推送“高活跃度、偏好喜剧”类别用户最常观看的喜剧类影片或剧集;还可以尝试推送同类别用户评分较高的类似内容,提高推荐的精准度。同时,可以进一步为该类别用户定制专属的推荐页面或活动专题。
【解析】 本题综合考查了数据分析方法的识别、聚类分析算法理解和实际应用。第(1)问的关键是抓住聚类分析“不预先给定分类标准、自动从样本数据中学习规律”的本质;第(2)问有一定深度,K值的确定是KMeans聚类中的一个实际问题,教材虽然没有详述肘部法则,但作为拓展内容,让学生理解“K值选择与业务目标和聚类效果的关系”是合理的考查方向;第(3)问则考查聚类结果的解读与应用,要求学生能够将技术结果转化为具体的业务决策。
2.【参考答案】
(1)应该采用聚类分析。理由是聚类分析能够从样本数据出发、自动进行分类。交通部门事先没有一个明确的片区划分标准——不同城区或不同路段人口密度不一样,人为划片容易产生合理性争议。聚类分析可以依据各居民区的地理位置坐标,自动将距离相近的居民区归为一类,符合“物以类聚,人以群分”的基本原则。
(2)K平均算法的基本步骤如下:
第一步:从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表每个聚集中心的平均值;
第二步:对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这个聚类;
第三步:重新计算每个新聚簇集合的平均值,作为新的中心点;
第四步:重复第二步和第三步,不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。
(3)相较于人为划分片区,这种划分方式的优势在于:①客观性:聚类分析基于地理位置坐标的真实数据自动划分,避免了主观因素影响;②合理性:根据样本点之间的空间距离进行分类,符合“地理位置近的分在同一片区”的自然规律;③数据驱动:可以整体考虑全部居民区的空间分布特征,得到全局最优的片区划分方案。
【解析】 本题非常贴近教材中聚类分析的应用情境——教材P113118部分提到了基于经纬度的城市聚类案例。第(1)问紧扣聚类分析“自动分类、不预先设定标准”的核心概念,学生需要准确回忆教材定义并结合情景做出判断;第(2)问要求学生复述K平均算法的完整步骤,需要准确记忆三个主要步骤及其逻辑顺序;第(3)问属于开放性问题,学生只要有合理理由都可以得分,主要考查学生能否理解数据分析辅助决策的优势所在。
3.【参考答案】
(1)可以采用聚类分析的K平均算法。基本原理是:K平均算法将数据点视为空间中的点,通过计算各点与中心点的距离进行聚类,将相似的数据点自动归为一类,从而实现“物以类聚,人以群分”的效果。在高考成绩数据中,各科成绩相似的学生,其数据点在多维空间中相互靠近,自然更容易被划分到同一班级。
(2)算法的核心依据是计算多维空间中各数据点与聚类中心点之间的空间距离。因为学生的各科成绩可以看作高维空间中的坐标(如语数英综合四科成绩对应四个维度),两个学生在四科成绩上都相似,则他们在这一高维空间中的几何距离就会比较短;算法根据距离大小来判断归属,可以达到“成绩水平相近的学生被分在同一或相邻班级”的效果。
(3)聚类分析的结果可能受到以下因素的影响:
K值的选取:K值不同,聚类结果也会有较大差异。选择过小的K值会导致类别过于粗糙,过大的K值会导致类别过于分散;
初始中心点的选择:初始中心点是随机选择的,不同的初始中心点可能导致不同的聚类结果;
数据中的异常值:个别极偏高分或极偏低分的学生可能会对所在簇的平均中心产生干扰,降低分班的均衡度;
数据的预处理方式:不同学科满分不同,例如语文、数学、英语满分相近但综合科总分可能不同。如果不进行归一化,综合科会在距离计算中占有过大的权重。
【解析】 本题将聚类分析置于真实的教育场景中,比前两道题更具综合性。第(1)问要求识别正确的数据分析方法并结合基本原理加以解释;第(2)问考查K平均算法的核心机制——“计算距离”,学生需要理解成绩数据如何被转化为空间坐标以及“距离近”与“学业相似”之间的映射逻辑;第(3)问较有深度,要求学生能够从多个角度分析聚类分析结果的可靠性,K值选取、初始中心点、异常值等均是在教材知识基础上适当拓展的内容,但都紧扣教材相关论述。本题对学生的综合分析能力提出了较高要求,适合作为本节学习的提升题目。

展开更多......

收起↑

资源预览