5.3.2《关联分析》粤教版(2019)数据与计算必修1-课后练习(含答案)

资源下载
  1. 二一教育资源

5.3.2《关联分析》粤教版(2019)数据与计算必修1-课后练习(含答案)

资源简介

关联分析练习题
(粤教版·必修一《数据与计算》)
一、单选题(共15题,每题5分,共75分)
1. 关联分析的主要目的是(  )
A. 对数据进行分类预测
B. 发现数据集中不同项之间的关联关系或相关结构
C. 将相似的数据对象聚集成簇
D. 对数据进行标准化处理
2. 以下哪个例子最常用于解释关联分析的基本思想?(  )
A. 根据历史天气预测明天是否下雨
B. 超市购物篮分析中,发现购买尿布的顾客同时购买啤酒的可能性较大
C. 根据学生成绩将学生分为优秀、良好、及格等类别
D. 绘制散点图观察身高与体重的关系
3. 在关联规则 `{牛奶} → {面包}` 中,`{牛奶}` 称为(  )
A. 后件
B. 前件
C. 结论
D. 目标项
4. 关于支持度(Support)的概念,下列说法正确的是(  )
A. 表示规则前件与后件同时出现的概率
B. 表示在前件出现的条件下后件出现的概率
C. 表示规则的可靠程度
D. 表示规则的提升程度
5. 假设有1000条交易记录,其中包含“牛奶”的交易有300条,同时包含“牛奶”和“面包”的交易有150条,则关联规则 `{牛奶} → {面包}` 的支持度为(  )
A. 50%
B. 15%
C. 30%
D. 20%
6. 接上题,该规则的置信度为(  )
A. 50%
B. 15%
C. 30%
D. 20%
7. 提升度(Lift)是用来衡量(  )
A. 规则前件与后件的独立程度
B. 规则的可信程度
C. 规则的普遍程度
D. 规则前件出现的频率
8. 以下关于关联规则评价指标的说法,正确的是(  )
A. 支持度越高,规则越不重要
B. 置信度可以完全衡量规则的价值
C. 提升度大于1表示前件与后件存在正相关关系
D. 提升度小于1表示前件与后件存在强关联
9. 在关联分析中,设置最小支持度和最小置信度的目的是(  )
A. 减少计算量,筛选出有意义的规则
B. 提高规则的准确性
C. 将所有可能的规则都保留
D. 降低数据量
10. 某超市进行购物篮分析,发现规则 `{鸡蛋, 牛奶} → {面包}` 的置信度为 85%。这意味着(  )
A. 购买了鸡蛋和牛奶的顾客中,有85%也购买了面包
B. 购买了面包的顾客中,有85%也购买了鸡蛋和牛奶
C. 所有交易中,有85%同时包含鸡蛋、牛奶和面包
D. 该规则有85%的可能性是正确的
11. Apriori算法是一种经典的关联规则挖掘算法,其核心思想是(  )
A. 通过迭代生成候选项集并剪枝,利用频繁项集产生关联规则
B. 通过随机抽样发现关联规则
C. 通过分类树生成规则
D. 通过聚类后提取规则
12. 在关联规则挖掘中,“频繁项集”是指(  )
A. 在数据集中出现次数最多的单个项
B. 支持度大于或等于最小支持度阈值的项集
C. 置信度大于或等于最小置信度阈值的项集
D. 包含项数最多的项集
13. 下列哪个生活场景最不适合应用关联分析?(  )
A. 分析学生选课数据,发现同时选修物理和化学的学生也常选修生物
B. 分析网站用户点击流,发现浏览了某商品的用户也常浏览另一商品
C. 预测某股票明天的收盘价
D. 分析医院处方数据,发现同时开药A和药B的医生也常开药C
14. 若两个项集的支持度都大于最小支持度阈值,则它们的并集(  )
A. 一定是频繁项集
B. 一定不是频繁项集
C. 可能是也可能不是频繁项集
D. 支持度一定等于两者支持度之和
15. 关于关联分析中的“提升度”,当提升度等于1时,表示(  )
A. 前件与后件相互独立
B. 前件与后件完全相关
C. 前件与后件负相关
D. 规则不可用
二、填空题(共10题,每题2分,共20分)
1. 关联分析中,支持度是指__________同时出现的概率。
2. 关联规则 `X → Y` 的置信度计算公式为:置信度 = support(______) / support(X)。
3. 提升度 = 置信度 / (support(______) ) 。
4. 著名的“啤酒与尿布”的故事是__________分析的典型案例。
5. 在关联规则挖掘中,通常需要设置最小__________和最小__________来筛选有意义的规则。
6. Apriori算法使用__________性质来减少候选项集的产生,即一个项集如果是非频繁的,则它的所有超集也是非频繁的。
7. 关联分析的结果通常以__________的形式表示,如 `{A} → {B}`。
8. 购物篮分析中,一项商品在所有交易中出现的频率称为该项的__________。
9. 若规则 `{薯片} → {可乐}` 的提升度为1.5,说明购买薯片对购买可乐有__________作用。
10. 在关联分析中,__________表示规则前件和后件同时出现的次数占总交易次数的比例。
三、情景作答题(共3题)
情景一:校园超市购物篮分析
某校园超市记录了5位学生的一次购物清单(每一项为商品编号):
| 学生 | 购买商品 |
|||
| 1 | 面包, 牛奶, 鸡蛋 |
| 2 | 面包, 牛奶 |
| 3 | 面包, 鸡蛋 |
| 4 | 牛奶, 鸡蛋, 可乐 |
| 5 | 面包, 牛奶, 鸡蛋, 可乐 |
请完成以下任务:
1. 计算项集 `{面包, 牛奶}` 的支持度。(4分)
2. 计算关联规则 `{牛奶} → {鸡蛋}` 的置信度。(4分)
3. 计算规则 `{面包, 牛奶} → {鸡蛋}` 的置信度。(4分)
4. 若设定最小支持度为40%,最小置信度为60%,请判断规则 `{鸡蛋} → {牛奶}` 是否被保留?写出计算过程。(6分)
情景二:阅读推广活动中的关联分析
某中学图书馆为了促进阅读,统计了100名学生借阅图书的数据,发现借阅科幻类图书的有40人,借阅历史类图书的有30人,同时借阅科幻和历史类的有20人。请回答:
1. 计算 `{科幻} → {历史}` 的支持度和置信度。(4分)
2. 计算该规则的提升度,并判断科幻类与历史类图书的借阅是否存在正向关联。(6分)
3. 图书馆想要向借阅科幻类的学生推荐历史类图书,根据以上数据,你认为这个推荐是否有效?请说明理由。(4分)
4. 如果图书馆将最小支持度设为15%,最小置信度设为70%,该规则是否满足要求?(4分)
情景三:电商平台的关联推荐策略(创新题)
某电商平台希望利用关联分析优化商品推荐系统。运营团队对一周的交易数据进行挖掘,发现了以下两条规则(已通过最小支持度与置信度筛选):
规则1:`{手机壳} → {钢化膜}`,提升度=2.1
规则2:`{笔记本电脑} → {鼠标}`,提升度=1.1
此外,他们还注意到规则 `{奶粉} → {尿布}` 的支持度很低,但提升度高达3.5。
请回答:
1. 提升度越高说明什么?比较规则1和规则2,哪一条规则的推荐效果更好?为什么?(4分)
2. 规则 `{奶粉} → {尿布}` 支持度低但提升度高,这种情况是否仍有商业价值?请说明理由。(6分)
3. 如果平台希望向购买手机的顾客推荐商品,但没有发现 `{手机} → {其他商品}` 的高置信度规则,可以采取什么改进策略?(6分)
4. 结合所学知识,简述关联分析可能带来的“过度推荐”问题,并提出一种解决思路。(4分)
参考答案与解析
一、单选题答案解析
1. B
解析:关联分析旨在发现数据集中不同项之间的关联关系,例如购物篮分析中商品之间的相关性。A是分类,C是聚类,D是预处理。
2. B
解析:啤酒与尿布是关联分析最经典的案例,体现了关联规则挖掘的价值。
3. B
解析:关联规则 `A → B` 中,A称为前件(antecedent),B称为后件(consequent)。教材使用“前件”“后件”术语。
4. A
解析:支持度表示同时包含规则前件和后件的交易占总交易的比例,即P(A∩B)。B是置信度,C是置信度描述,D是提升度。
5. B
解析:支持度 = (包含牛奶和面包的交易数) / 总交易数 = 150/1000 = 0.15 = 15%。
6. A
解析:置信度 = support(牛奶∩面包) / support(牛奶) = (150/1000) / (300/1000) = 150/300 = 0.5 = 50%。
7. A
解析:提升度衡量前件与后件的独立程度,公式为 Lift = 置信度 / (support(后件)),反映规则是否比随机情况更有效。
8. C
解析:A错误,支持度高表示规则普遍,不一定不重要;B错误,置信度高不代表规则有价值,还需考虑提升度;C正确,提升度>1表示正相关;D错误,提升度小于1表示负相关。
9. A
解析:关联分析会生成大量规则,通过最小支持度和最小置信度筛选出有意义、可靠的规则,减少计算和冗余。
10. A
解析:置信度表示前件出现的情况下后件出现的条件概率,即P(面包 | 鸡蛋和牛奶) = 85%。
11. A
解析:Apriori算法通过逐层搜索迭代,利用频繁项集的先验性质剪枝,生成候选项集并计算支持度,最终产生关联规则。
12. B
解析:频繁项集是指支持度不低于最小支持度阈值的项集。其他选项与定义不符。
13. C
解析:预测股票价格是回归或时间序列分析任务,关联分析用于发现项间关联,不适合连续值预测。
14. C
解析:两个频繁项集的并集不一定频繁,例如 {A} 和 {B} 各自频繁,但 {A,B} 可能支持度较低而不频繁。
15. A
解析:提升度=1表示前件与后件相互独立,即前件的出现不影响后件的概率。
二、填空题答案解析
1. 项集(或规则前件与后件)
2. X∪Y (或 X∩Y)
3. Y(后件)
4. 关联
5. 支持度;置信度
6. 先验(或Apriori)
7. 关联规则
8. 支持度
9. 正向促进(或提升)
10. 支持度
三、情景作答题答案解析
情景一:校园超市购物篮分析
1. 支持度({面包, 牛奶})
包含{面包,牛奶}的交易:学生1、2、5 → 共3条。
总交易5条,支持度 = 3/5 = 0.6 = 60%。
2. 规则 {牛奶} → {鸡蛋} 的置信度
包含牛奶的交易:学生1、2、4、5 → 共4条。
同时包含牛奶和鸡蛋的交易:学生1、4、5 → 共3条。
置信度 = 3/4 = 0.75 = 75%。
3. 规则 {面包, 牛奶} → {鸡蛋} 的置信度
包含{面包,牛奶}的交易:3条(学生1、2、5)。
其中同时包含鸡蛋的交易:学生1、5 → 2条。
置信度 = 2/3 ≈ 66.7%。
4. 判断规则 {鸡蛋} → {牛奶} 是否保留
支持度(鸡蛋) = 包含鸡蛋的交易:学生1、3、4、5 → 4条,支持度=4/5=80%。
支持度(鸡蛋∩牛奶) = 同时包含鸡蛋和牛奶:学生1、4、5 → 3条,支持度=3/5=60%。
置信度 = 60% / 80% = 75%。
最小支持度40%,60%>40%通过;最小置信度60%,75%>60%通过。
因此该规则被保留。
情景二:阅读推广活动中的关联分析
1. 支持度和置信度
总人数100。
支持度({科幻}→{历史}) = 同时借阅科幻和历史的人数/总人数 = 20/100 = 20%。
置信度 = 支持度({科幻,历史}) / 支持度({科幻}) = 20% / (40/100=40%) = 0.2/0.4 = 0.5 = 50%。
2. 提升度
提升度 = 置信度 / 支持度({历史}) = 50% / (30/100=30%) = 0.5/0.3 ≈ 1.667。
提升度>1,说明借阅科幻对借阅历史有正向促进作用,存在正关联。
3. 推荐是否有效
有效。因为置信度50%意味着借阅科幻的学生中有一半也借阅历史,相比整体历史借阅率30%,提升了约1.67倍,推荐有一定效果。
4. 最小支持度15%,最小置信度70%
支持度20% >15% 通过;置信度50% <70% 不满足。因此该规则不会被保留。
情景三:电商平台的关联推荐策略
1. 提升度的含义及比较
提升度越高,表示前件对后件的促进作用越强,关联越有意义。规则1提升度2.1 > 规则2的1.1,因此规则1的推荐效果更好,因为购买手机壳的顾客购买钢化膜的概率是整体水平的2.1倍,而笔记本配鼠标的关联较弱(仅1.1倍)。
2. 低支持度高提升度的价值
具有商业价值。支持度低说明该规则发生的总次数少,但提升度高意味着当发生时关联极强。例如奶粉和尿布可能只有少数年轻父母同时购买,但一旦购买奶粉,很大概率也会买尿布。在个性化推荐中,针对触发前件的小众用户,可以精准推荐后件,提升用户体验和交叉销售机会。
3. 改进策略
降低最小支持度阈值,可能会发现与手机相关的低频但强关联规则。
使用更细粒度的数据,如手机品牌、型号、价格区间进行关联分析。
采用协同过滤或基于内容的推荐作为补充,不依赖关联规则。
挖掘手机与其他商品的二阶或多阶关联,如 {手机, 充电器} → {耳机}。
4. 过度推荐问题及解决思路
过度推荐:用户刚买了一件商品,系统重复推荐同类或弱关联商品,引起厌烦。解决思路:引入用户反馈机制,设置推荐频率上限;结合时间衰减因子,避免长期重复推荐;对已购买商品进行过滤;使用A/B测试优化规则阈值。

展开更多......

收起↑

资源预览