资源简介 (共16张PPT)5.3.2 关联分析《数据与计算》P113-118数据的特征探索系统日志采集法网络数据采集法(网络爬虫)其他数据采集法数据分析的步骤1.概念:分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。2.常见案例:价格和年龄之间的关系:个性化推荐购买相关商品之间的关系:捆绑销售3.常用的算法:aprior算法(关联规则挖掘算法)一、关联分析2.常见案例:捆绑销售一、关联分析3.关联分析的基本算法及流程图扫描数据,并统计数据出现的频率次数构建候选项集C1计算支持度:数据出现的频率次数/总数形成频繁项集L1:筛选候选项集C1,要求支持度不小于最小支持度连接频繁项集L1,生成候选项集C2重复步骤③-⑤,得到最大的频繁项集一、关联分析扫描数据库,统计数据出现的频率次数构建候选项集Cn支持度>最小支持度形成频繁项集Ln开始结束是否计算支持度:频率次数/总数构建候选项集Cn+1Aprioir-Gen运算扫描数据库统计数据出现的频率次数4.案例分析一、关联分析原始数据集:[面包,牛奶],[面包,尿布,啤酒,鸡蛋][牛奶,尿布,啤酒,可乐][面包,牛奶,尿布,啤酒][面包,牛奶,尿布,可乐]扫描数据库,统计每种食物出现的次数候选项集C1 食物 数目牛奶 4面包 4尿布 4啤酒 3鸡蛋 1可乐 24.案例分析一、关联分析支持度大于2的频繁项集L1候选项集C1 食物 数目牛奶 4面包 4尿布 4啤酒 3鸡蛋 1可乐 2频繁项集L1 食物 数目牛奶 4面包 4尿布 4啤酒 3候选项集C2食物组合牛奶、面包牛奶、尿布牛奶、啤酒面包、尿布面包、啤酒尿布、啤酒根据算法,生成候选项集C24.案例分析一、关联分析原始数据集:[面包,牛奶],[面包,尿布,啤酒,鸡蛋][牛奶,尿布,啤酒,可乐][面包,牛奶,尿布,啤酒][面包,牛奶,尿布,可乐]扫描数据库,统计候选项集C2食物组合出现的次数候选项集C2食物组合[牛奶、面包][牛奶、尿布][牛奶、啤酒][面包、尿布][面包、啤酒][尿布、啤酒]候选项集C2 食物组合 数目[牛奶、面包] 3[牛奶、尿布] 3[牛奶、啤酒] 2[面包、尿布] 3[面包、啤酒] 2[尿布、啤酒] 34.案例分析一、关联分析候选项集C2 食物组合 数目[牛奶、面包] 3[牛奶、尿布] 3[牛奶、啤酒] 2[面包、尿布] 3[面包、啤酒] 2[尿布、啤酒] 3支持度大于2的频繁项集L2频繁项集L2 食物组合 数目[牛奶、面包] 3[牛奶、尿布] 3[面包、尿布] 3[尿布、啤酒] 3候选项集C3食物组合[牛奶、面包、尿布][牛奶、面包、啤酒][牛奶、尿布、啤酒][面包、尿布、啤酒]根据算法,生成候选项集C34.案例分析一、关联分析根据算法,生成候选项集C3候选项集C3食物组合[牛奶、面包、尿布][牛奶、面包、啤酒][牛奶、尿布、啤酒][面包、尿布、啤酒]候选项集C3 食物组合 数目[牛奶、面包、尿布] 2[牛奶、面包、啤酒] 1[牛奶、尿布、啤酒] 2[面包、尿布、啤酒] 2原始数据集:[面包,牛奶],[面包,尿布,啤酒,鸡蛋][牛奶,尿布,啤酒,可乐][面包,牛奶,尿布,啤酒][面包,牛奶,尿布,可乐]扫描数据库,统计候选项集C3食物组合出现的次数4.案例分析一、关联分析候选项集C3 食物组合 数目[牛奶、面包、尿布] 2[牛奶、尿布、啤酒] 1[牛奶、尿布、啤酒] 2[面包、尿布、啤酒] 2根据计算和筛选,得到最终的频繁项集最终的频繁项集食物组合[牛奶、面包、尿布]原始数据集:[面包,牛奶],[面包,尿布,啤酒,鸡蛋][牛奶,尿布,啤酒,可乐][面包,牛奶,尿布,啤酒][面包,牛奶,尿布,可乐]4.案例分析support(支持度)两个商品被同时购买发生的概率confidence(置信度)B商品被购买的情况下,A商品被购买的概率P(A|B) = P(AB)/P(B)例如:同时买牛奶、面包的概率为买了牛奶后,买面包的概率为P(A|B) = P(AB)/P(B)=(3/5) / (4/5)= 3/4一、关联分析原始数据集:[面包,牛奶],[面包,尿布,啤酒,鸡蛋][牛奶,尿布,啤酒,可乐][面包,牛奶,尿布,啤酒][面包,牛奶,尿布,可乐]P(AB)=3/5二、课堂小结三、课堂练习1.某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是( )A.聚类分析 B.分类分析 C.关联分析 D.回归分析2.下列有关数据关联分析的说法正确的是( )A.对数据进行预处理,发现和处理缺失值,异常数据、绘制直方图,观察数据分布的特征,求最大值、最小值、极差等描述性统计量。B.分析发现存在于大量数据之间的关联性和相关性,从而描述一个事物的共同规律和模式。C.是一种探索性的分析。不必事先给出一个分类标准,而是让其自动分类。D.是数据分析中最基本的方法。先基于样本数据构建分类器,然后进行预测。CA订单 商品1 商品2 商品3 商品4订单1 a c e 订单2 b d 订单3 b c 订单4 a b c d订单5 a b 订单6 b c 订单7 a b 订单8 a b c e订单9 a b c 订单10 a c e 【实践操作】假设购买商品A的有100人,购买商品B的有80人,购买商品C的有50人,同时购买商品A和商品B的有70人,同时购买商品A和商品C的有5人,那么购买商品A的人往往就会购买商品B,由此可以找出这些数据相互之间的关系。下表所示是某网络商城销售订单统计资料,那么这些商品之间有什么关联性?四、实践操作【实践操作】运行程序5-8-1关联分析,体验顾客购买几种商品之间的关联。四、实践操作 展开更多...... 收起↑ 资源预览