资源简介 (共13张PPT)5.3.3+4聚类分析与数据分类《数据与计算》P113-118数据的特征探索系统日志采集法网络数据采集法(网络爬虫)其他数据采集法数据分析的步骤1.概念:是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。2.特点:不需要先给定分类标准能够自动进行分类达到“物以类聚、人以群分”的效果3.常用的算法:k-Means算法中文名:K-平均算法特点:自下而上的聚类分析方法一、聚类分析3.k-Means算法的基本算法及流程图初始化随机选择K个点作为中心聚类点依次计算其余数据点与中心点的距离将数据点分配给最近的中心点计算每个聚集中心的平均值,即为中心点重复步骤②-④, 满足下列条件时,结束聚类。中心点的位置变化小于指定的阈值(默认为 0.0001)达到最大迭代次数得到最大的频繁项集一、聚类分析从文件读取数据初始化聚类中心(随机)计算其余数据点与中心点的距离将数据点分配到最近的中心点中心点的位置变化小于指定的阈值开始结束否否是计算每个聚集的平均值,即中心点好友关系聚类从文件读取数据初始化聚类中心(随机)计算其余数据点与中心点的距离将数据点分配到最近的中心点中心点的位置变化小于指定的阈值开始结束否否是计算每个聚集的平均值,即中心点4.案例赏析一、聚类分析4.案例赏析:层次关系聚类一、聚类分析一、聚类分析【项目练习】运行程序5-6-1聚类分析(教材范例),体验聚类分析。需要的数据存储在comany. CSV文件中,包括“客户年龄”、 “平均每次消费金额”、 “平均消费周期(天)。由于一起对3个数据的关系进行分析很难操作,所以分别选取2个类别进行比较。程序运行结果如下图:图1:图2:图3:图1图2图3红五星表示普通用户,消费金额偏低。矩形表示消费金额较高,为高级用户。蓝色为超级用户。红五星消费时间不定,消费金额不高。矩形表示消费金额中等,消费时间稳定。蓝色表示消费额高,消费时间短。年龄-消费时间图。点阵杂乱无章,两者关系不强。1.思路:先基于样本数据训练构建分类函数或者分类模型(分类器);然后用分类器将待分类数据进行分类。2.应用:预测(数据分类、回归分析)基于样本数据记录根据分类准则自动对未知数据进行推广描述从而实现对未知数据进行预测3.常用的方法:贝叶斯分类技术事件发生的概率二、数据分类客户 特征A 特征B 特征C重要客户 182.8 81.6 30重要客户 180.4 86.1 29重要客户 170.0 77.1 30重要客户 180.4 74.8 28普通客户 152.4 45.3 24普通客户 167.6 68.0 26普通客户 165.2 58.9 25普通客户 175.2 68.0 27【项目练习】如下表所示是某网络商城客户购物行为特征的一组统计资料。已知某客户购物行为特征A的数值为182.8,特征B为数值58.9,特征C为数值26,请问这是重要客户还是普通客户?二、数据分类程序运行结果为0,表示这人是普通客户程序5-7-1 数据分析结果二、数据分类【项目练习】运行“程序5-7-1 数据分类.py”,修改代码,将某客户购物行为特征A的数值为182.8,特征B为数值58.9,特征C为数值26,查看该用户的类别。结果如下图所示。如果有两位客户的购物行为,那他们属于重要客户还是普通客户呢?客户1:特征A的数值为182.8特征B为数值74.8特征C为数值26客户2:特征A的数值为182.8特征B为数值74.8特征C为数值27三、课堂小结四、课堂练习1.某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是( )A.聚类分析 B.分类分析 C.关联分析 D.回归分析2.下列关于聚类分析的说法,错误的是( )A.可以从数据点集合中随机选择K个点作为初始的聚集中心B.对其他的每个数据点,以此判断其与K个中心点的距离,距离最近的表明它属于这项聚类C. 聚类分析,必须先设定分类的标准,否则无法准确分类D.重新计算新的聚簇集合的平均值既中心点CC四、课堂练习3.聚类分析的算法有很多,其中最经典的自下而上的聚类分析方法是( )。A.特征探索 B.关联分析 C.K-Means算法 D.数据分类4.K-平均算法属于数据分类方法。( )5.下列( )数据分析方法能达到“物以类聚、人以群分”的效果A.聚类分析 B.数据分类 C.关联分析 D.回归分析6.下列( )数据分析方法需要先基于样本数据构建分类器,然后才能将待分类数据进行分类。A.聚类分析 B.数据分类 C.关联分析 D.回归分析CBAB 展开更多...... 收起↑ 资源预览