资源简介 (共16张PPT)广东教育出版社信息技术必修1 -information Technology education信息技术教育5.3 数 据 分 析关联分析特征探索聚类分析数据分类数 据 分 析 方 法 ?广东教育出版社信息技术必修1 -information Technology education信息技术教育聚类分析5.3 数 据 分 析聚类分析5.3 数据分析 -主要内容聚类分析的概念0102聚类分析的思想03聚类分析的算法1概 念聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析5.3 数据分析-2思 想聚类分析5.3 数据分析-K-平均算法就是一种经典的自下而上的聚类分析方法2思 想聚类分析5.3 数据分析-K-平均算法基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将其余点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果。N个点K个中心聚类点(K=3)K1K2K3N-kmS1S2S3K1’K2’K3’ABC3算 法聚类分析5.3 数据分析-1.从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。2.对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。3.重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。学 以 致 用聚类分析5.3 数据分析-运行Python程序对下表数据进行聚类分析,了解客户信息学 以 致 用聚类分析5.3 数据分析-运行Python程序对下表数据进行聚类分析,了解客户的价值信息import csvimport pandas as pdaimport numpy as npyimport matplotlib.pylab as pylfrom sklearn.cluster import KMeansfname="company.csv"dataf=pda.read_csv(fname,encoding="gbk")x=dataf.as_matrix()kms=KMeans(n_clusters=3)y=kms.fit_predict(x)print(y)#设置了聚类点的个数是3#实现了聚类过程,通过计算将数据按聚类点的个数分为3类聚类分析5.3 数据分析-#年龄-消费金额图,消费时间-消费金额图,年龄-消费时间图for i in range(0,len(y)):if(y[i]==0):print(str(i)+"0")pyl.subplot(2,3,1)#年龄-消费金额图 pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"*r")pyl.subplot(2,3,2)#消费时间-消费金额图 pyl.plot(dataf.iloc[i:i+1,2:3].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"*r")pyl.subplot(2,3,3)#年龄-消费时间图 pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,2:3].as_matrix(),"*r")elif(y[i]==1):print(str(i)+"1")pyl.subplot(2,3,1)pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"sy")pyl.subplot(2,3,2)pyl.plot(dataf.iloc[i:i+1,2:3].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"sy")pyl.subplot(2,3,3)pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,2:3].as_matrix(),"sy")elif(y[i]==2):print(str(i)+"2")pyl.subplot(2,3,1)#年龄-消费金额图pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"pb")pyl.subplot(2,3,2)#消费时间-消费金额图pyl.plot(dataf.iloc[i:i+1,2:3].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"pb")pyl.subplot(2,3,3)#年龄-消费时间图pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,2:3].as_matrix(),"pb")pyl.show()学 以 致 用运行Python程序对下表数据进行聚类分析,了解客户的价值信息聚类分析5.3 数据分析-消费额偏低为普通用户消费额偏高为高级用户超级用户消费额不高,周期不定消费额中等,周期稳定消费额高,周期短年龄-消费金额图点杂乱无章,两者关系不强周期-消费金额图年龄-消费时间图学 以 致 用运行Python程序对下表数据进行聚类分析,了解客户的价值信息知 识 积 累聚类分析5.3 数据分析-用于发现同一个事物中某些属性同时出现的规律和模式,主要研究数据与数据之间的关联性。关 联分 析聚类分析主要将数据自动分成不同类型,同类数据之间有一定相似性,不同类型数据之间没有多大的相似性。聚 类分 析课 堂 总 结聚类分析5.3 数据分析-聚类分析的概念12聚类分析的思想3聚类分析的算法聚 类 分 析当 堂 检 测聚类分析5.3 数据分析-1.下列关于聚类分析的说法,错误的是( )A.可以从数据点集合中随机选择K个点作为初始的聚集中心B.对其他的每个数据点,以此判断其与K个中心点的距离,距离最近的表明它属于这项聚类C.聚类分析,必须先设定分类的标准,否则无法准确分类D.重新计算新的聚簇集合的平均值既中心点当 堂 检 测聚类分析5.3 数据分析-2.K-平均算法属于( )分析方法。A. 聚类B. 关联C. 分类D. 回归谢谢聆听信息技术必修1 -information Technology education信息技术教育广东教育出版社 展开更多...... 收起↑ 资源预览