资源简介 (共31张PPT)5.3 数据的分析必修一 《数据与计算》从王者荣耀里学会数据分析5.3 数据的分析什么是数据分析?数据分析是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。高中信息技术必修1 数据与计算5.3 数据的分析李海青水资源分布现状过去旅游业的发展情况了解事物的现状诊断过去的发展历程预测房价走向预测未来的走向数据分析高中信息技术必修1 数据与计算5.3 数据的分析5.3.1 特征探索数据特征探索的主要任务是对数据进行预处理高中信息技术必修1 数据与计算5.3 数据的分析发现和处理缺失值、异常数据绘制直方图数据预处理观察数据的分布特征求最大值、最小值、极差等描述性统计量5.3.1 特征探索高中信息技术必修1 数据与计算5.3 数据的分析姓名 语文 数学 英语小明 93 77小王 898 90 85小陈 59 78 75缺失值异常值补全修正5.3.1 特征探索李海青高中信息技术必修1 数据与计算5.3 数据的分析[1]数据清洗,发现缺失值把价格为零的数据变为空值缺失值用64代替5.3.1 特征探索高中信息技术必修1 数据与计算5.3 数据的分析[2]异常值处理中,利用画散点图发现异常值部分数据分布不均匀评论数异常为>200000;价格异常为>2300;5.3.1 特征探索高中信息技术必修1 数据与计算5.3 数据的分析line=len(data.values)col=len(data.values)da=data.valuesfor i in range(0,line):for j in range(0,col):if (da[i][2]>2300):da[i][2]=“36”if (da[j][3]>200000):da[i][j]=“58”[3]处理异常数据,评论数异常为>200000;价格异常为>2300;再重新绘制散点图数据分布均匀评论数用58代替价格用36代替高中信息技术必修1 数据与计算5.3 数据的分析5.3.1 特征探索[4]求最大值、最小值、极差、组距,绘制价格直方图和评论数直方图结论:价格在10-30块之间的商品种类最多此价位的商品竞争最激烈5.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。指导商品摆放制定促销策略寻找潜在用户5.3.2 关联分析李海青高中信息技术必修1 数据与计算5.3 数据的分析典型案例:尿布与啤酒5.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析如何进行关联分析?5.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析如何进行关联分析?序号 商品1 可乐,鸡蛋,火腿2 可乐,尿布,啤酒3 可乐,尿布,啤酒,火腿4 尿布,啤酒5.3.2 关联分析李海青高中信息技术必修1 数据与计算5.3 数据的分析步骤一:扫描数据,建立项集,统计频率次数C1项集 出现频率次数[可乐][鸡蛋][火腿][尿布][啤酒]31233序号 商品1 可乐,鸡蛋,火腿2 可乐,尿布,啤酒3 可乐,尿布,啤酒,火腿4 尿布,啤酒5.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析步骤二:计算各个集合的支持度序号 商品1 可乐,鸡蛋,火腿2 可乐,尿布,啤酒3 可乐,尿布,啤酒,火腿4 尿布,啤酒C1项集 出现 频率次数 支持度[可乐] 3[鸡蛋] 1[火腿] 2[尿布] 3[啤酒] 3支持度=3/4=0.751/4=0.252/4=0.53/4=0.753/4=0.755.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析步骤三:设置最小支持度=0.4,筛选出支持度不小于最小支持度的数据项,形成频繁项集L1C1项集 出现 频率次数 支持度[可乐] 3 0.75[鸡蛋] 1 0.25[火腿] 2 0.5[尿布] 3 0.75[啤酒] 3 0.75频繁项集L1[可乐][火腿][尿布][啤酒]5.3.2 关联分析李海青高中信息技术必修1 数据与计算5.3 数据的分析步骤四:将L1中的数据两两拼接,先形成候选项集C2,再形成频繁项集L2频繁项集L1[可乐][火腿][尿布][啤酒]候选项集C2 支持度[可乐,火腿] 2/4=0.5[可乐,尿布] 2/4=0.5[可乐,啤酒] 2/4=0.5[火腿,尿布] 1/4=0.25[火腿,啤酒] 1/4=0.25[尿布,啤酒] 3/4=0.75频繁项集L2[可乐,火腿][可乐,尿布][可乐,啤酒][尿布,啤酒]5.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析步骤五:重复前面的步骤,继续将数据进行拼接,直到形成最终频繁项集频繁项集L2[可乐,火腿][可乐,尿布][可乐,啤酒][尿布,啤酒]候选项集C3 支持度[可乐,火腿,尿布] 2/4=0.5[可乐,火腿,啤酒] 2/4=0.5[可乐,尿布,啤酒] 3/4=0.75频繁项集L3[可乐,尿布,啤酒]5.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析C1项集 支持度[可乐] 3/4=0.75[鸡蛋] 1/4=0.25[火腿] 2/4=0.50[尿布] 3/4=0.75[啤酒] 3/4=0.75频繁项集L1[可乐] [火腿][尿布][啤酒]C2项集 支持度[可乐,火腿] 2/4=0.50[可乐,尿布] 2/4=0.50[可乐,啤酒] 2/4=0.50[火腿,尿布] 1/4=0.25[火腿,啤酒] 1/4=0.25[尿布,啤酒] 3/4=0.75频繁项集L2[可乐,火腿] [可乐,尿布][可乐,啤酒][尿布,啤酒]C3项集 支持度[可乐,火腿,尿布] 2/4=0.50[可乐,火腿,啤酒] 2/4=0.50[可乐,尿布,啤酒] 3/4=0.75频繁项集L3[可乐,尿布,啤酒]5.3.3 聚类分析李海青高中信息技术必修1 数据与计算5.3 数据的分析聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类,达到“物以类聚、人以群分”的效果。菜鸟绎站的选址共享单车停靠点的选址5.3.3 聚类分析李海青高中信息技术必修1 数据与计算5.3 数据的分析经典聚类分析方法:K-平均算法(K-means算法)问题:1.怎样选择初始的K个中心点?2.怎么判断其余的数据点属于哪一类 5.3.3 聚类分析李海青高中信息技术必修1 数据与计算5.3 数据的分析经典聚类分析方法:K-平均算法(K-means算法)问题:1.怎样选择初始的K个中心点?2.怎么判断其余的数据点属于哪一类 随机选择依次判断数据点与K个中心点的距离, 选择离得最近的中心点作为同类5.3.3 聚类分析李海青高中信息技术必修1 数据与计算5.3 数据的分析K-平均算法的基本思想就是在空间N个点中,初始随机选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果。高中信息技术必修1 数据与计算5.3 数据的分析5.3.4 数据分类1.思路:先基于样本数据训练构建分类函数或者分类模型(分类器);然后用分类器将待分类数据进行分类。2.应用:预测(数据分类、回归分析)基于样本数据记录根据分类准则自动对未知数据进行推广描述从而实现对未知数据进行预测3.常用的方法:贝叶斯分类技术事件发生的概率5.3.4 数据分类高中信息技术必修1 数据与计算5.3 数据的分析采集数据建立分类的模型对新数据进行 分类5.3.4 数据分类李海青高中信息技术必修1 数据与计算5.3 数据的分析如表所示是某网络商城客户购物行为特征的一组统计资料。已知某客户购物行为特征A为数值182.8,特征B为数值58.9,特征C为数值26,请问这人是重要客户还是普通客户?客户 特征A 特征B 特征C重要客户 182.8 81.6 30重要客户 180.4 86.1 29重要客户 170.0 77.1 30重要客户 180.4 74.8 28普通客户 152.4 45.3 24普通客户 167.6 68.0 26普通客户 165.2 58.9 25普通客户 175.2 68.0 275.3.4 数据分类李海青高中信息技术必修1 数据与计算5.3 数据的分析import numpy as npX=np.array([[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28],[152.4,45.3,24],[167.6,68.0,26],[165.2,58.9,25],[175.2,68.0,27]])Y=np.array([1,1,1,1,0,0,0,0])From sklearn.naive_bayes import GaussianNBclf=GaussianNB().fit(X,Y)print(clf.predict([[182.8,58.9,26]]))程序运行结果为0,表示这人是普通客户根据资料得到一个样本子集,把分类的样本子集(X,Y)和测试样本[182.8,58.9,26]利用程序运行如下:5.3 数据的分析总结高中信息技术必修1 数据与计算5.3 数据的分析练一练:高中信息技术必修1 数据与计算5.3 数据的分析1.数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是( )A.数据清洗 B.异常数据处理C. 数据缺失处理 D.数据分类处理D2.某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是( )A.聚类分析 B.数据分析 C.关联分析 D.回归分析C3. K-平均算法是一种经典的( )算法。A.关联分析 B.数据分类C.聚类分析 D.数据可视化C练一练:高中信息技术必修1 数据与计算5.3 数据的分析4. 数据聚类分析的主要任务是( )A.对数据进行预处理,发现和处理缺失值,是常数据、绘制直方图,观察数据分布的特征,求最大值,最小值、极差等描述性统计量B.分析发现存在于大量数据之间的关联性和相关性,从而描述一个事物的共同规律和模式。C.是一种探索性的分析。不必事先给出一个分类标准,而是让其自动分类。D.是数据分析中最基本的方法,先基于样本数据构建分类器,然后进行预测。C5. 某同学体重70Kg,身高178cm,下列能用来判断该同学偏肥或偏瘦最有效的数据分析方法是( )。A. 聚类分析 B.关联 分析C.数据分类 D.以上都不行C 展开更多...... 收起↑ 资源预览