资源简介 (共32张PPT)5.3 数据的分析必修一 《数据与计算》5.3 数据分析高中信息技术必修1 数据与计算5.3 数据的分析什么是数据分析?数据分析是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。高中信息技术必修1 数据与计算5.3 数据的分析什么是数据分析?李海青高中信息技术必修1 数据与计算5.3 数据的分析水资源分布现状过去旅游业的发展情况了解事物的现状诊断过去的发展历程预测房价走向预测未来的走向数据分析高中信息技术必修1 数据与计算5.3 数据的分析5.3.1 特征探索数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值,异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。高中信息技术必修1 数据与计算5.3 数据的分析5.3.1 特征探索高中信息技术必修1 数据与计算5.3 数据的分析数据质量探索、数据特征分析143 81 30200 86 2950 77 305.3.1 特征探索高中信息技术必修1 数据与计算5.3 数据的分析姓名 语文 数学 英语小明 93 77小王 898 90 85小陈 59 78 75缺失值异常值数据清洗5.3.1 特征探索数据特征探索程序李海青高中信息技术必修1 数据与计算5.3 数据的分析5.3.1 特征探索探究活动一(暂停课程视频5分钟):打开并运行配套学习资源包“第五章\课本素材\程序5-3数据预处理”,观察数据预处理结果。高中信息技术必修1 数据与计算5.3 数据的分析5.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。5.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析购物篮分析一一了解顾客购买习惯一一给商家提供销售策略5.3.2 关联分析李海青高中信息技术必修1 数据与计算5.3 数据的分析67%5.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析序号 商品1 可乐,鸡蛋,火腿2 可乐,尿布,啤酒3 可乐,尿布,啤酒,火腿4 尿布,啤酒计算机如何对数据进行关联分析 5.3.2 关联分析李海青高中信息技术必修1 数据与计算5.3 数据的分析购物篮分析步骤一:扫描数据,建立项集序号 商品1 可乐,鸡蛋,火腿2 可乐,尿布,啤酒3 可乐,尿布,啤酒,火腿4 尿布,啤酒c1项集:[可乐][鸡蛋][火腿][尿布][啤酒]5.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析购物篮分析步骤二:计算各个集合的支持度,即数据出现频率次数/总数序号 商品1 可乐,料蛋,火腿2 可乐,尿布,啤酒3 可乐,尿布,啤酒,火腿4 尿布,啤酒C1项集 支持度[可乐] 3/4=0.75[鸡蛋] 1/4=0.25[火腿] 2/4=0.50[尿布] 3/4=0.75[啤酒] 3/4=0.755.3.2 关联分析李海青高中信息技术必修1 数据与计算5.3 数据的分析购物篮分析步骤三:设置最小支持度=0.4序号 商品1 可乐,鸡蛋,火腿2 可乐,尿布,啤酒3 可乐,尿布,啤酒,火腿4 尿布,啤酒c1项集:[可乐][鸡蛋][火腿][尿布][啤酒]5.3.2 关联分析李海青高中信息技术必修1 数据与计算5.3 数据的分析步骤三:设置最小支持度=0.4C1项集 支持度[可乐] 3/4=0.75[鸡蛋] 1/4=0.25[火腿] 2/4=0.50[尿布] 3/4=0.75[啤酒] 3/4=0.75频繁项集L1[可乐] [火腿][尿布][啤酒]购物篮分析5.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析C1项集 支持度[可乐] 3/4=0.75[鸡蛋] 1/4=0.25[火腿] 2/4=0.50[尿布] 3/4=0.75[啤酒] 3/4=0.75频繁项集L1[可乐] [火腿][尿布][啤酒]C2项集 支持度[可乐,火腿] 2/4=0.50[可乐,尿布] 2/4=0.50[可乐,啤酒] 2/4=0.50[火腿,尿布] 1/4=0.25[火腿,啤酒] 1/4=0.25[尿布,啤酒] 3/4=0.75频繁项集L2[可乐,火腿] [可乐,尿布][可乐,啤酒][尿布,啤酒]步骤四:将L1中的数据两两拼接5.3.2 关联分析高中信息技术必修1 数据与计算5.3 数据的分析C1项集 支持度[可乐] 3/4=0.75[鸡蛋] 1/4=0.25[火腿] 2/4=0.50[尿布] 3/4=0.75[啤酒] 3/4=0.75频繁项集L1[可乐] [火腿][尿布][啤酒]C2项集 支持度[可乐,火腿] 2/4=0.50[可乐,尿布] 2/4=0.50[可乐,啤酒] 2/4=0.50[火腿,尿布] 1/4=0.25[火腿,啤酒] 1/4=0.25[尿布,啤酒] 3/4=0.75频繁项集L2[可乐,火腿] [可乐,尿布][可乐,啤酒][尿布,啤酒]C3项集 支持度[可乐,火腿,尿布] 2/4=0.50[可乐,火腿,啤酒] 2/4=0.50[可乐,尿布,啤酒] 2/4=0.50频繁项集L3...Lk步骤五:将L2中的数据两两拼接,得到C35.3.2 关联分析李海青高中信息技术必修1 数据与计算5.3 数据的分析探究活动二(暂停课程视频5分钟):理解关联分析的过程,根据下表,按步骤计算商品的关联性。序号 商品1 可乐,鸡蛋,火腿2 可乐,尿布,啤酒3 可乐,尿布,啤酒,火腿5.3.3 聚类分析李海青高中信息技术必修1 数据与计算5.3 数据的分析聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。5.3.3 聚类分析李海青高中信息技术必修1 数据与计算5.3 数据的分析聚类分析K-平均算法K-平均算法的基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果。5.3.3 聚类分析李海青高中信息技术必修1 数据与计算5.3 数据的分析聚类分析的基本算法:(1)从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。(2)对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。(3)重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。5.3.3 聚类分析李海青高中信息技术必修1 数据与计算5.3 数据的分析5.3.4 数据分类李海青高中信息技术必修1 数据与计算5.3 数据的分析数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。5.3.4 数据分类高中信息技术必修1 数据与计算5.3 数据的分析采集数据建立分类的模型对新数据进行 分类5.3.4 数据分类李海青高中信息技术必修1 数据与计算5.3 数据的分析贝叶斯分类技术在众多分类技术中占有重要地位,也属于统计学分类的范畴,是一种非规则的分类方法。贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类函数(对离散变量的预测称作分类,对连续变量的分类称为回归),利用训练得到的分类器实现对未分类数据的分类。5.3.4 数据分类李海青高中信息技术必修1 数据与计算5.3 数据的分析如表所示是某网络商城客户购物行为特征的一组统计资料。已知某客户购物行为特征A为数值182.8,特征B为数值58.9,特征C为数值26,请问这人是重要客户还是普通客户?客户 特征A 特征B 特征C重要客户 182.8 81.6 30重要客户 180.4 86.1 29重要客户 170.0 77.1 30重要客户 180.4 74.8 28普通客户 152.4 45.3 24普通客户 167.6 68.0 26普通客户 165.2 58.9 25普通客户 175.2 68.0 275.3.4 数据分类高中信息技术必修1 数据与计算5.3 数据的分析5.3.4 数据分类李海青高中信息技术必修1 数据与计算5.3 数据的分析import numpy as npX=np.array([[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28],[152.4,45.3,24],[167.6,68.0,26],[165.2,58.9,25],[175.2,68.0,27]])Y=np.array([1,1,1,1,0,0,0,0])from sklearn.naive_bayes import GaussianNBclf=GaussianNB().fit(X,Y)print(clf.predict([[182.8,58,9,26]]))程序结果为:[0]为普通客户5.3 数据的分析高中信息技术必修1 数据与计算5.3 数据的分析 展开更多...... 收起↑ 资源预览