资源简介 (共26张PPT)粤教版普通高中教科书信息技术 必修1 数据与计算第五章 数据处理和可视化表达5.1 认识大数据5.2 数据的采集5.3 数据的分析5.4 数据的可视化表达 数据分析-数据分析就是在一堆杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去,预测未来发挥作用。数据分析常用方法特征探索关联分析聚类与分类建立模型模型评价回顾与导入 特征探索-数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。回顾与导入2.数据清洗,发现缺失值3.异常值处理中,利用画散点图发现异常值部分4.求最大值、最小值、极差、组距,绘制价格直方图和评论数直方图1.创建MySQL数据库特征探索一般过程高中信息技术必修1 数据与计算5.3.2 关联分析数据分析常用方法特征探索关联分析聚类与分类建立模型模型评价 1.概念:分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。2.常见案例:价格和年龄之间的关系:个性化推荐购买相关商品之间的关系:捆绑销售3.常用的算法:aprior算法(关联规则挖掘算法)案例:捆绑销售5.3.2 关联分析3.关联分析的基本算法及流程图扫描数据,并统计数据出现的频率次数构建候选项集C1计算支持度:数据出现的频率次数/总数形成频繁项集L1:筛选候选项集C1,要求支持度不小于最小支持度连接频繁项集L1,生成候选项集C2重复步骤③-⑤,得到最大的频繁项集扫描数据库,统计数据出现的频率次数构建候选项集Cn支持度>最小支持度形成频繁项集Ln开始结束是否计算支持度:频率次数/总数构建候选项集Cn+1Aprioir-Gen运算扫描数据库统计数据出现的频率次数5.3.2 关联分析4.案例分析原始数据集:[面包,牛奶],[面包,尿布,啤酒,鸡蛋][牛奶,尿布,啤酒,可乐][面包,牛奶,尿布,啤酒][面包,牛奶,尿布,可乐]扫描数据库,统计每种食物出现的次数候选项集C1 食物 数目牛奶 4面包 4尿布 4啤酒 3鸡蛋 1可乐 25.3.2 关联分析4.案例分析支持度大于2的频繁项集L1候选项集C1 食物 数目牛奶 4面包 4尿布 4啤酒 3鸡蛋 1可乐 2频繁项集L1 食物 数目牛奶 4面包 4尿布 4啤酒 3候选项集C2食物组合牛奶、面包牛奶、尿布牛奶、啤酒面包、尿布面包、啤酒尿布、啤酒根据算法,生成候选项集C25.3.2 关联分析4.案例分析原始数据集:[面包,牛奶],[面包,尿布,啤酒,鸡蛋][牛奶,尿布,啤酒,可乐][面包,牛奶,尿布,啤酒][面包,牛奶,尿布,可乐]扫描数据库,统计候选项集C2食物组合出现的次数候选项集C2食物组合[牛奶、面包][牛奶、尿布][牛奶、啤酒][面包、尿布][面包、啤酒][尿布、啤酒]候选项集C2 食物组合 数目[牛奶、面包] 3[牛奶、尿布] 3[牛奶、啤酒] 2[面包、尿布] 3[面包、啤酒] 2[尿布、啤酒] 35.3.2 关联分析4.案例分析候选项集C2 食物组合 数目[牛奶、面包] 3[牛奶、尿布] 3[牛奶、啤酒] 2[面包、尿布] 3[面包、啤酒] 2[尿布、啤酒] 3支持度大于2的频繁项集L2频繁项集L2 食物组合 数目[牛奶、面包] 3[牛奶、尿布] 3[面包、尿布] 3[尿布、啤酒] 3候选项集C3食物组合[牛奶、面包、尿布][牛奶、面包、啤酒][牛奶、尿布、啤酒][面包、尿布、啤酒]根据算法,生成候选项集C35.3.2 关联分析4.案例分析根据算法,生成候选项集C3候选项集C3食物组合[牛奶、面包、尿布][牛奶、面包、啤酒][牛奶、尿布、啤酒][面包、尿布、啤酒]候选项集C3 食物组合 数目[牛奶、面包、尿布] 2[牛奶、面包、啤酒] 1[牛奶、尿布、啤酒] 2[面包、尿布、啤酒] 2原始数据集:[面包,牛奶],[面包,尿布,啤酒,鸡蛋][牛奶,尿布,啤酒,可乐][面包,牛奶,尿布,啤酒][面包,牛奶,尿布,可乐]扫描数据库,统计候选项集C3食物组合出现的次数5.3.2 关联分析4.案例分析候选项集C3 食物组合 数目[牛奶、面包、尿布] 2[牛奶、尿布、啤酒] 1[牛奶、尿布、啤酒] 2[面包、尿布、啤酒] 2根据计算和筛选,得到最终的频繁项集最终的频繁项集食物组合[牛奶、面包、尿布]原始数据集:[面包,牛奶],[面包,尿布,啤酒,鸡蛋][牛奶,尿布,啤酒,可乐][面包,牛奶,尿布,啤酒][面包,牛奶,尿布,可乐]5.3.2 关联分析4.案例分析support(支持度)两个商品被同时购买发生的概率confidence(置信度)B商品被购买的情况下,A商品被购买的概率P(A|B) = P(AB)/P(B)例如:同时买牛奶、面包的概率为买了牛奶后,买面包的概率为P(A|B) = P(AB)/P(B)=(3/5) / (4/5)= 3/4原始数据集:[面包,牛奶],[面包,尿布,啤酒,鸡蛋][牛奶,尿布,啤酒,可乐][面包,牛奶,尿布,啤酒][面包,牛奶,尿布,可乐]P(AB)=3/55.3.2 关联分析实践一2.通过修改“程序5-8-1 关联分析(教材范例).py”代码,对采集到的店铺销售订单数据( sale_orders.xls )进行关联分析,寻找商品之间的关联性,观察关联分析结果,以小组为单位,通过学习、交流,探究和实践,填写下表。关联分析程序关键代码 关联分析结果(截图)分析结果商品b和a,商品d和a,商品c和a的支持度和置信度非常高,客户经常一起购买,可以对它们进行捆绑销售。data = pd.read_excel('sale_orders.xls',header = None)print(u'\n转换原始数据至0-1矩阵...')ct = lambda x : pd.Series(1, index = x[pd.notnull(x)]) #转换0-1矩阵的过渡函数b = map(ct, data.as_matrix()) #用map方式执行data = pd.DataFrame(list(b)).fillna(0) #实现矩阵转换,空值用0填充print(u'\n转换完毕。')del b #删除中间变量b,节省内存support = 0.4 #最小支持度confidence = 0.5 #最小置信度ms = '---' #连接符,默认'--',用来区分不同元素,如A--B。需要保证原始表格中不含有该字符find_rule(data, support, confidence, ms).to_excel('关联分析结果.xls') #保存结果5.3.2 关联分析高中信息技术必修1 数据与计算5.3.3 聚类分析&5.3.4数据分类数据分析常用方法特征探索关联分析聚类与分类建立模型模型评价1.概念:是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。2.特点:不需要先给定分类标准能够自动进行分类达到“物以类聚、人以群分”的效果3.常用的算法:k-Means算法中文名:K-平均算法特点:自下而上的聚类分析方法一、聚类分析5.3.3 聚类分析&5.3.4数据分类3.k-Means算法的基本算法及流程图初始化随机选择K个点作为中心聚类点依次计算其余数据点与中心点的距离将数据点分配给最近的中心点计算每个聚集中心的平均值,即为中心点重复步骤②-④, 满足下列条件时,结束聚类。中心点的位置变化小于指定的阈值(默认为 0.0001)达到最大迭代次数得到最大的频繁项集从文件读取数据初始化聚类中心(随机)计算其余数据点与中心点的距离将数据点分配到最近的中心点中心点的位置变化小于指定的阈值开始结束否否是计算每个聚集的平均值,即中心点5.3.3 聚类分析&5.3.4数据分类好友关系聚类从文件读取数据初始化聚类中心(随机)计算其余数据点与中心点的距离将数据点分配到最近的中心点中心点的位置变化小于指定的阈值开始结束否否是计算每个聚集的平均值,即中心点4.案例赏析5.3.3 聚类分析&5.3.4数据分类4.案例赏析:层次关系聚类5.3.3 聚类分析&5.3.4数据分类1.思路:先基于样本数据训练构建分类函数或者分类模型(分类器);然后用分类器将待分类数据进行分类。2.应用:预测(数据分类、回归分析)基于样本数据记录根据分类准则自动对未知数据进行推广描述从而实现对未知数据进行预测3.常用的方法:贝叶斯分类技术事件发生的概率二、数据分类5.3.3 聚类分析&5.3.4数据分类客户 特征A 特征B 特征C重要客户 182.8 81.6 30重要客户 180.4 86.1 29重要客户 170.0 77.1 30重要客户 180.4 74.8 28普通客户 152.4 45.3 24普通客户 167.6 68.0 26普通客户 165.2 58.9 25普通客户 175.2 68.0 27【思考】如下表所示是某网络商城客户购物行为特征的一组统计资料。已知某客户购物行为特征A的数值为182.8,特征B为数值58.9,特征C为数值26,请问这是重要客户还是普通客户?5.3.3 聚类分析&5.3.4数据分类实践二1.通过修改“程序5-6-1 聚类分析(教材范例).py”代码,对采集到的商品销售数据“data_sample.csv”进行聚类分析,观察数据分析结果,以小组为单位,通过学习、交流,探究和实践,填写下表。聚类分析程序关键代码 可视化图形(截图)分析结果 from sklearn.cluster import KMeans#导入商品样本数据fname="data_sample.csv"dataf=pda.read_csv(fname,encoding="gbk")x=dataf.as_matrix()#聚类分析kms=KMeans(n_clusters=3)y=kms.fit_predict(x)print(y)程序按照提供的数据样本,自动将商品分成了三类。5.3.3 聚类分析&5.3.4数据分类实践2、从聚类分析中采集的商品销售数据( data_sample.csv)中抽取部分数据作为样本,构建重要商品和一般商品的分类模型( model.csv ) ;通过修改或优化“程序5-7-1 数据分类(教材范例).py”代码,对特征值A为128.8,特征值B为158,特征值C为4.7的商品进行分类,观察该商品分类结果,以小组为单位,通过学习、交流,探究和实践,填写下表。数据分类程序关键代码(修改范例程序、优化范例程序) 商品分类结果(截图)分析结果 特征值分别为128.8,158,4.9的商品为重要商品,受客户欢迎,评价高,需要重点关注。from sklearn.naive_bayes import GaussianNB#构建分类模型fname=“model.csv”dataf=pda.read_csv(fname,encoding=“gbk”)data=dataf.as_matrix()X=[]Y=[]for values in data:X.append(values[1:4]) #获取第2-4列的特征值Y.append(values[0]) #获取第1列的分类值clf = GaussianNB().fit(X, Y)#对未分类数据分类print(clf.predict([[128.8,158,4.7]]))import numpy as npfrom sklearn.naive_bayes import GaussianNBX = np.array([[105.9,230,4.9],[65.1,710,4.8],[15,276,4.8],[238,79,4.8],[29.9,735,4.7],[12.8,222,4.3],[18,62,4.6],[89,247,4.5],[162,585,4.5],[29,278,4.2]])Y = np.array(['重要商品','重要商品','重要商品’,'重要商品','重要商品','一般商品’,'一般商品','一般商品’,'一般商品','一般商品'])clf = GaussianNB().fit(X, Y)print(clf.predict([[128.8,158,4.7]]))二5.3.3 聚类分析&5.3.4数据分类课堂练习1.某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是( )A.聚类分析 B.分类分析 C.关联分析 D.回归分析2.下列关于聚类分析的说法,错误的是( )A.可以从数据点集合中随机选择K个点作为初始的聚集中心B.对其他的每个数据点,以此判断其与K个中心点的距离,距离最近的表明它属于这项聚类C. 聚类分析,必须先设定分类的标准,否则无法准确分类D.重新计算新的聚簇集合的平均值既中心点CC3.聚类分析的算法有很多,其中最经典的自下而上的聚类分析方法是( )。A.特征探索 B.关联分析 C.K-Means算法 D.数据分类4.K-平均算法属于数据分类方法。( )5.下列( )数据分析方法能达到“物以类聚、人以群分”的效果A.聚类分析 B.数据分类 C.关联分析 D.回归分析6.下列( )数据分析方法需要先基于样本数据构建分类器,然后才能将待分类数据进行分类。A.聚类分析 B.数据分类 C.关联分析 D.回归分析CBAB课堂练习再见 展开更多...... 收起↑ 资源预览