资源简介 (共46张PPT)中物理第五章 数据处理和可视化表达粤教版(2019) 信息技术(高中)5.3 数据的分析(必修一)1课堂导入通过前面两节课的学习,我们了解了数据,知道了数据的采集与保护,那么我们获取的数据可以直接拿过来用吗 1学习目标1、知道数据预处理及分析。2、了解多种数据分析技术。3、了解什么是直方图。4、体验运行xampp,启动本地web服务和数据库服务。数据分析是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。数据分析一数据分析数据分析一数据分析数据分析一数据分析数据分析聚类分析关联分析特征探索数据分析数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值,异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。特征探索二特征探索数据质量探索数据特征分析特征探索的主要任务直方图是一种统计报告图,是数值数据分布的精确图形表示,是一个连续变量(定量变量)的概率分布的估计。直方图二特征探索1、体验运行xampp,启动本地web服务和数据库服务。2、运行“程序5-3数据预处理.ipynb”,结果如下图所示,体验数据预处理过程。活动探究一二特征探索运行xampp,启动本地web服务和数据库服务。活动探究一二特征探索运行jupyter,找到相对应的程序目录活动探究一二特征探索在jupyter中,打开对应的程序文件活动探究一二特征探索在jupyter中,显示对应的程序结果活动探究一二特征探索在jupyter中,显示对应的程序结果活动探究一二特征探索从销售订单中找出值得推荐的商品组合进行捆绑促销。三关联分析活动探究二三关联分析项目分析分析问题设计算法编写程序运行调试得出结论衡量标准?计算方法?关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述—个事物中某些属性同时出现的规律和模式。关联分析三关联分析关联分析的基本算法三关联分析扫描历史数据,并对每项数据进行频率次数统计对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或者最大频繁项集关联分析的算法步骤构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。对侯选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,从而形成频繁项集L1全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。关联分析典型案例三关联分析项集:包含一个或多个商品的组合。写作:A→B A是前项,B是后项。关联分析典型案例——寻找衡量标准三关联分析support(支持度)∶某商品(或组合)在所有订单中出现的概率。Support(面包→牛奶)=(面包+牛奶)/记录总数=4/10支持度越高,说明同时购买组合商品的顾客基数越大,越有研究的实际价值。三关联分析关联分析典型案例——寻找衡量标准Confidence(置信度)∶在所有包含A的订单中出现B商品的概率。Confidence(面包→牛奶)=(面包+牛奶)/面包=4/6置信度越高,说明买A的人买B的概率越大。三关联分析关联分析典型案例——寻找衡量标准Lift(提升度)︰销售A商品对B商品带来的提升率。Lift(面包→牛奶)=(面包+牛奶)/有牛奶无面包=4/2提升度>1,说明A和B有正关联。提升度=1,说明A和B无显著关联。提升度<1,说明A和B有负关联。显然,只有提升度>1才有实际意义,提升度越大,关联程度越高。三关联分析关联分析典型案例——寻找衡量标准频繁项集:支持度大于或等于某个阈值的项集。强关联规则∶大于或等于最小支持度阈信和最小置信度阈值的规则叫做强关联规则。关联分析的最终目标就是要找出强关联规则。三关联分析关联分析典型案例——寻找衡量标准在所有的销售记录中,找出所有的强关联规则。三关联分析关联分析典型案例——计算方法找出频繁项集(即商品组合)︰按照“Support(支持度)≥最小支持度”的标准筛选满足最小支持度的频繁项集。找出强关联规则:按照“Confidence(置信度)≥最小置信度”的标准筛选满足最小置信度的强关联规则。三关联分析关联分析典型案例——计算方法编译工具:Anaconda的Jupyter Notebook安装包:mlxtend三关联分析关联分析典型案例——代码展示三关联分析关联分析典型案例——代码展示三关联分析关联分析典型案例——代码展示三关联分析关联分析典型案例——代码展示请观察下方两张图,图中数据点的分布有什么特征?观察思考四聚类分析请观察下方两张图,图中数据点的分布有什么特征?观察思考四聚类分析请观察下方两张图,图中数据点的分布有什么特征?观察思考四聚类分析数据点分成多个类,每一类的点聚集在一起。请观察下方两张图,图中数据点的分布有什么特征?观察思考四聚类分析数据点分成多个类,每一类的点聚集在一起。将物理或抽象对象的集合分成多个类的过程被称为聚类。聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类分析四聚类分析聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析算法四聚类分析层次聚类密度聚类K均值K-均值算法的基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为中心点,再不断更新中心点,以达到“物以类聚,人以群分”的效果。聚类分析——K均值四聚类分析聚类分析——K均值算法步骤四聚类分析随机选取K个点作为质心。计算每个点到K个质心的距离,分成K个簇。计算K个簇样本的平均值作为新的质心。循环第2、3步。位置不变或者达到迭代次数,聚类完成。聚类分析——K均值算法步骤四聚类分析随机选取K个点作为质心。计算每个点到K个质心的距离,分成K个簇。计算K个簇样本的平均值作为新的质心。循环第2、3步。位置不变或者达到迭代次数,聚类完成。scikit-learn (以前称为scikits.learn,也称为sklearn)是针对Python编程语言的免费软件机器学习库。它具有各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升,还有KK均值(K-Means )等。scikit-learn四聚类分析如下表所示是某网络商城客户购物行为特征的一组统计资料。已知某客户购物行为特征A的数值为182.8,特征B为数值58.9,特征C为数值26,请问这是重要客户还是普通客户 五数据分类活动探究三五数据分类活动探究三结果为0,表示此人为普通客户。数据分类是数据分析处理最基本的方法,可用于预测。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。数据分类五数据分类在概率统计论中,条件概率是指事件A在另外一个事件B已经发生条件下的发生概率,表示为P(A|B),读作“在B条件下A的概率”。贝叶斯定理五数据分类贝叶斯定理——案例讲解五数据分类计算C(x, y)属于红色一类的概率P1(x,y)。计算C(x, y)属于蓝色一类的概率P2(x,y)。选择概率高的一类作为新点C(x,y)的分类。THANKS“” 展开更多...... 收起↑ 资源预览