资源简介 (共48张PPT)BIG DATA5.3 数据的分析第五章SHU · JU · DE · CAI · JI”授课人:XXX知识回顾新授处理数据的一般过程:数据采集数据分析数据可视化表达新授处理数据的一般过程:数据采集数据分析数据可视化表达特征探索关联分析聚类分析数据分类运用数字化工具和技术探索数据内在的结构和规律诊断过去、预测未来什么是数据分析数据分析:数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。什么是数据分析数据分析:数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。运用数字化工具和技术探索数据内在的结构和规律诊断过去、预测未来ONE特征探索01对数据进行预处理发现和处理缺失值、异常数据特征探索数据特征探索:主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。特征探索数据特征探索:主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。对数据进行预处理发现和处理缺失值、异常数据补全特征探索学号 体温(℃)001 36.9002003 37.3004 47.6005 37.2缺失异常请观察表格,其中的数据存在哪些问题?需要做哪些处理?修正特征探索学号 体温(℃)001 36.9002003 37.3004 47.6005 37.2缺失异常请观察表格,其中的数据存在哪些问题?需要做哪些处理?补全特征探索学号 体温(℃)001 36.9002003 37.3004 47.6005 37.2缺失异常请观察表格,其中的数据存在哪些问题?需要做哪些处理?补全修正特征探索学号 体温(℃)001 36.9002003 37.3004005 37.2请观察表格,其中的数据存在哪些问题?需要做哪些处理?37.137.1取平均值特征探索散点图发现异常值观察数据的分布情况特征探索直方图观察数据的分布特征特征探索特征探索的步骤:数据清洗绘制散点图计算数据分布特征绘制直方图处理缺失值处理异常值TWO关联分析02发现数据之间的关联性同时出现的规律关联分析关联分析:就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。关联分析关联分析:就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。发现数据之间的关联性事物同时出现的规律对数据进行预处理发现和处理缺失值、异常数据关联分析典型应用:购物篮分析指导商品摆放01制定促销策略02寻找潜在用户03对数据进行预处理发现和处理缺失值、异常数据关联分析例:尿布与啤酒对数据进行预处理发现和处理缺失值、异常数据关联分析如何进行关联分析?序号 商品1 可乐,鸡蛋,火腿2 可乐,尿布,啤酒3 可乐,尿布,啤酒,火腿4 尿布,啤酒对数据进行预处理发现和处理缺失值、异常数据关联分析步骤一:扫描数据,建立项集,统计频率次数序号 商品1 可乐,鸡蛋,火腿2 可乐,尿布,啤酒3 可乐,尿布,啤酒,火腿4 尿布,啤酒C1项集 出现频率次数[可乐][鸡蛋][火腿][尿布][啤酒]31233关联分析步骤二:计算各个集合的支持度序号 商品1 可乐,鸡蛋,火腿2 可乐,尿布,啤酒3 可乐,尿布,啤酒,火腿4 尿布,啤酒C1项集 出现 频率次数 支持度[可乐] 3[鸡蛋] 1[火腿] 2[尿布] 3[啤酒] 3支持度=3/4=0.751/4=0.252/4=0.53/4=0.753/4=0.75关联分析步骤三:设置最小支持度=0.4,筛选出支持度不小于最小支持度的数据项,形成频繁项集L1C1项集 出现 频率次数 支持度[可乐] 3 0.75[鸡蛋] 1 0.25[火腿] 2 0.5[尿布] 3 0.75[啤酒] 3 0.75频繁项集L1[可乐][火腿][尿布][啤酒]关联分析步骤四:将L1中的数据两两拼接,先形成候选项集C2,再形成频繁项集L2频繁项集L1[可乐][火腿][尿布][啤酒]候选项集C2 支持度[可乐,火腿] 2/4=0.5[可乐,尿布] 2/4=0.5[可乐,啤酒] 2/4=0.5[火腿,尿布] 1/4=0.25[火腿,啤酒] 1/4=0.25[尿布,啤酒] 3/4=0.75频繁项集L2[可乐,火腿][可乐,尿布][可乐,啤酒][尿布,啤酒]关联分析步骤五:重复前面的步骤,继续将数据进行拼接,直到形成最终频繁项集频繁项集L2[可乐,火腿][可乐,尿布][可乐,啤酒][尿布,啤酒]候选项集C3 支持度[可乐,火腿,尿布] 1/4=0.25[可乐,火腿,啤酒] 1/4=0.25[可乐,尿布,啤酒] 2/4=0.5频繁项集L3[可乐,尿布,啤酒]关联分析主要步骤:1.扫描数据,建立项集,统计频率次数2.计算各个集合的支持度3.设置最小支持度=0.4,筛选出支持度不小于最小支持度的数据项,形成频繁项集L14.将L1中的数据两两拼接,先形成候选项集C2,再形成频繁项集L25.重复前面的步骤,继续将数据进行拼接,直到形成最终频繁项集6.计算最终频繁项集中所含物品之间的置信度,过滤掉小于最小置信度的项集7.根据步骤6的结果生成关联规则THREE聚类分析03聚类分析聚类:利用事物(样本)之间的相似性,将相似的事物(样本)划分为一簇(组)。距离相似性角度相似性聚类分析聚类分析:是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。不必事先给出一个分类的标准聚类分析聚类分析:是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。不必事先给出一个分类的标准聚类分析经典聚类分析方法:K-平均算法(K-means算法)问题:1.怎样选择初始的K个中心点?2.怎么判断其余的数据点属于哪一类 聚类分析观看视频,了解K-平均算法(K-means算法)聚类分析问题:1.怎样选择初始的K个中心点?2.怎么判断其余的数据点属于哪一类 随机选择依次判断数据点与K个中心点的距离, 选择离得最近的中心点作为同类聚类分析聚类分析的基本算法聚类分析聚类分析的基本算法:1.从数据点集合中随机选择K个点作为初始的聚集中心 。2.对其余的每个数据点,依次判断其与K个中心点的距离, 距离最近的表明它属于这项聚类。3.重新计算新的聚族集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的造代次数或中心点不再顿繁波动。FOUR数据分类04要先训练构建分类函数或者分类模型数据分类数据分类:数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。数据分类数据分类:数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。要先训练构建分类函数或者分类模型课堂小结课堂练习1.大数据( )能从规模巨大的数据中,分析并提取出有潜在价值的信息。A.采集技术 B.分析与挖掘技术C.预处理技术 D.可视化与应用技术B.分析与挖掘技术B课堂练习2.对疫情数据分析之前,一般要先对数据进行预处理,以下不属于预处理的是( )。A.补全缺失数据 B.处理异常数据C.校正错误数据 D.处理数据关系D.处理数据关系D课堂练习3.某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是( )A.聚类分析 B.分类分析C.关联分析 D. 回归分析C.关联分析C课堂练习4. K-平均算法是一种经典的( )算法。A.关联分析 B.数据分类C.聚类分析 D.数据可视化C.聚类分析C课堂练习5. 数据聚类分析的主要任务是( )A.对数据进行预处理,发现和处理缺失值,是常数据、绘制直方图,观察数据分布的特征,求最大值,最小值、极差等描述性统计量B.分析发现存在于大量数据之间的关联性和相关性,从而描述一个事物的共同规律和模式。C.是一种探索性的分析。不必事先给出一个分类标准,而是让其自动分类。D.是数据分析中最基本的方法,先基于样本数据构建分类器,然后进行预测。C.是一种探索性的分析。不必事先给出一个分类标准,而是让其自动分类。CBIG DATA那就下次再聊吧~第五章授课人:XXX 展开更多...... 收起↑ 资源列表 5.3 数据的分析1.0.pptx KMeans聚类原理 动画演示 - .mp4 什么是 K-Means(K均值聚类)?.mp4