资源简介 (共28张PPT)3.1 对数据进行挖掘:知识挖掘情境导入学习小组分组:某位老师计划成立信息学习小组,为了避免组间成绩差异过大,在进行分组时,除了采取抽签的方式,在抽签之前也会对所有学生进行分档。正常情况下,同一档次的学生不会出现在同一个小组,即每个小组的学生会分别来自不同的档次。若现有19名学生的3次信息考试的排名数据,要将他们分成3档,应该如何完成此项任务?数据挖掘(DM)从海量数据中发现隐性模式或隐含知识的计算过程,它主要用来进行知识发现(KDD)。问题研究:沈奕与哪些同学分为一类?聚类、关联分析、回归、分类等数据挖掘数据预处理去噪、补全、规整化数据挖掘聚类、关联分析、回归、分类等知识应用决策和管理数据预处理去噪、补全、规整化表格中的数据存在哪些问题?数据标准不统一数据存在错误数据存在缺失多维度数据聚类思考:每个维度取值范围不一样,如何处理?归一化数据预处理去噪、补全、规整化’(73-34)/(164-34)=0.3思想:物以类聚,人以群分,我们可以把挨得近的数据点聚在一起,形成一个类别。思考:若将学生分为三类,归类标准是什么?数据挖掘聚类、关联分析、回归、分类等聚类:按照某个特定的标准(如距离)将一个数据集划分为不同的簇,使得同一个簇的数据的相似性尽可能大,不同簇的数据的差异性尽可能大。数据挖掘聚类、关联分析、回归、分类等数据之间的相似度:度量数据之间的距离。无监督学习多维度数据聚类思考:具有三个特征变量的对象,如何计算它们之间的距离?欧氏距离数据挖掘聚类、关联分析、回归、分类等问题简化15个数据点,其在二维坐标系中的位置(x=特征1,y=特征2)任务11. 手动聚类要求:将坐标系中的15个数据点,按照位置关系圈出2个分组。距离任务22. 聚类计算要求:随机取两个点p1和p2,分别计算其余点到两点之间的距离。p2p1p1(7,7) p2(2,3) 接近点P3 1.41 6.40 P1p46.711.41p2任务33.精调分类要求:对新的聚类分组求出新的中心点的位置p1’和p2’。方法问:重复结束的条件?如果计算得出的新中心点与原中心点不再变化或者变化很小 , 那么就结束,并可视化输出。K-means聚类算法① 随机设置K个点作为初始的聚类中心。② 对于其他每个点计算到K个中心的距离,将其归属到与其距离最近的一个中心并标记类别。③ 对标记为一类中所有数据计算他们的平均值,作为新的中心点。④ 如果计算得出的新中心点与原中心点不再变化或者变化很小 ,那么结束,否则重新执行②③两步。补充完整 Python 程序,验证用 K-means 聚类算法实现数据聚类的过程。任务4math.sqrt((d1[0] - d2[0]) ** 2 + (d1[1] - d2[1]) ** 2)多维度数据聚类随机挑选3个点作为初始的聚类中心数据挖掘聚类、关联分析、回归、分类等p1张茜 (0.3,0.71,0.38) p2项捷 (0.21,0.11.0.06) p3李思佳 (1,1,1) 接近点沈奕项捷吴丛丛叶乐克张超许迎迎章彬彬王欢乐郑博... ... ... ... ...叶子萱0.730.221.48项捷欧式距离公式:学生类别 0 : ['张茜', '张超', '许迎迎', '章彬彬', '王欢乐', '苏蓉', '夏浩', '金雨', '许多']学生类别 1 : ['沈奕', '项捷', '吴丛丛', '叶乐克', '王倩']学生类别 2 : ['郑博', '黄海', '陈佳佳', '李思佳', '叶子萱']分档结果K-means聚类特点你觉得聚类算法可以为我们提供哪些帮助?算法原理简单算法可解释性强在大型数据集上可以快速高效并行处理需要提前知道K值(K值不好把握),初始点的选取会影响聚类结果动植物分类和基因分类商品个性化推荐其他无监督学习1.关联规则(Apriori 算法)还记得 “啤酒与尿布”这个故事吗?还记得必修一项目与挑战:“为超市寻找关联次数最多的商品”中超市流水账数据吗?频繁子集挖掘例如,某商店整理了一天内4名不同顾客购买的商品数据,如表3.1.2所示,希望通过频繁子集挖掘找到商品之间的相关性信息。通过不断扩大项集的大小来寻找频繁子集以学习关联规则。Apriori1最小支持度计数阈值为21-项集 项集频率{咖啡} 2{面包} 3{牛奶} 3{水果} 1{果酱} 31-项集 项集频率{咖啡} 2{面包} 3{牛奶} 3{果酱} 32-项集 项集频率{咖啡,面包} 1{咖啡,牛奶} 2{咖啡,果酱} 1{面包,牛奶} 2{面包,果酱} 3{牛奶,果酱} 222-项集 项集频率{咖啡,面包} 1{咖啡,牛奶} 2{咖啡,果酱} 1{面包,牛奶} 2{面包,果酱} 3{牛奶,果酱} 2Apriori算法对商店购物信息分析——2-项集到3-项集3-项集 项集频率{面包、牛奶、果酱} 22-项集 项集频率{咖啡,牛奶} 2{面包,牛奶} 2{面包,果酱} 3{牛奶,果酱} 23-项集{咖啡、牛奶、果酱}{咖啡、面包、牛奶}{面包、牛奶、果酱}感谢观看 展开更多...... 收起↑ 资源预览