高中信息技术浙教版:3-1 对数据进行挖掘:知识挖掘-教学课件(共28张PPT)

资源下载
  1. 二一教育资源

高中信息技术浙教版:3-1 对数据进行挖掘:知识挖掘-教学课件(共28张PPT)

资源简介

(共28张PPT)
3.1 对数据进行挖掘:知识挖掘
情境导入
学习小组分组:
某位老师计划成立信息学习小组,为了避免组间成绩差异过大,在进行分组时,除了采取抽签的方式,在抽签之前也会对所有学生进行分档。正常情况下,同一档次的学生不会出现在同一个小组,即每个小组的学生会分别来自不同的档次。
若现有19名学生的3次信息考试的排名数据,要将他们分成3档,应该如何完成此项任务?
数据挖掘(DM)
从海量数据中发现隐性模式或隐含知识的计算过程,它主要用来进行知识发现(KDD)。
问题研究:沈奕与哪些同学分为一类?
聚类、关联分析、回归、分类等
数据挖掘
数据预处理
去噪、补全、规整化
数据挖掘
聚类、关联分析、回归、分类等
知识应用
决策和管理
数据预处理
去噪、补全、规整化
表格中的数据存在哪些问题?
数据标准不统一
数据存在错误
数据存在缺失
多维度数据聚类
思考:每个维度取值范围不一样,如何处理?
归一化
数据预处理
去噪、补全、规整化

(73-34)/(164-34)=0.3
思想:物以类聚,人以群分,我们可以把挨得近的数据点聚在一起,形成一个类别。
思考:若将学生分为三类,归类标准是什么?
数据挖掘
聚类、关联分析、回归、分类等
聚类:按照某个特定的标准(如距离)将一个数据集划分为不同的簇,使得同一个簇的数据的相似性尽可能大,不同簇的数据的差异性尽可能大。
数据挖掘
聚类、关联分析、回归、分类等
数据之间的相似度:度量数据之间的距离。
无监督学习
多维度数据聚类
思考:具有三个特征变量的对象,如何计算它们之间的距离?
欧氏距离
数据挖掘
聚类、关联分析、回归、分类等
问题简化
15个数据点,其在二维坐标系中
的位置(x=特征1,y=特征2)
任务1
1. 手动聚类
要求:将坐标系中的15个数据点,按照位置关系圈出2个分组。
距离
任务2
2. 聚类计算
要求:随机取两个点p1和p2,分别计算其余点到两点之间的距离。
p2
p1
p1(7,7) p2(2,3) 接近点
P3 1.41 6.40 P1
p4
6.71
1.41
p2
任务3
3.精调分类
要求:对新的聚类分组求出新的中心点的位置p1’和p2’。
方法
问:重复结束的条件?
如果计算得出的新中心点与原中心点不再变化或者变化很小 , 那么就结束,并可视化输出。
K-means聚类算法
① 随机设置K个点作为初始的聚类中心。
② 对于其他每个点计算到K个中心的距离,将其归属到与其距离最近的一个中心并标记类别。
③ 对标记为一类中所有数据计算他们的平均值,作为新的中心点。
④ 如果计算得出的新中心点与原中心点不再变化或者变化很小 ,那么结束,否则重新执行②③两步。
补充完整 Python 程序,验证用 K-means 聚类算法实现数据聚类的过程。
任务4
math.sqrt((d1[0] - d2[0]) ** 2 + (d1[1] - d2[1]) ** 2)
多维度数据聚类
随机挑选3个点作为初始的聚类中心
数据挖掘
聚类、关联分析、回归、分类等
p1张茜 (0.3,0.71,0.38) p2项捷 (0.21,0.11.0.06) p3李思佳 (1,1,1) 接近点
沈奕
项捷
吴丛丛
叶乐克
张超
许迎迎
章彬彬
王欢乐
郑博
... ... ... ... ...
叶子萱
0.73
0.22
1.48
项捷
欧式距离公式:
学生类别 0 : ['张茜', '张超', '许迎迎', '章彬彬', '王欢乐', '苏蓉', '夏浩', '金雨', '许多']
学生类别 1 : ['沈奕', '项捷', '吴丛丛', '叶乐克', '王倩']
学生类别 2 : ['郑博', '黄海', '陈佳佳', '李思佳', '叶子萱']
分档结果
K-means聚类特点
你觉得聚类算法可以为我们提供哪些帮助?
算法原理简单
算法可解释性强
在大型数据集上可以快速高效并行处理
需要提前知道K值(K值不好把握),初始点的选取会影响聚类结果
动植物分类和基因分类
商品个性化推荐
其他无监督学习
1.关联规则(Apriori 算法)
还记得 “啤酒与尿布”这个故事吗?还记得必修一项目与挑战:“为超市寻找关联次数最多的商品”中超市流水账数据吗?
频繁子集挖掘
例如,某商店整理了一天内4名不同顾客购买的商品数据,如表3.1.2所示,希望通过频繁子集挖掘找到商品之间的相关性信息。
通过不断扩大项集的大小来寻找频繁子集以学习关联规则。
Apriori
1
最小支持度计数阈值为2
1-项集 项集频率
{咖啡} 2
{面包} 3
{牛奶} 3
{水果} 1
{果酱} 3
1-项集 项集频率
{咖啡} 2
{面包} 3
{牛奶} 3
{果酱} 3
2-项集 项集频率
{咖啡,面包} 1
{咖啡,牛奶} 2
{咖啡,果酱} 1
{面包,牛奶} 2
{面包,果酱} 3
{牛奶,果酱} 2
2
2-项集 项集频率
{咖啡,面包} 1
{咖啡,牛奶} 2
{咖啡,果酱} 1
{面包,牛奶} 2
{面包,果酱} 3
{牛奶,果酱} 2
Apriori算法对商店购物信息分析——2-项集到3-项集
3-项集 项集频率
{面包、牛奶、果酱} 2
2-项集 项集频率
{咖啡,牛奶} 2
{面包,牛奶} 2
{面包,果酱} 3
{牛奶,果酱} 2
3-项集
{咖啡、牛奶、果酱}
{咖啡、面包、牛奶}
{面包、牛奶、果酱}
感谢观看

展开更多......

收起↑

资源预览