5.3 数据的分析 课件 2022-2023学年粤教版(2019)高中信息技术必修1(48张PPT)

资源下载
  1. 二一教育资源

5.3 数据的分析 课件 2022-2023学年粤教版(2019)高中信息技术必修1(48张PPT)

资源简介

(共48张PPT)
BIG DATA
5.3 数据的分析
第五章
SHU · JU · DE · CAI · JI

授课人:XXX
知识回顾
新授
处理数据的一般过程:
数据采集
数据分析
数据可视化表达
新授
处理数据的一般过程:
数据采集
数据分析
数据可视化表达
特征探索
关联分析
聚类分析
数据分类
运用数字化工具和技术
探索数据内在的结构和规律
诊断过去、预测未来
什么是数据分析
数据分析:数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
什么是数据分析
数据分析:数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
运用数字化工具和技术
探索数据内在的结构和规律
诊断过去、预测未来
ONE
特征探索
01
对数据进行预处理
发现和处理缺失值、异常数据
特征探索
数据特征探索:主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
特征探索
数据特征探索:主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
对数据进行预处理
发现和处理缺失值、异常数据
补全
特征探索
学号 体温(℃)
001 36.9
002
003 37.3
004 47.6
005 37.2
缺失
异常
请观察表格,其中的数据存在哪些问题?需要做哪些处理?
修正
特征探索
学号 体温(℃)
001 36.9
002
003 37.3
004 47.6
005 37.2
缺失
异常
请观察表格,其中的数据存在哪些问题?需要做哪些处理?
补全
特征探索
学号 体温(℃)
001 36.9
002
003 37.3
004 47.6
005 37.2
缺失
异常
请观察表格,其中的数据存在哪些问题?需要做哪些处理?
补全
修正
特征探索
学号 体温(℃)
001 36.9
002
003 37.3
004
005 37.2
请观察表格,其中的数据存在哪些问题?需要做哪些处理?
37.1
37.1
取平均值
特征探索
散点图
发现异常值
观察数据的分布情况
特征探索
直方图
观察数据的分布特征
特征探索
特征探索的步骤:
数据清洗
绘制散点图
计算数据分布特征
绘制直方图
处理缺失值
处理异常值
TWO
关联分析
02
发现数据之间的关联性
同时出现的规律
关联分析
关联分析:就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
关联分析
关联分析:就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
发现数据之间的关联性
事物同时出现的规律
对数据进行预处理
发现和处理缺失值、异常数据
关联分析
典型应用:购物篮分析
指导
商品摆放
01
制定
促销策略
02
寻找
潜在用户
03
对数据进行预处理
发现和处理缺失值、异常数据
关联分析
例:尿布与啤酒
对数据进行预处理
发现和处理缺失值、异常数据
关联分析
如何进行关联分析?
序号 商品
1 可乐,鸡蛋,火腿
2 可乐,尿布,啤酒
3 可乐,尿布,啤酒,火腿
4 尿布,啤酒
对数据进行预处理
发现和处理缺失值、异常数据
关联分析
步骤一:扫描数据,建立项集,统计频率次数
序号 商品
1 可乐,鸡蛋,火腿
2 可乐,尿布,啤酒
3 可乐,尿布,啤酒,火腿
4 尿布,啤酒
C1项集 出现
频率次数
[可乐]
[鸡蛋]
[火腿]
[尿布]
[啤酒]
3
1
2
3
3
关联分析
步骤二:计算各个集合的支持度
序号 商品
1 可乐,鸡蛋,火腿
2 可乐,尿布,啤酒
3 可乐,尿布,啤酒,火腿
4 尿布,啤酒
C1项集 出现 频率次数 支持度
[可乐] 3
[鸡蛋] 1
[火腿] 2
[尿布] 3
[啤酒] 3
支持度=
3/4=0.75
1/4=0.25
2/4=0.5
3/4=0.75
3/4=0.75
关联分析
步骤三:设置最小支持度=0.4,筛选出支持度不小于最小支持度的数据项,形成频繁项集L1
C1项集 出现 频率次数 支持度
[可乐] 3 0.75
[鸡蛋] 1 0.25
[火腿] 2 0.5
[尿布] 3 0.75
[啤酒] 3 0.75
频繁项集L1
[可乐]
[火腿]
[尿布]
[啤酒]
关联分析
步骤四:将L1中的数据两两拼接,先形成候选项集C2,再形成频繁项集L2
频繁项集L1
[可乐]
[火腿]
[尿布]
[啤酒]
候选项集C2 支持度
[可乐,火腿] 2/4=0.5
[可乐,尿布] 2/4=0.5
[可乐,啤酒] 2/4=0.5
[火腿,尿布] 1/4=0.25
[火腿,啤酒] 1/4=0.25
[尿布,啤酒] 3/4=0.75
频繁项集L2
[可乐,火腿]
[可乐,尿布]
[可乐,啤酒]
[尿布,啤酒]
关联分析
步骤五:重复前面的步骤,继续将数据进行拼接,直到形成最终频繁项集
频繁项集L2
[可乐,火腿]
[可乐,尿布]
[可乐,啤酒]
[尿布,啤酒]
候选项集C3 支持度
[可乐,火腿,尿布] 1/4=0.25
[可乐,火腿,啤酒] 1/4=0.25
[可乐,尿布,啤酒] 2/4=0.5
频繁项集L3
[可乐,尿布,啤酒]
关联分析
主要步骤:
1.扫描数据,建立项集,统计频率次数
2.计算各个集合的支持度
3.设置最小支持度=0.4,筛选出支持度不小于最小支持度的数据项,形成频繁项集L1
4.将L1中的数据两两拼接,先形成候选项集C2,再形成频繁项集L2
5.重复前面的步骤,继续将数据进行拼接,直到形成最终频繁项集
6.计算最终频繁项集中所含物品之间的置信度,过滤掉小于最小置信度的项集
7.根据步骤6的结果生成关联规则
THREE
聚类分析
03
聚类分析
聚类:利用事物(样本)之间的相似性,将相似的事物(样本)划分为一簇(组)。
距离相似性
角度相似性
聚类分析
聚类分析:是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
不必事先给出一个分类的标准
聚类分析
聚类分析:是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
不必事先给出一个分类的标准
聚类分析
经典聚类分析方法:K-平均算法(K-means算法)
问题:
1.怎样选择初始的K个中心点?
2.怎么判断其余的数据点属于哪一类
聚类分析
观看视频,了解K-平均算法(K-means算法)
聚类分析
问题:
1.怎样选择初始的K个中心点?
2.怎么判断其余的数据点属于哪一类
随机选择
依次判断数据点与K个中心点的距离, 选择离得最近的中心点作为同类
聚类分析
聚类分析的基本算法
聚类分析
聚类分析的基本算法:
1.从数据点集合中随机选择K个点作为初始的聚集中心 。
2.对其余的每个数据点,依次判断其与K个中心点的距离, 距离最近的表明它属于这项聚类。
3.重新计算新的聚族集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的造代次数或中心点不再顿繁波动。
FOUR
数据分类
04
要先训练构建分类函数或者分类模型
数据分类
数据分类:数据分析处理中最基本的方法。
数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。
数据分类
数据分类:数据分析处理中最基本的方法。
数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。
要先训练构建分类函数或者分类模型
课堂小结
课堂练习
1.大数据( )能从规模巨大的数据中,分析并提取出有潜在价值的信息。
A.采集技术 B.分析与挖掘技术
C.预处理技术 D.可视化与应用技术
B.分析与挖掘技术
B
课堂练习
2.对疫情数据分析之前,一般要先对数据进行预处理,以下不属于预处理的是( )。
A.补全缺失数据 B.处理异常数据
C.校正错误数据 D.处理数据关系
D.处理数据关系
D
课堂练习
3.某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是( )
A.聚类分析 B.分类分析
C.关联分析 D. 回归分析
C.关联分析
C
课堂练习
4. K-平均算法是一种经典的( )算法。
A.关联分析 B.数据分类
C.聚类分析 D.数据可视化
C.聚类分析
C
课堂练习
5. 数据聚类分析的主要任务是( )
A.对数据进行预处理,发现和处理缺失值,是常数据、绘制直方图,观察数据分布的特征,求最大值,最小值、极差等描述性统计量
B.分析发现存在于大量数据之间的关联性和相关性,从而描述一个事物的共同规律和模式。
C.是一种探索性的分析。不必事先给出一个分类标准,而是让其自动分类。
D.是数据分析中最基本的方法,先基于样本数据构建分类器,然后进行预测。
C.是一种探索性的分析。不必事先给出一个分类标准,而是让其自动分类。
C
BIG DATA
那就下次再聊吧~
第五章
授课人:XXX

展开更多......

收起↑

资源列表