5.3 数据的分析 课件(共52张PPT) 2023—2024学年粤教版(2019)高中信息技术必修1

资源下载
  1. 二一教育资源

5.3 数据的分析 课件(共52张PPT) 2023—2024学年粤教版(2019)高中信息技术必修1

资源简介

5.3 数据的分析
1
5.3 数据的分析


采集到的数据,没有分析处理,能直接使用?
2
5.3 数据的分析
数 据 分 析
4
5.3 数据的分析


①分组:4—6位同学组成一个学习小组;
②通过查找资料、学习和交流,填写下表。
①在一大批杂乱无章的数据中,运用数字化的工具和技术,探索数
据内在的结构和规律,构建数据模型,并进行可视化表达;
②通过验证将模型转化为知识,为诊断过去,预测未来发挥作用。







①特征探索 ②关联分析 ③聚类分析
④数据分类 ⑤建立模型和模型评价。




的 常 用 方 法
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3 数据的分析
1
特征探索
2
关联分析
CONTENT
3
目录 >>
聚类分析
4
数据分类
6
5.3 数据的分析
请各学习小组选择下面一个参考主题,或者自拟一个感兴趣的数据分析方法,开展项目学习。
①特征探索
②关联分析
③聚类分析
④数据分类
请各学习小组根据项目选题,利用老师下发的《5.3 数据分析》导学案 和《5.3 项目学习
活动记录表》,制定相应的项目活动方案。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3 数据的分析
各学习小组根据项目选题及拟定的项目方案,结合探究的知识,完成相应的数据分析。
1.采用适当的方法完成相应项目选题的数据分析工作。
2.探究数据分析的方法和步骤,填写《5.3 项目活动记录表》 。
师生共同回顾项目活动的整个过程,总结和归纳本节课的知识,学习小组完善《5.3 项目
活动记录表》。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3 数据的分析
1
特 征 探 索
9
5.3.1 特征探索


1. 观看微课视频“特征探索程序介绍”;
2. 打开运行配套学习资源包”第五章\课本素材\程序5-3数据预处理”,观
察、分析数据预处理结果;
3. 总结、归纳特征探索的主要任务。填写《5.3 项目学习活动记录表》
“活动2”的内容。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.1 特征探索


(1)数据清洗,发现缺失值。如果销量为0的,修改为64。
x=0
data
["price"][(data["price"]==0)]=None
For i in data.columns:
? for j in range(len(data)):
?? if(data[i].isnull())[j]: # 如果为空即插入

??? data[i][j]="64“
x+=1
# 空值插入64
print(x)
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.1 特征探索

(2)异常值处理中,利用画散点图发现异常值部分,找到异常值。
data2=data.T
price=data2.values[2]
comt=data2.values[3]
plt.xlabel('price') # 显示X坐标标

plt.ylabel('paynum') # 显示Y坐
标标签
pyl.plot(price,comt,"o")
pyl.show( )
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.1 特征探索


(3)求最大值和最小值。
pricemax=da2[2].max(?)
pricemin=da2[2].min(?)
commentmax=da2[3].max(?
)
commentmin=da2[3].min(?
)
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.1 特征探索

(4)求极差
pricerg=pricemax—pricemin
commentrg=commentmax—
commentmin
(5)求组距
pricedst=pricerg/13
commentdst=commentrg/13
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.1 特征探索

(6)绘制价格直方图。
pricesty=npy.arange(pricemin,pricemax,
pricedst)
pyl.hist(da2[2],pricesty)
pyl.show(?)
分析结果:价格在10-30块之间的商品种类最多,此价位的商品竞争最激烈。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.1 特征探索

(7)绘制销量数直方图。
paynumsty=npy.arange(paynummin,paynummax+1,
paynumdst)
plt.xlabel('paynum')
plt.ylabel('number')
# 显示X坐标标签
# 显示Y坐标标签
pyl.hist(da2[3],paynumsty)
pyl.show()
分析结果:销量在10以下的商品种类最多,大部分商品销量一般。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.1 特征探索

特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,
绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差、组距
等描述性统计量。

.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3 数据的分析
2
关 联 分 析
18

5.3.2 关联分析

商品关联 —— 顾客购买习惯 —— 商家制定销售策略
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.2 关联分析


1. 观看微课视频“关联分析程序介绍”;
2. 查找资料、讨论和交流计算机如何对数据进行关联分析;
3. 总结、归纳关联分析的方法和基本算法。填写《5.3 项目学习活动记录表》“活动3”的
内容。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.2 关联分析

计算机如何对数据进行关联分析
?
序 号
1
商 品
可乐,大米,牙膏
2
3
4
可乐,猪肉,啤酒
可乐,猪肉,啤酒,牙膏
猪肉,啤酒
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.2 关联分析

关联分析
步骤一:扫描数据,建立项集。
C1项集
序号
商品
[可乐]
[大米]
[牙膏]
[猪肉]
[啤酒]
1
可乐,大米,牙膏
可乐,猪肉,啤酒
2
3
4
可乐,猪肉,啤酒,牙膏
猪肉,啤酒
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.2 关联分析

关联分析
步骤二:计算每项数据的支持度,即数据出现频率次数/总数
C1项集
[可乐]
[大米]
支持度
序号
商品
3/4=0.75
1/4=0.25
1
可乐,大米,牙膏
2
3
4
可乐,猪肉,啤酒
可乐,猪肉,啤酒,牙膏
猪肉,啤酒
[牙膏]
2/4=0.50
[猪肉]
[啤酒]
3/4=0.75
3/4=0.75
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.2 关联分析


关联分析
步骤三:对项集的支持度进行筛选,设置最小支持度=0.4
C1项集
[可乐]
[大米]
支持度
L1项集
[可乐]
[牙膏]
3/4=0.75
1/4=0.25
[牙膏]
2/4=0.50
[猪肉]
[啤酒]
[猪肉]
[啤酒]
3/4=0.75
3/4=0.75
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.2 关联分析

步骤四:将L1中的数据两两拼接,得C2。
C2项集
支持度
C1项集 支持度
[可乐,牙膏] 2/4=0.50
[可乐,猪肉] 2/4=0.50
[可乐,啤酒] 2/4=0.50
[牙膏,猪肉] 1/4=0.25
[牙膏,啤酒] 1/4=0.25
[猪肉,啤酒] 3/4=0.75
[可乐] 3/4=0.75
[大米] 1/4=0.25
[牙膏] 2/4=0.50
[猪肉] 3/4=0.75
[啤酒] 3/4=0.75
频 繁 项 集 L1
频 繁 项 集 L2
[可 乐]
[ 牙膏 ]
[猪肉]
[啤酒]
[可乐,牙膏]
[可乐,猪肉]
[可乐,啤酒]
[猪肉,啤酒]
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.2 关联分析

步骤五:将L2中的数据两两拼接,得C3。
C2项集
支持度
C1项集 支持度
[可乐,牙膏] 2/4=0.50
[可乐,猪肉] 2/4=0.50
[可乐,啤酒] 2/4=0.50
[牙膏,猪肉] 1/4=0.25
[牙膏,啤酒] 1/4=0.25
[猪肉,啤酒] 3/4=0.75
[可乐] 3/4=0.75
[大米] 1/4=0.25
[牙膏] 2/4=0.50
[猪肉] 3/4=0.75
[啤酒] 3/4=0.75
C3项集
支持度
[可乐,牙膏,猪肉] 1/4=0.25
[可乐,牙膏,啤酒] 1/4=0.25
[可乐,猪肉,啤酒] 2/4=0.50
频 繁 项 集 L1
频 繁 项 集 L2
频 繁 项 集 L3
[可 乐]
[ 牙膏 ]
[猪肉]
[ 可乐,牙膏]
[可乐,猪肉]
[可乐,啤酒]
[猪肉,啤酒]
[可乐,猪肉,啤酒

…… Lk
[啤酒]
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.2 关联分析

关联分析 就是分析并发现存在于大量数据之间的关联性或相关性,从而描 述
一个事物中某些属性同时出现的规律和模式。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.2 关联分析


关联分析的基本算法是:
1. 扫描历史数据,并对每项数据进行频率次数统计。
2. 构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。
3. 对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小
支持度,从而形成频繁项集L1。
4. 对频繁项集L2进行连接生成候选项集C2,重复以上步骤,最终形成

繁K项集或者最大频繁项集。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3 数据的分析
3
聚 类 分 析
29

5.3.3 聚类分析

1. 观看微课视频“聚类分析程序介绍”;
2. 查找资料,研讨 K-平均算法;
3. 运行“程序5-6-1 聚类分析(教材范例).py”代码,对采集到的商品销售
数据”data_sample.csv”进行聚类分析,观察数据分析结果;
4. 归纳、总结聚类分析的方法和基本算法。填写《5.3 学习项目活动记录表

“活动4”的内容。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.3 聚类分析

K-平均算法是一种经典的自下而上的聚类分析方法。它的基本思想就是在
空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个
点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集
点,以达到“物以类聚,人以群分”的效果。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.3 聚类分析


聚类分析程序关键代码
可视化图形(截图)
#年龄-消费金额图,消费时间-消费金额图,年龄-消费时间图
for i in range(0,len(y)):
if(y[i]==0):
print(str(i)+"->0")
pyl.subplot(2,3,1)
#年龄-消费金额图
pyl.plot(x[i:i+1,0:1],x[i:i+1,1:2],"*r")
pyl.subplot(2,3,2)
#消费时间-消费金额图
pyl.plot(x[i:i+1,2:3],x[i:i+1,1:2],"*r")
pyl.subplot(2,3,3)
#年龄-消费时间图
pyl.plot(x[i:i+1,0:1],x[i:i+1,2:3],"*r")
分析结果
左图为年龄与消费额的关系;中图为消费周期与消费金额的关系;右图为年龄与消费周期的关系。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.3 聚类分析


聚类分析程序关键代码
可视化图形(截图)
from sklearn.cluster import KMeans
#导入商品样本数据
fname="data_sample.csv"
dataf=pda.read_csv(fname,encoding="gbk")
x=dataf.as_matrix()
#聚类分析
kms=KMeans(n_clusters=3)
y=kms.fit_predict(x)
print(y)
分析结果
程序按照提供的数据样本,自动将商品分成了三类。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.3 聚类分析


聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个
分类的标准,聚类分析能够从样本数据出发,自动进行分类。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.3 聚类分析

聚类分析的基本算法:
1. 从数据点集合中随机选择K个点作为初始的聚集中心,每个中心代表着每个聚
集中心的平均值。
2. 对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属
于这项聚类。
3. 重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达
到预先设定的迭代次数或中心点不再频繁波动。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3 数据的分析
4
数 据 分 类
36

5.3.4 数据分类

分 类
动 物
植 物
人 体
成 语
多如牛毛 狐假虎威 画蛇添足
风吹草动 胸有成竹 昙花一现
耳闻目睹 腹背受敌 头重脚轻
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.4 数据分类


1. 观看微课视频“数据分类程序介绍”;
2. 查找资料,研讨贝叶斯分类;
3. 讨论幻灯片中的问题,尝试着用贝叶斯分类技术解决;
4. 总结、归纳数据分类的方法和基本算法。填写《5.3 学习项目活动记录
表》“活动5”的内容。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.4 数据分类


贝叶斯分类技术在众多分类技术中占有重要地位,也属于统计学分类的范畴,是一种非
规则的分类方法。贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类
函数(对离散变量的预测称作分类,对连续变量的分类称为回归),利用训练得到的分类
器实现对未分类数据的分类。
贝叶斯定理 :
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.4 数据分类


例如,假设有一个数据集,由两类组成,且已知每个样本的分类,数据分布如下
图所示。用 p1(x,y) 表示数据点 (x,y) 属于红色一类的概率,用 p2(x,y)表示数
据点 (x,y) 属于蓝色一类的概率。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.4 数据分类


那么如何判断对于一个新的点 C(x,y)属于红色还是属于蓝色类别呢

通常人们会按以下步骤解答这个问题:
(1)求新的点 C(x,y)属于红色一类的概率 p1(x,y)。
(2)求新的点 C(x,y)属于蓝色一类的概率 p2(x,y)。
(3)选择概率高的一类作为新点 C(x,y)的分类。即
如果 p1(x,y)>p2(x,y),则 C(x,y)为红色一类;
如果 p1(x,y).
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3.4 数据分类


如表所示是某网络商城客户购物行为特征的一组统计资料。已知某客户购物行为特征A为
数值182.8,特征B为数值58.9,特征C为数值26,请问这人是重要客户还是普通客户?
客户
特征A
182.8
180.4
170.0
180.4
152.4
167.6
165.2
175.2
特征B
81.6
86.1
77.1
74.8
45.3
68.0
58.9
68.0
特征C
30
重要客户
重要客户
重要客户
重要客户
普通客户
普通客户
普通客户
普通客户
29
30
28
24
26
25
27
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z


根据表中的资料,得到一个已分类的样本子集:
X=[[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],
[180.4,74.8,28],[152.4,45.3,24],[167.6,68.0,26],
[165.2,58.9,25],[175.2,68.0,27]] 和
Y=[1,1,1,1,0,0,0,0](1代表重要客户,0代表普通客户)
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z


5.3.4 数据分类
把已分类的样本子集(X,Y ) 和测试样本[182.8,58,9,26] 输入到程序中,具体如
下:
import?numpy?as?np
X=np.array([
[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28],
[152.4,45.3,24],[167.6,68.0,26],[165.2,58.9,25],[175.2,68.0,27]])
Y=np.array([1,1,1,1,0,0,0,0])
from?sklearn.naive_bayes?import?GaussianNB
clf=GaussianNB().fit(X,Y)
print(clf.predict([[182.8,58,9,26]]))
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.4 数据分类

程序结果为:[0]
表示这位客户为:普通客户
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z

5.3.4 数据分类

数据分类 是数据分析处理中最基本的方法。数据分类的通常做法是,基于样
本数据先训练构建分类函数或分类模型,该分类器具有将待分类数据映射到
某一特点类别的功能。
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z


1.特征探索的主要任务是( )。
A.采集数据
B.数据预处理
C.存储数据
D.保护数据
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z


2.关联分析最主要的任务是( )。
A.绘制直方图
B.求最大值、最小值、极差
C.分析并发现大量数据间的关联性或相关性
D.发现和处理缺失值、异常数据
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z


3.聚类分析中经典的自下而上的方法( )。
A.特征探索
B.数据分类
C.K-平均算法
D.贝叶斯分类
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z


4.数据分析处理中最基本的方法( )。
A.特征探索
B.数据分类
C.K-平均算法
D.贝叶斯分类
.
.
.
.
i
.
.
z
.
t
.
t
z
i
j
i
j
z
5.3 数据的分析


请各学习小组完善本小组的《5.3 项目学习活动记录表》
51
5.3 数据的分析


1.特征探索
数据预处理
找出关联
发现规律
2.关联分析
3.聚类分析
数据分析
K-平均算法
4.数据分类
贝叶斯分类
谢 谢
THANK YOU
53

展开更多......

收起↑

资源预览