5.3数据的分析-2 课件(共15张PPT)　2022—2023学年高中信息技术粤教版（2019）必修1

资源简介

(共15张PPT)
第五章数据处理和可视化表达
5.3 数据的分析
（第2课时）
一、本章情况
学习目标
（1）了解大数据的概念，理解大数据的特征，知道大数据对日常生活的影响，明晰传统数据与大数据的区别；
（2）了解数据采集的方法和工具，掌握数据的存储方式，理解对数据进行保护的意义；
（3）知道数据预处理及分析，体验多种数据分析技术；
（4）学会选用恰当的工具处理数据，学会总结和归纳数据分析的方法和步骤；
（5）了解数据可视化两种呈现类型，学会选用恰当的工具可视化表达数据。
5.1认识大数据
5.2数据的采集
5.3数据的分析
5.4数据的可视化表达
教学内容
二、项目指导
交流分享
依据自己小组项目实施的实际情况，对于项目实施过程的进度、亮点、困难予以分享，交流。
1. 项目完成基本情况。
2. 根据选定的主题进行数据预处理的情况汇报。
三、学习新知
思考
数据分析中的预处理过程，主要处理哪些问题？
数据分析除了关联分析，主要还有哪几类？
聚类分析的作用是什么？
数据分类的作用是什么？
数据预处理
关联分析
聚类分析
数据分类
数据分析
三、学习新知
5.3.3 聚类分析
聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。
聚类分析的算法有很多，其中K-平均（K-Means）算法是一种经典的自下而上的聚类分析方法。K-平均算法的基本思想就是在空间N个点中，初始选择K个点作为中心聚类点，然后将N个点分别与K个点计算距离，选择自己最近的点作为自己的中心点，再不断更新中心聚集点，以达到“物以类聚，人以群分”的效果。
三、学习新知
5.3.3 聚类分析
聚类分析的基本算法如下：
（1）从数据点集合中随机选择K个点作为初始的聚集中心，每个中心点代表着每个聚集中心的平均值。
（2）对其余的每个数据点，依次判断其与K个中心点的距离，距离最近的表明它属于这项聚类。
（3）重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算，直到达到预先设定的迭代次数或中心点不再频繁波动。
三、学习新知
探究活动
程序5-5直接调用了Python语言的sklearn机器学习模块，其对数据进行聚类分析的关键程序段如右所示。
程序运行所需的数据存储在company.csv文件中，包括客户年龄、平均消费金额、平均消费周期三个数据。
分别对三个数据中的两个数据进行聚类分析。
fname="company.csv"
dataf=pda.read_csv(fname,encoding="gbk")
x=dataf.iloc[:,:].values
from sklearn.cluster import KMeans
kms=KMeans(n_clusters=3)
y=kms.fit_predict(x)
print(y)
三、学习新知
5.3.4 数据分类
数据分类通常的做法是，基于样本数据先训练构建分类函数或者分类模型（也称为分类器），该分类器具有将待分类数据项映射到某一特点类别的功能。
数据分类和回归分析都可用于预测，预测是指从基于样本数据记录，根据分类准则自动给出对未知数据的推广描述，从而实现对未知数据进行预测。
贝叶斯分类技术在众多分类技术中占有重要地位，也属于统计学分类的范畴，是一种非规则的分类方法。
贝叶斯分类技术通过对已分类的样本子集进行训练，学习归纳出分类函数（对离散变量的预测称作分类，对连续变量的分类称为回归），利用训练得到的分类器实现对未分类数据的分类。
三、学习新知
5.3.4 数据分类
如表所示是某网络商城客户购物行为特征的一组统计资料。
已知某客户购物行为特征A为数值182.8，特征B为数值58.9，特征C为数值26，请问这人是重要客户还是普通客户？
三、学习新知
5.3.4 数据分类
根据表5-4的资料，得到一个已分类的样本子集：
X=[[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28],[152.4,45.3,24],[167.6,68.0,26], [165.2,58.9,25],[175.2,68.0,27]]和Y=[1,1,1,1,0,0,0,0]（1代表重要客户，0代表普通客户）。
打开程序5-6文件，把已分类的样本子集（X,Y）和测试样本[182.8,58.9,26]输入到程序5-6中。
尝试输入不同的样本，判断结果是否还是[0]
import numpy as np
X=np.array([[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28],
[152.4,45.3,24],[167.6,68.0,26],[165.2,58.9,25],[175.2,68.0,27]])
Y=np.array([1,1,1,1,0,0,0,0])
from sklearn.naive_bayes import GaussianNB
clf=GaussianNB().fit(X,Y)
print(clf.predict([[182.8,58.9,26]]))
三、学习新知
5.3.4 数据分类
拓展：贝叶斯与概率分类
贝叶斯（Thomas Bayes, 1701—1761），英国数学家，发明了概率统计学原理，将归纳推理法用于概率论基础理论，创立了贝叶斯统计理论，对统计决策函数、统计推断、统计的估算等做出了贡献。
运用贝叶斯定理对事物进行分类，是一种非常有效的思维方法，是贝叶斯决策理论方法的基本思想。
四、项目实施
各小组根据项目选题及拟订的项目方案，结合本节所学知识，完成相应的数据分析。
1. 采用适当的方法完成相应项目选题的数据分析工作。
2. 总结和归纳数据分析的方法和步骤。
五、课程评价
（1）下列关于聚类分析的说法，错误的是( )。
A可以从数据点集合中随机选择K个点作为初始的聚集中心
B.对其他的每个数据点，以此判断其与K个中心点的距离，距离最近的表明它属于这项聚类
C.聚类分析，必须先设定分类的标准，否则无法准确分类
D、重新计算新的聚簇集合的平均值既中心点
（2） K-平均算法属于( )分析方法。
A. 聚类
B. 关联
C. 分类
D. 回归
C
A
六、相关附件
附件：
company.csv
程序5-5聚类分析.ipynb
程序5-6分类分析.ipynb
\视频资料\5-9 聚类分析程序介绍.mp4
\视频资料\ 5-10 数据分类程序介绍.mp4
谢谢观看！

展开更多......

收起↑

请用微信扫码

5.3数据的分析-2 课件(共15张PPT) 2022—2023学年高中信息技术粤教版（2019）必修1

5.3数据的分析-2 课件(共15张PPT) 2022—2023学年高中信息技术粤教版（2019）必修1

5.3数据的分析-2 课件(共15张PPT)　2022—2023学年高中信息技术粤教版（2019）必修1

5.3数据的分析-2 课件(共15张PPT)　2022—2023学年高中信息技术粤教版（2019）必修1