5.3 数据分析 第2课时 课件(共26张PPT) 2022—2023学年高中信息技术粤教版(2019)必修1

资源下载
  1. 二一教育资源

5.3 数据分析 第2课时 课件(共26张PPT) 2022—2023学年高中信息技术粤教版(2019)必修1

资源简介

(共26张PPT)
粤教版普通高中教科书
信息技术 必修1 数据与计算
第五章 数据处理和可视化表达
5.1 认识大数据
5.2 数据的采集
5.3 数据的分析
5.4 数据的可视化表达

数据分析
-数据分析就是在一堆杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去,预测未来发挥作用。
数据分析常用方法
特征探索
关联分析
聚类与分类
建立模型
模型评价
回顾与导入

特征探索
-数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直
方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
回顾与导入
2.数据清洗,发现缺失值
3.异常值处理中,利用画散点图发现异常值部分
4.求最大值、最小值、极差、组距,绘制价格直方图和评论数直方图
1.创建MySQL数据库
特征探索一般过程
高中信息技术必修1 数据与计算
5.3.2 关联分析
数据分析常用方法
特征探索
关联分析
聚类与分类
建立模型
模型评价

1.概念:分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
2.常见案例:
价格和年龄之间的关系:个性化推荐
购买相关商品之间的关系:捆绑销售
3.常用的算法:aprior算法(关联规则挖掘算法)
案例:捆绑销售
5.3.2 关联分析
3.关联分析的基本算法及流程图
扫描数据,并统计数据出现的频率次数
构建候选项集C1
计算支持度:数据出现的频率次数/总数
形成频繁项集L1:筛选候选项集C1,要求支持度不小于最小支持度
连接频繁项集L1,生成候选项集C2
重复步骤③-⑤,得到最大的频繁项集
扫描数据库,统计数据出现的频率次数
构建候选项集Cn
支持度>最小支持度
形成频繁项集Ln
开始
结束


计算支持度:频率次数/总数
构建候选项集Cn+1
Aprioir-Gen运算
扫描数据库
统计数据出现的频率次数
5.3.2 关联分析
4.案例分析
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
扫描数据库,统计每种食物出现的次数
候选项集C1 食物 数目
牛奶 4
面包 4
尿布 4
啤酒 3
鸡蛋 1
可乐 2
5.3.2 关联分析
4.案例分析
支持度大于2的频繁项集L1
候选项集C1 食物 数目
牛奶 4
面包 4
尿布 4
啤酒 3
鸡蛋 1
可乐 2
频繁项集L1 食物 数目
牛奶 4
面包 4
尿布 4
啤酒 3
候选项集C2
食物组合
牛奶、面包
牛奶、尿布
牛奶、啤酒
面包、尿布
面包、啤酒
尿布、啤酒
根据算法,
生成候选项集C2
5.3.2 关联分析
4.案例分析
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
扫描数据库,统计候选项集C2食物组合出现的次数
候选项集C2
食物组合
[牛奶、面包]
[牛奶、尿布]
[牛奶、啤酒]
[面包、尿布]
[面包、啤酒]
[尿布、啤酒]
候选项集C2 食物组合 数目
[牛奶、面包] 3
[牛奶、尿布] 3
[牛奶、啤酒] 2
[面包、尿布] 3
[面包、啤酒] 2
[尿布、啤酒] 3
5.3.2 关联分析
4.案例分析
候选项集C2 食物组合 数目
[牛奶、面包] 3
[牛奶、尿布] 3
[牛奶、啤酒] 2
[面包、尿布] 3
[面包、啤酒] 2
[尿布、啤酒] 3
支持度大于2的
频繁项集L2
频繁项集L2 食物组合 数目
[牛奶、面包] 3
[牛奶、尿布] 3
[面包、尿布] 3
[尿布、啤酒] 3
候选项集C3
食物组合
[牛奶、面包、尿布]
[牛奶、面包、啤酒]
[牛奶、尿布、啤酒]
[面包、尿布、啤酒]
根据算法,
生成候选项集C3
5.3.2 关联分析
4.案例分析
根据算法,
生成候选项集C3
候选项集C3
食物组合
[牛奶、面包、尿布]
[牛奶、面包、啤酒]
[牛奶、尿布、啤酒]
[面包、尿布、啤酒]
候选项集C3 食物组合 数目
[牛奶、面包、尿布] 2
[牛奶、面包、啤酒] 1
[牛奶、尿布、啤酒] 2
[面包、尿布、啤酒] 2
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
扫描数据库,统计候选项集C3食物组合出现的次数
5.3.2 关联分析
4.案例分析
候选项集C3 食物组合 数目
[牛奶、面包、尿布] 2
[牛奶、尿布、啤酒] 1
[牛奶、尿布、啤酒] 2
[面包、尿布、啤酒] 2
根据计算和筛选,得到最终的频繁项集
最终的频繁项集
食物组合
[牛奶、面包、尿布]
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
5.3.2 关联分析
4.案例分析
support(支持度)
两个商品被同时购买发生的概率
confidence(置信度)
B商品被购买的情况下,A商品被购买的概率
P(A|B) = P(AB)/P(B)
例如:
同时买牛奶、面包的概率为
买了牛奶后,买面包的概率为
P(A|B) = P(AB)/P(B)=(3/5) / (4/5)= 3/4
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
P(AB)=3/5
5.3.2 关联分析



2.通过修改“程序5-8-1 关联分析(教材范例).py”代码,对采集到的店铺销售订单数据( sale_orders.xls )进行关联分析,寻找商品之间的关联性,观察关联分析结果,以小组为单位,通过学习、交流,探究和实践,填写下表。
关联分析程序关键代码 关联分析结果(截图)
分析结果
商品b和a,商品d和a,商品c和a的支持度和置信度非常高,客户经常一起购买,可以对它们进行捆绑销售。
data = pd.read_excel('sale_orders.xls',header = None)
print(u'\n转换原始数据至0-1矩阵...')
ct = lambda x : pd.Series(1, index = x[pd.notnull(x)]) #转换0-1矩阵的过渡函数
b = map(ct, data.as_matrix()) #用map方式执行
data = pd.DataFrame(list(b)).fillna(0) #实现矩阵转换,空值用0填充
print(u'\n转换完毕。')
del b #删除中间变量b,节省内存
support = 0.4 #最小支持度
confidence = 0.5 #最小置信度
ms = '---' #连接符,默认'--',用来区分不同元素,如A--B。需要保证原始表格中不含有该字符
find_rule(data, support, confidence, ms).to_excel('关联分析结果.xls') #保存结果
5.3.2 关联分析
高中信息技术必修1 数据与计算
5.3.3 聚类分析&5.3.4数据分类
数据分析常用方法
特征探索
关联分析
聚类与分类
建立模型
模型评价
1.概念:是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
2.特点:
不需要先给定分类标准
能够自动进行分类
达到“物以类聚、人以群分”的效果
3.常用的算法:k-Means算法
中文名:K-平均算法
特点:自下而上的聚类分析方法
一、聚类分析
5.3.3 聚类分析&5.3.4数据分类
3.k-Means算法的基本算法及流程图
初始化随机选择K个点作为中心聚类点
依次计算其余数据点与中心点的距离
将数据点分配给最近的中心点
计算每个聚集中心的平均值,即为中心点
重复步骤②-④, 满足下列条件时,结束聚类。
中心点的位置变化小于指定的阈值(默认为 0.0001)
达到最大迭代次数得到最大的频繁项集
从文件读取数据
初始化聚类中心(随机)
计算其余数据点与中心点的距离
将数据点分配到最近的中心点
中心点的位置变化小于指定的阈值
开始
结束



计算每个聚集的平均值,即中心点
5.3.3 聚类分析&5.3.4数据分类
好友关系聚类
从文件读取数据
初始化聚类中心(随机)
计算其余数据点与中心点的距离
将数据点分配到最近的中心点
中心点的位置变化小于指定的阈值
开始
结束



计算每个聚集的平均值,即中心点
4.案例赏析
5.3.3 聚类分析&5.3.4数据分类
4.案例赏析:层次关系聚类
5.3.3 聚类分析&5.3.4数据分类
1.思路:
先基于样本数据训练构建分类函数或者分类模型(分类器);
然后用分类器将待分类数据进行分类。
2.应用:预测(数据分类、回归分析)
基于样本数据记录
根据分类准则自动对未知数据进行推广描述
从而实现对未知数据进行预测
3.常用的方法:贝叶斯分类技术
事件发生的概率
二、数据分类
5.3.3 聚类分析&5.3.4数据分类
客户 特征A 特征B 特征C
重要客户 182.8 81.6 30
重要客户 180.4 86.1 29
重要客户 170.0 77.1 30
重要客户 180.4 74.8 28
普通客户 152.4 45.3 24
普通客户 167.6 68.0 26
普通客户 165.2 58.9 25
普通客户 175.2 68.0 27
【思考】如下表所示是某网络商城客户购物行为特征的一组统计资料。已知某客户购物行为特征A的数值为182.8,特征B为数值58.9,特征C为数值26,请问这是重要客户还是普通客户?
5.3.3 聚类分析&5.3.4数据分类



1.通过修改“程序5-6-1 聚类分析(教材范例).py”代码,对采集到的商品销售数据“data_sample.csv”进行聚类分析,观察数据分析结果,以小组为单位,通过学习、交流,探究和实践,填写下表。
聚类分析程序关键代码 可视化图形(截图)
分析结果 from sklearn.cluster import KMeans
#导入商品样本数据
fname="data_sample.csv"
dataf=pda.read_csv(fname,encoding="gbk")
x=dataf.as_matrix()
#聚类分析
kms=KMeans(n_clusters=3)
y=kms.fit_predict(x)
print(y)
程序按照提供的数据样本,自动将商品分成了三类。
5.3.3 聚类分析&5.3.4数据分类


2、从聚类分析中采集的商品销售数据( data_sample.csv)中抽取部分数据作为样本,构建重要商品和一般商品的分类模型( model.csv ) ;通过修改或优化“程序5-7-1 数据分类(教材范例).py”代码,对特征值A为128.8,特征值B为158,特征值C为4.7的商品进行分类,观察该商品分类结果,以小组为单位,通过学习、交流,探究和实践,填写下表。
数据分类程序关键代码(修改范例程序、优化范例程序) 商品分类结果(截图)
分析结果 特征值分别为128.8,158,4.9的商品为重要商品,受客户欢迎,评价高,需要重点关注。
from sklearn.naive_bayes import GaussianNB
#构建分类模型
fname=“model.csv”
dataf=pda.read_csv(fname,encoding=“gbk”)
data=dataf.as_matrix()
X=[]
Y=[]
for values in data:
X.append(values[1:4]) #获取第2-4列的特征值
Y.append(values[0]) #获取第1列的分类值
clf = GaussianNB().fit(X, Y)
#对未分类数据分类
print(clf.predict([[128.8,158,4.7]]))
import numpy as np
from sklearn.naive_bayes import GaussianNB
X = np.array([[105.9,230,4.9],[65.1,710,4.8],
[15,276,4.8],[238,79,4.8],
[29.9,735,4.7],[12.8,222,4.3],
[18,62,4.6],[89,247,4.5],
[162,585,4.5],[29,278,4.2]])
Y = np.array(['重要商品','重要商品','重要商品’,
'重要商品','重要商品','一般商品’,
'一般商品','一般商品’,
'一般商品','一般商品'])
clf = GaussianNB().fit(X, Y)
print(clf.predict([[128.8,158,4.7]]))

5.3.3 聚类分析&5.3.4数据分类
课堂练习
1.某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是( )
A.聚类分析 B.分类分析 C.关联分析 D.回归分析
2.下列关于聚类分析的说法,错误的是( )
A.可以从数据点集合中随机选择K个点作为初始的聚集中心
B.对其他的每个数据点,以此判断其与K个中心点的距离,距离最近的表明它属于这项聚类
C. 聚类分析,必须先设定分类的标准,否则无法准确分类
D.重新计算新的聚簇集合的平均值既中心点
C
C
3.聚类分析的算法有很多,其中最经典的自下而上的聚类分析方法是( )。
A.特征探索 B.关联分析 C.K-Means算法 D.数据分类
4.K-平均算法属于数据分类方法。( )
5.下列( )数据分析方法能达到“物以类聚、人以群分”的效果
A.聚类分析 B.数据分类 C.关联分析 D.回归分析
6.下列( )数据分析方法需要先基于样本数据构建分类器,然后才能将待分类数据进行分类。
A.聚类分析 B.数据分类 C.关联分析 D.回归分析
C
B
A
B
课堂练习
再见

展开更多......

收起↑

资源预览