5.3数据的分析-1 课件(共20张PPT) 2022—2023学年高中信息技术粤教版(2019)必修1

资源下载
  1. 二一教育资源

5.3数据的分析-1 课件(共20张PPT) 2022—2023学年高中信息技术粤教版(2019)必修1

资源简介

(共20张PPT)
第五章 数据处理和可视化表达
5.3 数据的分析
(第1课时)
一 、本章情况
学习目标
(1)了解大数据的概念,理解大数据的特征,知道大数据对日常生活的影响,明晰传统数据与大数据的区别;
(2)了解数据采集的方法和工具,掌握数据的存储方式,理解对数据进行保护的意义;
(3)知道数据预处理及分析,体验多种数据分析技术;
(4)学会选用恰当的工具处理数据,学会总结和归纳数据分析的方法和步骤;
(5)了解数据可视化两种呈现类型,学会选用恰当的工具可视化表达数据。
5.1认识大数据
5.2数据的采集
5.3数据的分析
5.4数据的可视化表达
教学内容
二、项目指导
交流分享
依据自己小组项目实施的实际情况,对于项目实施过程的进度、亮点、困难予以分享,交流。
1. 项目完成基本情况。
2. 根据选定的主题,对数据收集情况分析汇报。
三、知识回顾
5.2 数据的采集
四、学习新知
思考
数据可以进行哪些处理?
数据处理是否有一定过程?
使用Python如何进行数据分析?
数据分析涉及到哪些技术方法?
数据预处理
关联分析
聚类分析
数据分类
四、学习新知
什么是数据分析?
数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价等。
四、学习新知
5.3.1 特征探索
数据特征探索的主要任务是对数据进行预处理。
预处理包括:发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
四、学习新知
探究活动
(1)数据清洗,发现缺失值。
变量“price”的内容是产品的价格信息。
如果数据缺失,可以删除这行数据。
如果数据缺失,也可以补一个固定值,这里修改为64。
四、学习新知
探究活动
(2)异常值处理中,利用画散点图发现异常值部分。
(3)求最大值和最小值。
四、学习新知
探究活动
(4)求极差。
(5)求组距。
(6)绘制价格直方图。
(7)绘制评论数直方图。
四、学习新知
数据分析的类型
数据分析的算法很多,最常见的有:
关联分析
聚类分析
分类分析
回归分析
四、学习新知
5.3.2 关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
关联分析的基本算法如下:
(1)扫描历史数据,并对每项数据进行频率次数统计。
(2)构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。
(3)对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,从而形成频繁项集L1。
(4)对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或者最大频繁项集。
四、学习新知
5.3.2 关联分析
(1)自定义连接函数,用于实现L_{k-1}到C_k的连接。
(2)寻找关联规则。
(3)创建连接数据。
(4)遍历可能的推理。
(5)计算置信度序列。
(6)置信度筛选。
什么是置信度?
如购买2个商品的问题,购买了商品A的顾客,有50%也购买了商品B,那么置信度就是50%。
四、学习新知
5.3.2 关联分析
支持度(support)
支持度:{X, Y}同时出现的概率
置信度(confidence)
置信度:购买X的人,同时购买Y的概率
四、学习新知
5.3.2 关联分析
运行 “程序5-4关联分析.ipynb”完成关联规则的创建。
下面的程序随机生成50条商品购买的数据:
import random
sku_list = ['商品01','商品02','商品03','商品04','商品05','商品06','商品07','商品08','商品09','商品10','商品11','商品12','商品13','商品14','商品15','商品16','商品17','商品18','商品19','商品20','商品21','商品22','商品23','商品24','商品25']
# 随机抽取数据生成列表
mat = [ random.sample(sku_list, random.randint(2,5)) for i in range(50)]
data = pd.DataFrame(mat,columns=["A","B","C","D","E"])
data = pd.get_dummies(data) # 转换类别变量矩阵
data = data.fillna(0)
通过下面的程序,完成关联分析结果的显示:
import time
support = 0.01 #最小支持度
confidence = 0.05 #最小置信度
ms = '---' #连接符,默认'--',用来区分不同元素,如A--B。需要保证原始表格中不含有该字符
start = time.clock() #计时开始
print(u'\n开始搜索关联规则...')
print(find_rule(data, support, confidence, ms))
end = time.clock() #计时结束
print(u'\n搜索完成,用时:%0.2f秒' %(end-start))
五、项目实施
实践
项目数据特征探索:
对小组项目数据进行预处理,制订数据进行预处理的计划。
通过数据清洗发现缺失值。
通过计算最大值和最小值,发现是否存在过大的或过小的数据异常。
项目数据关联分析:
对小组项目数据进行关联分析,选定进行关联分析的数据。
参考项目案例文件:“网络购物平台客户行为数据分析和可视化表达”可视化报告.docx
六、课程评价
(1)数据分析的方法不包括( ) 。
A. 线性分析
B. 关联分析
C. 聚类分析
D. 数据分类
(2)数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是( )。
A.数据清洗
B.异常数据处理
C.数据缺失处理
D.数据分类处理
A
D
六、课程评价
(3)某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这种属于数据的( )。
A. 聚类分析
B. 关联分析
C. 分类分析
D. 回归分析
B
七、相关附件
附件:
程序5-3数据预处理.ipynb
程序5-4关联分析.ipynb
\视频资料\5-7 创建MySQL数据库.mp4
taob.sql
\视频资料\ 5-8 特征探索程序介绍.mp4
\视频资料\ 5-11 关联分析程序介绍.mp4
“网络购物平台客户行为数据分析和可视化表达”可视化报告.docx
谢谢观看!

展开更多......

收起↑

资源预览