资源简介 (共20张PPT)第五章 数据处理和可视化表达5.3 数据的分析(第1课时)一 、本章情况学习目标(1)了解大数据的概念,理解大数据的特征,知道大数据对日常生活的影响,明晰传统数据与大数据的区别;(2)了解数据采集的方法和工具,掌握数据的存储方式,理解对数据进行保护的意义;(3)知道数据预处理及分析,体验多种数据分析技术;(4)学会选用恰当的工具处理数据,学会总结和归纳数据分析的方法和步骤;(5)了解数据可视化两种呈现类型,学会选用恰当的工具可视化表达数据。5.1认识大数据5.2数据的采集5.3数据的分析5.4数据的可视化表达教学内容二、项目指导交流分享依据自己小组项目实施的实际情况,对于项目实施过程的进度、亮点、困难予以分享,交流。1. 项目完成基本情况。2. 根据选定的主题,对数据收集情况分析汇报。三、知识回顾5.2 数据的采集四、学习新知思考数据可以进行哪些处理?数据处理是否有一定过程?使用Python如何进行数据分析?数据分析涉及到哪些技术方法?数据预处理关联分析聚类分析数据分类四、学习新知什么是数据分析?数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价等。四、学习新知5.3.1 特征探索数据特征探索的主要任务是对数据进行预处理。预处理包括:发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。四、学习新知探究活动(1)数据清洗,发现缺失值。变量“price”的内容是产品的价格信息。如果数据缺失,可以删除这行数据。如果数据缺失,也可以补一个固定值,这里修改为64。四、学习新知探究活动(2)异常值处理中,利用画散点图发现异常值部分。(3)求最大值和最小值。四、学习新知探究活动(4)求极差。(5)求组距。(6)绘制价格直方图。(7)绘制评论数直方图。四、学习新知数据分析的类型数据分析的算法很多,最常见的有:关联分析聚类分析分类分析回归分析四、学习新知5.3.2 关联分析关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。关联分析的基本算法如下:(1)扫描历史数据,并对每项数据进行频率次数统计。(2)构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。(3)对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,从而形成频繁项集L1。(4)对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或者最大频繁项集。四、学习新知5.3.2 关联分析(1)自定义连接函数,用于实现L_{k-1}到C_k的连接。(2)寻找关联规则。(3)创建连接数据。(4)遍历可能的推理。(5)计算置信度序列。(6)置信度筛选。什么是置信度?如购买2个商品的问题,购买了商品A的顾客,有50%也购买了商品B,那么置信度就是50%。四、学习新知5.3.2 关联分析支持度(support)支持度:{X, Y}同时出现的概率置信度(confidence)置信度:购买X的人,同时购买Y的概率四、学习新知5.3.2 关联分析运行 “程序5-4关联分析.ipynb”完成关联规则的创建。下面的程序随机生成50条商品购买的数据:import randomsku_list = ['商品01','商品02','商品03','商品04','商品05','商品06','商品07','商品08','商品09','商品10','商品11','商品12','商品13','商品14','商品15','商品16','商品17','商品18','商品19','商品20','商品21','商品22','商品23','商品24','商品25']# 随机抽取数据生成列表mat = [ random.sample(sku_list, random.randint(2,5)) for i in range(50)]data = pd.DataFrame(mat,columns=["A","B","C","D","E"])data = pd.get_dummies(data) # 转换类别变量矩阵data = data.fillna(0)通过下面的程序,完成关联分析结果的显示:import timesupport = 0.01 #最小支持度confidence = 0.05 #最小置信度ms = '---' #连接符,默认'--',用来区分不同元素,如A--B。需要保证原始表格中不含有该字符start = time.clock() #计时开始print(u'\n开始搜索关联规则...')print(find_rule(data, support, confidence, ms))end = time.clock() #计时结束print(u'\n搜索完成,用时:%0.2f秒' %(end-start))五、项目实施实践项目数据特征探索:对小组项目数据进行预处理,制订数据进行预处理的计划。通过数据清洗发现缺失值。通过计算最大值和最小值,发现是否存在过大的或过小的数据异常。项目数据关联分析:对小组项目数据进行关联分析,选定进行关联分析的数据。参考项目案例文件:“网络购物平台客户行为数据分析和可视化表达”可视化报告.docx六、课程评价(1)数据分析的方法不包括( ) 。A. 线性分析B. 关联分析C. 聚类分析D. 数据分类(2)数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是( )。A.数据清洗B.异常数据处理C.数据缺失处理D.数据分类处理AD六、课程评价(3)某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这种属于数据的( )。A. 聚类分析B. 关联分析C. 分类分析D. 回归分析B七、相关附件附件:程序5-3数据预处理.ipynb程序5-4关联分析.ipynb\视频资料\5-7 创建MySQL数据库.mp4taob.sql\视频资料\ 5-8 特征探索程序介绍.mp4\视频资料\ 5-11 关联分析程序介绍.mp4“网络购物平台客户行为数据分析和可视化表达”可视化报告.docx谢谢观看! 展开更多...... 收起↑ 资源预览