资源简介 (共21张PPT)项目回顾项目:典型城市空气质量变化研究认识大数据数据的采集情境导入你能快速地从以下图片中获得有用的信息吗?你能发现这些数据的内在结构和规律呢?数据分析特征探索索关联分析聚类分析数据分类词频分析数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,建构数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去和预测未来发挥作用。数据分析上节课,我们采集到了2016~2021年的日空气质量指数,通过每日空气质量指数很难说明问题,因此我们需要计算年平均空气质量指数,再通过对比才能发现空气质量是不是逐年变好。数据分析特征探索数据的特征探索的主要任务是对数据进行预处理,发现和处理缺失值,异常数据,绘制直方图,观察数据的分布特征,求最大值、最小值、极差等描述性统计量。数据预处理特征探索特征值探索数据预处理数据预处理没有标准的流程,通常会根据任务和数据集属性的不同而有所差别。请同学们观察图片,你发现图片中存在什么问题?本次数据预处理主要介绍去重复值和处理缺失值。数据预处理1、pandas 库Pandas库提供了快速便捷操作大型数据集的工具、函数和方法。其中包括读写多种文件数据的函数和方法,以及处理一位数组、二维数组等类似表格数据的函数和方法。2、math 库math是Python提供的内置数学类函数库。数据预处理#1、读取原文件#2、去除重复行,保留第一行#3、保存目标文件数据预处理#1、读取原文件#2、对列表中每一项进行判断#若为空值,则替换为其他值#3、保存目标文件特征值探索特征值探索#读取文件,获取年份#新表格列标题# mean()函数逐年求平均值# 添加到列表data中#保存文件课堂活动请各小组参照老师文件中的学习任务单,根据所选城市完成相应活动。活动一:数据预处理活动二:特征值探索。展示展示运行的结果活动一:体验数据预处理程序运后文件夹中多了哪两个文件:__________________________对比这两个文件中的数据与原始数据的区别是:______________活动二:体验特征值探索程序运后文件夹中多了哪一个文件:____________________________通过这个文件内容说明空气质量发生什么变化:_________________展示展示运行的结果合肥杭州太原拓展当我们采集的是数值型数据时我们可以通过特征探索来发现数据内在规律,但是我们的数据类型不仅仅是数值型。当我们采集的数据是文本数据是应该怎么分析呢?拓展词频分析词频分析是对文章正文中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。1、读取文本文件2、利用jieba库进行分词3、生成词云图4、保存为指定图片文件拓展请同学们完成学习任务单中拓展活动:体验词频分析观察两份文件生成的词云图有什么区别,为什么:___________________________________________________拓展观察两份文件生成的词云图有什么区别,为什么:课堂小结 展开更多...... 收起↑ 资源预览