第五章《数据处理和可视化表达》第3课时《数据的分析》 课件(共21张PPT) 2023—2024学年粤教版(2019)高中信息技术必修1

资源下载
  1. 二一教育资源

第五章《数据处理和可视化表达》第3课时《数据的分析》 课件(共21张PPT) 2023—2024学年粤教版(2019)高中信息技术必修1

资源简介

(共21张PPT)
项目回顾
项目:典型城市空气质量变化研究
认识大数据
数据的采集
情境导入
你能快速地从以下图片中获得有用的信息吗?
你能发现这些数据的内在结构和规律呢?
数据分析
特征探索索
关联分析
聚类分析
数据分类
词频分析
数据分析就是在一大批杂乱
无章的数据中,运用数字化工
具和技术,探索数据内在的结
构和规律,建构数学模型,并
进行可视化表达,通过验证将
模型转化为知识,为诊断过去
和预测未来发挥作用。
数据分析
上节课,我们采集到了
2016~2021年的日空气质量指
数,通过每日空气质量指数很
难说明问题,因此我们需要计
算年平均空气质量指数,再通
过对比才能发现空气质量是不
是逐年变好。
数据分析
特征探索
数据的特征探索的主要任务是对数据进行预处理,发现和处
理缺失值,异常数据,绘制直方图,观察数据的分布特征,求
最大值、最小值、极差等描述性统计量。
数据预处理
特征探索
特征值探索
数据预处理
数据预处理没有标准的流程,
通常会根据任务和数据集属性的
不同而有所差别。
请同学们观察图片,你发现
图片中存在什么问题?
本次数据预处理主要介绍去重
复值和处理缺失值。
数据预处理
1、pandas 库
Pandas库提供了快速便捷操作大型数据集的工具、函数和方
法。其中包括读写多种文件数据的函数和方法,以及处理一位数
组、二维数组等类似表格数据的函数和方法。
2、math 库
math是Python提供的内置数学类函数库。
数据预处理
#1、读取原文件
#2、去除重复行,保留第一行
#3、保存目标文件
数据预处理
#1、读取原文件
#2、对列表中每一项进行判断
#若为空值,则替换为其他值
#3、保存目标文件
特征值探索
特征值探索
#读取文件,获取年份
#新表格列标题
# mean()函数逐年求平均值
# 添加到列表data中
#保存文件
课堂活动
请各小组参照老师文件中的学习任务单,根据
所选城市完成相应活动。
活动一:数据预处理
活动二:特征值探索。
展示
展示运行的结果
活动一:体验数据预处理
程序运后文件夹中多了哪两个文件:__________________________
对比这两个文件中的数据与原始数据的区别是:______________
活动二:体验特征值探索
程序运后文件夹中多了哪一个文件:____________________________
通过这个文件内容说明空气质量发生什么变化:_________________
展示
展示运行的结果
合肥
杭州
太原
拓展
当我们采集的是数值型数据时
我们可以通过特征探索来发现数据
内在规律,但是我们的数据类型不
仅仅是数值型。当我们采集的数据
是文本数据是应该怎么分析呢?
拓展
词频分析
词频分析是对文章正文中重要词汇出现的次数进行统计与分
析,是文本挖掘的重要手段。
1、读取文本文件
2、利用jieba库进行分词
3、生成词云图
4、保存为指定图片文件
拓展
请同学们完成学习任务单中拓展活动:体验词频分析
观察两份文件生成的词云图有什么区别,为什么:
___________________________________________________
拓展
观察两份文件生成的词云图有什么区别,为什么:
课堂小结

展开更多......

收起↑

资源预览