第五章《数据处理和可视化表达》第2课时《数据的采集》 课件(共25张PPT) 2023—2024学年粤教版(2019)高中信息技术必修1

资源下载
  1. 二一教育资源

第五章《数据处理和可视化表达》第2课时《数据的采集》 课件(共25张PPT) 2023—2024学年粤教版(2019)高中信息技术必修1

资源简介

(共25张PPT)
课程导入
项目:典型城市空气质量变化研究
认识大数据
数据的分析
数据的采集
数据的可视化表达
粤教版信息技术必修1《数据与计算》
什么是数据采集
什么是数据采集
数据采集是利用一种装置,从系统外部采集数据并输
入到系统内部的一个接口。(百度百科)
数据采集是指根据需求采用适当的方法和工具获取所
需要的数据。(课本描述)
确定数据需求
选择采集方法与工具
获取并保存数据
项目活动一:确定数据需求
项目:典型城市空气质量变化研究
组名
项目名称
项目需要的数据
怎么获取空气质量数据?
上网查
手机APP
天气预报
……
数据采集方法和工具
数据采集的方法
传感器采集法
1
利用传感设备,检测、采集物理信息,并将其转换为电信号形
式表示的一种采集方法。
数据采集的方法
传感器采集法
1
利用传感设备,检测、采集物理信息,并将其转换为电信号形
式表示的一种采集方法。
系统日志采集法
2
利用系统中记录硬件、软件和系统问题的信息文件来采
集数据。有操作系统日志、应用程序日志、安全日志等。
如:通过Web日志,获取网站点击率。
3
网络数据采集法
网络数据采集法
随着互联网的日益普及和数字化媒体的崛起,网络
成为我们快速获取数据的重要渠道。
搜索引擎
搜索引擎是一种能为用户提供检索
服务,并将检索结果呈现给用户的系统。
项目活动二:体验搜索引擎
使用搜索引擎查询宣城市今天的空气质量指数,填写
在活动记录单上。
未来一周?过去一年?
网络数据采集——网络爬虫
网络爬虫,是按照一定的规则自动抓取互联网上内容的程序。
爬取特定内容的程序叫做聚焦爬虫。
搜索引擎这类爬取所有网页内容的叫做通用爬虫。
项目活动三:体验爬虫程序
打开学习资料活动3文件夹,运行程序,观察结果,填写表格
查询城市
查询结果
数据保存结果
网络数据采集——爬虫程序
导入扩展库
import 模块名
from 模块名 import 方法名
网络数据采集——爬虫程序
导入扩展库
自定义函数
抓取网页
网络数据采集——爬虫程序
导入扩展库
自定义函数
抓取网页
过滤数据
网络数据采集——爬虫程序
导入扩展库
自定义函数
抓取网页
过滤数据
输出/存储数据
网络数据采集——爬虫程序
导入扩展库
自定义函数
抓取网页
过滤数据
输出/存储数据
主函数
网络数据采集——爬虫软件
爬虫使用规范
爬虫使用起来很方便
可以快速从互联网上获取到大量数据
我们是否可以随意爬取想要的数据呢?
爬虫使用规范
遵守robots.txt协议
遵守相关法律法规
禁止: 恶意爬取
侵犯个人隐私
爬取信息用于不正当竞争
侵犯商业秘密
项目活动四:体验爬虫软件
使用后羿采集器采集选定典型城市历史空气质量指数。
课堂总结
课后思考
这些数据反映出怎样的空气质量变化呢?
怎么进一步分析得出具体的结论呢?

展开更多......

收起↑

资源预览