粤教版(2019)高中信息技术必 修1 5.2 数据的采集 课件(共44张PPT,内含视频素材)

资源下载
  1. 二一教育资源

粤教版(2019)高中信息技术必 修1 5.2 数据的采集 课件(共44张PPT,内含视频素材)

资源简介

(共44张PPT)
BIG DATA
5.2 数据的采集
第五章
SHU · JU · DE · CAI · JI

授课人:xxx
知识回顾
新授
处理数据的一般过程:
数据采集
数据分析
数据可视化表达
新授
处理数据的一般过程:
数据采集
数据分析
数据可视化表达
数据采集的方法和工具
数据的存储和保护
ONE
数据采集的方法和工具
01
数据采集的方法和工具
什么是数据采集
1
体验数据采集的过程
2
数据采集的方法和工具
3



什么是数据采集
数据采集:根据需求采用适当的方法和工具获取数据。
如:
将文字录入电脑——键盘打字、扫描仪扫描
记录课堂活动——照相机拍照、摄像机摄像等
记录一段声音——麦克风录音
体验数据采集
问:如何记录全班同学当前的体温?
需要获取什么数据?
温度
怎么获取?
测温仪/体温计
为什么能够获取?
温度传感器/液体金属热胀冷缩
如何记录获取到的数据?
填纸质表、问卷星登记等
数据采集的过程
明确数据应用项目的需求
围绕选定的项目主题,制定数据采集的需求清单和内容大纲
01
采用适当的方法和工具
针对不同的数据类型,选择适当的工具和方法,采集数据
02
数据的存储和保护
要选择合适的存储方式并注意数据安全
03
数据采集的方法和工具
系统日志采集法
数据采集的基本方法:
网络数据采集法
其他数据采集法
数据采集的方法和工具
系统日志采集法
1.什么是系统日志?
2.系统日志采集数据的方法是怎样的?
数据采集的方法和工具
系统日志采集法
1.什么是系统日志?
在信息系统中,系统日志是记录系统中硬件、软件和系统问题的信息文件。
包括操作系统日志、应用程序日志、安全日志。
数据采集的方法和工具
系统日志采集法
2.系统日志采集数据的方法是怎样的?
在目标主机安装一个小程序,将其上的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器上进行存储、监控和管理。
数据采集的方法和工具
其他数据采集法
如:传感器采集数据
手机、智能手环等内置了多种传感器
数据采集的方法和工具
网络数据采集法
指通过网络爬虫或网站公开API(应用程序接口)等方式从网站上获取数据信息。
网络爬虫
数据采集的方法和工具
网络数据采集法
指通过网络爬虫或网站公开API(应用程序接口)等方式从网站上获取数据信息。
网络爬虫
数据采集的方法和工具
请观看视频:
《网络爬虫到底是什么,学这个真的是“从入门到入狱”吗?》
思考如下问题:
1.什么是网络爬虫?
2.网络爬虫的应用有哪些?
3.网络爬虫获取数据的流程是怎样的?
4.Robots协议是什么?
5.使用什么工具编写爬虫
数据采集的方法和工具
1.什么是网络爬虫?
程序脚本
可以用它来浏览网页
收集有用的数据
数据采集的方法和工具
1.什么是网络爬虫?
网络爬虫:又称网络蜘蛛、网络蚂蚁、网络机器人等。
按照人们事先制定的爬取规则,可以代替人们自动地在互联网中进行数据的采集与整理。
即:可以自动采集网络数据的程序
数据采集的方法和工具
2.网络爬虫的应用有哪些?
数据采集的方法和工具
3.网络爬虫获取数据的流程是怎样的?
数据采集的方法和工具
3.网络爬虫获取数据的流程是怎样的?
获取网页的URL
爬取网页的内容
分析网页的内容
提取有用的数据
获取其他的URL,重复前面的步骤,直到满足停止条件
数据采集的方法和工具
4.Robots协议是什么?
规定了:
哪些数据可爬取
哪些不可以
数据采集的方法和工具
注意:网络爬虫的合法性
若采集的数据是个人使用,不违法
若采集的数据使用时涉及商业盈利范畴,可能违法
数据采集的方法和工具
5.使用什么工具编写爬虫?
数据采集的方法和工具
5.使用什么工具编写爬虫?
使用Python语言的第三方库来实现爬虫编写
使用到的库:
requests库——获取网页信息
bs4库(beautifulsoup)——解析HTML页面
xlwt库——调用Excel模块,将获取的有用信息写入表格文件保存
数据采集的方法和工具
演示:
使用Python语言的第三方库来实现爬虫编写
数据采集的方法和工具
网络爬虫工具采集器:
八爪鱼采集器
火车采集器
后羿采集器
TWO
数据的存储和保护
02
数据的存储和保护
数据的存储
1
数据的保护
2


数据的存储
本地存储
云存储
两种方式
数据的保护
数据的安全隐患无处不在,一旦泄露或丢失,造成的损失和影响将是巨大的。
数据的保护
数据安全保护技术
保护数据的方法:
数据的隐私保护
数据的保护
数据备份
拷贝/FTP
备份
复制技术
镜像技术
持续备份
数据加密
对称式加密
非对称式加密

数据安全保护技术
数据的保护
数据的隐私保护
技术手段
数据采集时进行数据精度处理
数据共享时进行访问控制
数据发布时进行人工干扰
数据分析时进行匿名处理等
提高自身的保护意识
对数据使用者进行
道德和法律上的约束
课堂小结
课堂练习
1.因疫情防控需要,学校要求学生家长及时上报体温、行程等数据,汇总后上报上级防控部门,采集上述数据最为高效的方法是( )。
A.填写在线收集表 B.填写纸质表格
C.发送电子邮件 D.打电话上报
A.填写在线收集表
A
课堂练习
2.数据来源广泛,采集方式也多种多样。以下不属于数据采集
过程的是( )。
A.计算机服务器自动保存运行日志,方便故障排查、入侵检测
B.利用电子表格数据透表对比网店商品销售情况
C.企业网站调用中国天气网开放API(应用程序接口)获取天气数据
D.用红外测温枪测量体温
B.利用电子表格数据透表对比网店商品销售情况
B
课堂练习
3.在大数据时代,网络信息的采集是一项重要的工作,如果单纯靠人力进行网络信息采集,不仅低效繁琐,搜集的成本也会提高。此时,我们可以合法使用( )对网络数据进行自动采集。
A.系统日志 B.网络爬虫
C.传感器 D. 问卷调查
B.网络爬虫
B
课堂练习
4.通过爬虫程序可以采集某音乐平台上歌曲的评论内容。关于爬虫程序,以下说法错误的是( )。
A.爬虫程序,可以采集网络数据
B.只要是你想要的网络数据,都可以用爬虫程序去采集
C.爬虫程序开始执行时,需要一个URL列表作为起始位置
D.爬虫程序采集到的数据,可以保存为多种格式,如xls、csv等
B.只要是你想要的网络数据,都可以用爬虫程序去采集
B
课堂练习
5.某品牌智能手环收集了大量用户运动、健康的数据。以下相关描述错误的是( )。
A.在大数据时代,我们的个人信息时刻存在泄露的风险
B.大数据时代的海量数据,使信息、机密、财富之间产生紧密关联,从而构成信息安全的重要因素
C.数据因素是造成信息安全的风险之一
D.隐私泄露的问题是大数据时代特有的
D.隐私泄露的问题是大数据时代特有的
D
课堂练习
5.(判断)数据在采集、存储、管理与使用的过程中面临诸多安全风险,为避免风险,通常需要进行数据备份。
( )

6. (判断)网络数采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的HTML开始获取。
( )
×
BIG DATA
那就下次再聊吧~
第五章
授课人:xxx

展开更多......

收起↑

资源列表