5.2 数据的采集 教学课件(共18张PPT)(粤教版2019)必修1

资源下载
  1. 二一教育资源

5.2 数据的采集 教学课件(共18张PPT)(粤教版2019)必修1

资源简介

(共18张PPT)
去哪儿旅游?
——数据的采集
必修一《数据与计算》
第五章 数据处理和可视化表达


北京
中国是一个地域辽阔的,拥有丰富的旅游资源。从南到北,从东到西,都有不同的自然景观和人文景观。同时各具特色的美味佳肴更是让你流连忘返。


数据的来源广泛(主要指互联网和物联网)、类型丰富、规模巨大。采集数据首先要明确数据应用项目的需求,围绕选定的项目主体,制定数据采集的需求清单和内容大纲,再采用适当的方法和工具进行采集。
数据的采集
对于企业生产经营或科学研究等保密性要求较高的数据,可通过与企业或研究机构合作,使用特定系统接口等相关方式收集数据。
其他数据采集法
网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
网络数据采集法
系统日志包括操作日志、应用程序和安全日志。通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
系统日志采集法
一、数据采集的方法
任务一:体验系统日志采集
”去哪儿旅游“——数据的采集


数据的采集——旅游数据网络爬取
”去哪儿旅游“——数据的采集
任务二:采集旅游景点数据


网络数据的采集——爬虫
”去哪儿旅游“——数据的采集
电影《孤注一掷》片段中提到“爬虫”


数据的采集——旅游数据网络爬取
”去哪儿旅游“——数据的采集
在众多的数据采集工具中,Python以其简洁、开源和包容的特性在数据采集和分析领域独树一帜。由于Python可以安装第三方扩展库来扩展功能,因此使用Python进行网络数据采集和分析显得简单易用。


数据的采集——调用第三方扩展库
”去哪儿旅游“——数据的采集
import module
关键字 模块名
from module import name
关键字 模块名 关键字 方法名
form import语句也是导入模块的一种方法,是导入指定模块内的指定函数方法。
在Python模块库中有大量模块可供使用,要想使用这些文件,就需要用import语句把指定模块导入当前程序中。


数据的采集——调用第三方扩展库
”去哪儿旅游“——数据的采集
库名 作用
requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。
pyquery 是强大而又灵活的网页解析库
time 是最基础的时间处理库
pandas 是一个强大的分析结构化数据的工具集。用于数据挖掘和数据分析,同时也提供数据清洗功能。
scipy 是一种专用于科学计算中常见问题的工具箱。如插值、积分、优化、图像处理、统计、特殊函数等。
任务三:安装第三方库


二、数据的存储
”去哪儿旅游“——数据的采集
存储数据主要有两种方式:本地存储和第三方公共或私有云端存储
本地电脑硬盘
存储卡
光盘
数据存储服务器
私有云
公共云
混合云
对于用户而言,无须关注云存储系统的具体运行,仅需获取存储空间,把自己的数据存储进去。


三、数据的保护
”去哪儿旅游“——数据的采集
威胁数据安全因素
硬盘损坏
操作失误
黑客入侵
感染病毒
自然灾害
磁盘阵列
防火墙
杀毒软件
异地容灾
数据备份
主动防护
提高数据安全
加密/校验
MD5\CRC\SHA-1校验方法
校验是为了保证数据完整性
加密是为了保证数据保密性
数据安全保护技术
拷贝
备份
复制
镜像
持续备份


三、数据的保护
”去哪儿旅游“——数据的采集
数据隐私保护
数据的隐私保护,形势越发严峻。


三、数据的保护
”去哪儿旅游“——数据的采集
数据隐私保护
技术手段
提高自身的保护意识
对数据使用者进行道德和法律上的约束


四、小结
”去哪儿旅游“——数据的采集
思考:对采集后的数据,采用什么方法进行分析?

展开更多......

收起↑

资源预览