粤教版（2019）高中信息技术必修一数据与计算 5.2-1数据采集的工具和方法课件（17张PPT）

资源简介

(共17张PPT)
5.2.1 数据采集的方法和工具
学习目标
明确数据应用项目的需求
能制定数据采集的需求清单
知道数据采集的方法和工具
一、系统日志采集法——临时文件
1.概念：记录系统硬件、软件和系统问题的信息文件
查看日志的方法：控制面板系统安全管理工具查看事件日志
2.内容
一、系统日志采集法——临时文件
1.概念：记录系统硬件、软件和系统问题的信息文件
2.内容：操作系统日志、应用程序日志、安全日志
3.作用：
监视系统中发生的事件
检查错误发生的原因
寻找受到攻击时攻击者留下的痕迹
二、网络数据采集法
1.概念：通过网络爬虫、网络公开API（应用程序接口）等方法从网站上获取数据信息
在网址后加robots.txt，可以查看本网页是否能被爬取
例如：https://www./robots.txt
二、网络数据采集法
2.网络爬虫的基本工作流程：
根据网页代码的标签名和属性，提取数据
控制器
解析器
存储器
二、网络数据采集法
2.网络爬虫的基本工作流程如下：
首先，选取一部分精心挑选的种子URL；
然后，将这些URL放入待抓取URL队列；
接着，从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。
最后，分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。
二、网络数据采集法
2. 网络爬虫。例如：百度的爬虫Baiduspider 360的爬虫叫360Spider
百度spider
用户
其他网站
关键字主要内容网址时间
索引
索引数据库
检索
保存
二、网络数据采集法
3.Html
Html:超文本标志语言的缩写，网页代码的基本组成部分
Html元素：决定网页的内容和结构，包含标签、注释等
标签：网页代码最基本的组成单位
<标签名属性1 属性2 …>标签内容
开始标签
结束标签
属性格式：属性名称=属性值
浏览器网页
显示的内容
二、网络数据采集法
3.Html标签
<标签名属性1 属性2 …>标签内容
开始标签
结束标签
浏览器网页
显示的内容

我有一双蓝色的眼睛

属性格式：属性名称=属性值
二、网络数据采集法
3.Html标签
查看网页代码的方法：
例如：
鼠标指向需爬虫数据
右击审查元素
二、网络数据采集法
3.Html标签
<标签名属性1 属性2 …>标签内容
开始标签
结束标签
浏览器网页
显示的内容
属性格式：属性名称=属性值
span 标签名
class 属性
二、网络数据采集法
4.扩展库
导入模块 import module
导入指定模块的指定函数 from module import name
导入模块（函数）并新名字替代 import module as 新名字（首字母）
模块名
语句——《数据与计算》P106 语句作用
import numpy as np
import matplotlib.pyplot as plt
from pylab import *
引入numpy库模块，用np替代
引入matplotlib库模块中的pyplot方法，用plt替代
引入pylab库模块中的所有方法
函数名
二、网络数据采集法
5.网络爬虫的具体案例
all_title = soup.find_all('span', class_="title")
for j in all_title:
soup_title = bs4.BeautifulSoup(str(j), "html.parser", )
title.append(soup_title.span.string)
#把爬取的数据添加并存储到title
#爬取title并赋值给all_title
#爬取title并赋值给soup_title
三、其他数据采集法
1.概念
传感器等特定接口采集数据传输到数据库管理系统
四、课堂小结
五、课堂练习
1.网络数据采集法，主要通过网络爬虫或网站公开API的方式获取，网络爬虫从网页的( )开始获取。
A. URL B. WWW C. HTML D. XML
2.利用Python采集网络数据时，导入扩展库的关键字是import。（）
3.网络数据采集法主要通过网络爬虫或网站公开API的方式获取网络爬虫，从网页的WWW开始获取。( )
4.数据采集的基本方法包括系统日志采集、网络数据采集等方法。（）
A
A
B
A

展开更多......

收起↑

请用微信扫码

粤教版（2019）高中信息技术必修一数据与计算 5.2-1数据采集的工具和方法 课件（17张PPT）

粤教版（2019）高中信息技术必修一数据与计算 5.2-1数据采集的工具和方法 课件（17张PPT）

粤教版（2019）高中信息技术必修一数据与计算 5.2-1数据采集的工具和方法课件（17张PPT）

粤教版（2019）高中信息技术必修一数据与计算 5.2-1数据采集的工具和方法课件（17张PPT）