资源简介 (共17张PPT)5.2.1 数据采集的方法和工具学习目标明确数据应用项目的需求能制定数据采集的需求清单知道数据采集的方法和工具一、系统日志采集法——临时文件1.概念:记录系统硬件、软件和系统问题的信息文件查看日志的方法:控制面板 系统安全 管理工具 查看事件日志2.内容一、系统日志采集法——临时文件1.概念:记录系统硬件、软件和系统问题的信息文件2.内容:操作系统日志、应用程序日志、安全日志3.作用:监视系统中发生的事件检查错误发生的原因寻找受到攻击时攻击者留下的痕迹二、 网络数据采集法1.概念:通过网络爬虫、网络公开API(应用程序接口)等方法从网站上获取数据信息在网址后加robots.txt,可以查看本网页是否能被爬取例如:https://www./robots.txt二、 网络数据采集法2.网络爬虫的基本工作流程:根据网页代码的标签名和属性,提取数据控制器解析器存储器二、 网络数据采集法2.网络爬虫的基本工作流程如下:首先,选取一部分精心挑选的种子URL;然后,将这些URL放入待抓取URL队列;接着,从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。最后,分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。二、 网络数据采集法2. 网络爬虫。例如:百度的爬虫Baiduspider 360的爬虫叫360Spider百度spider用户其他网站关键字 主要内容 网址 时间索引索引数据库检索保存二、 网络数据采集法3.HtmlHtml:超文本标志语言的缩写,网页代码的基本组成部分Html元素:决定网页的内容和结构,包含标签、注释等标签:网页代码最基本的组成单位<标签名 属性1 属性2 …>标签内容标签名>开始标签结束标签属性格式:属性名称=属性值浏览器网页显示的内容二、 网络数据采集法3.Html标签<标签名 属性1 属性2 …>标签内容标签名>开始标签结束标签浏览器网页显示的内容我有一双蓝色的眼睛我有一双蓝色的眼睛属性格式:属性名称=属性值二、 网络数据采集法3.Html标签查看网页代码的方法:例如:鼠标指向需爬虫数据右击 审查元素二、 网络数据采集法3.Html标签<标签名 属性1 属性2 …>标签内容标签名>开始标签结束标签浏览器网页显示的内容属性格式:属性名称=属性值span 标签名class 属性二、 网络数据采集法4.扩展库导入模块 import module导入指定模块的指定函数 from module import name导入模块(函数)并新名字替代 import module as 新名字(首字母)模块名语句——《数据与计算》P106 语句作用import numpy as npimport matplotlib.pyplot as pltfrom pylab import *引入numpy库模块,用np替代引入matplotlib库模块中的pyplot方法,用plt替代引入pylab库模块中的所有方法函数名二、 网络数据采集法5.网络爬虫的具体案例all_title = soup.find_all('span', class_="title")for j in all_title:soup_title = bs4.BeautifulSoup(str(j), "html.parser", )title.append(soup_title.span.string)#把爬取的数据添加并存储到title#爬取title并赋值给all_title#爬取title并赋值给soup_title三、 其他数据采集法1.概念传感器等特定接口采集数据传输到数据库管理系统四、 课堂小结五、 课堂练习1.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的( )开始获取。A. URL B. WWW C. HTML D. XML2.利用Python采集网络数据时,导入扩展库的关键字是import。( )3.网络数据采集法主要通过网络爬虫或网站公开API的方式获取网络爬虫,从网页的WWW开始获取。( )4.数据采集的基本方法包括系统日志采集、网络数据采集等方法。( )AABA 展开更多...... 收起↑ 资源预览