5.2.1 数据采集的方法和工具课件(共28张PPT)-高一信息技术（粤教版2019必修1）

资源简介

(共28张PPT)
中物理
第五章数据处理和可视化表达
粤教版（2019）信息技术（高中）
5.2.1 数据采集的方法和工具
（必修一）
1
课堂导入
淘宝购物平台上各种商品应有尽有，假如你在该平台开了一个零食网店，最近你要调整经营策略，以提高网店的盈利水平。在调整经营策略之前你必须进行前期调研分析，比如通过分析淘宝网上各类零食的销量数据，去重新定位销售商品的种类和价格；通过分析网店销售数据订单，去了解客户的购物喜好，去判断哪些商品可以捆绑销售。从而下架一些销量不好商品和上架一些新的商品。
1
课堂导入
完成前期调研工作，需要获取到哪些数据呢？怎样获取到这些数据呢？从获取数据中怎样提炼出有价值的信息呢？以小组为单位，通过学习、交流，探索和实践，得出可视化结论。
1
学习目标
1、明确数据应用项目的需求，能制定数据采集的需求清单。
2、知道数据采集的方法和工具。
3、了解数据采集、分析和可视化表达的基本方法。（信息社会责任、计算思维）
4、能够利用软件工具或者平台对数据进行整理、组织计算和呈现。（信息社会责任、计算思维）
任务一
一
数据的采集
各小组根据选择的项目范例的主题，确定项目的数据需求，列出数据采集清单和内容大纲，采集数据使用的方法和工具，以小组为单位，通过学习和交流，填写下表。
编号项目数据内容大纲数据来源采集方法和工具数据保存方式
1
2
3
任务一
一
数据的采集
各小组根据选择的项目范例的主题，确定项目的数据需求，列出数据采集清单和内容大纲，采集数据使用的方法和工具，以小组为单位，通过学习和交流，填写下表。
编号项目数据内容大纲数据来源采集方法和工具数据保存方式
1
2
3
商品销售数据：包括商品名称、店铺名称、商品价格、商品销量
淘宝网-实惠热卖-零食类别
方法：网络数据采集法
工具：爬虫程序
data_sample.csv
商品销售数据：包括商品价格、商品销量、商品评论
店铺销售订单数据：包括每个订单购买的商品名称
淘宝网-实惠热卖-零食类别
方法：网络数据采集法
工具：爬虫程序
淘宝网店铺后台
方法：网络数据采集法
工具：系统导出、手工记录等
taobao.xls
sale_orders.xls
二
数据采集的工具
任务二
体验安装numpy，scipy，pandas，matplotib四个Python第三方库。
任务三
运行“绘制正弦函数.py”，观察程序运行结果，以小组为单位，通过学习和交流，填写下表。
语句语句作用
import numpy as np
import matplotlib.pyplot as plt
from pylab import *
二
数据采集的工具
任务三
运行“绘制正弦函数.py”，观察程序运行结果，以小组为单位，通过学习和交流，填写下表。
语句语句作用
Import numpy as np
import matplotlib.pyplot as plt
from pylab import *
引入numpy库模块，用np替代
引入matplotlib库模块中的pyplot方法，用plt替代
引入pylab库模块中的所有方法
二
数据采集的工具
任务四
1、体验安装、运行xampp并搭建、启动本地网页服务。
2、运行“爬取本地网页数据.py”，数据文件内容如下图所示，体验使用爬虫程序采集本地网页数据。
二
数据采集的工具
运行爬虫程序采集本地网页数据需要获取的关键信息有哪些？具体内容是什么？怎么获取到这些信息？以小组为单位，通过学习和交流，填写下表。
思考
关键信息具体内容获取方法
网页数据网址
商品每项数据的标签和属性类名
二
数据采集的工具
运行爬虫程序采集本地网页数据需要获取的关键信息有哪些？具体内容是什么？怎么获取到这些信息？以小组为单位，通过学习和交流，填写下表。
思考
关键信息具体内容获取方法
网页数据网址
商品每项数据的标签和属性类名 http://127.0.0.1/wholesale.html
商品名称标签：a 该标签属性类名：item-title
商品价格标签：span 该标签属性类名：price-current
订单量标签：a 该标签属性类名：sale-value-link
店铺名称标签：a 该标签属性类名：store-name
chrome浏览
器的检查工具
二
数据采集的工具
用chrome浏览器打开淘宝网-实惠热卖-零食类别，需要爬取的数据内容包括每种商品的商品名称、店铺名称、商品价格和商品销量。
思考
二
数据采集的工具
任务五
通过修改“爬取购物平台商品销售数据.py”代码，爬取淘宝网-实惠热卖-零食类别中前5页商品的销售数据，数据内容包括每种商品的商品名称、店铺名称、商品价格和商品销量，以小组为单位，通过学习、交流，探究和实践，填写下表。
采集商品销售数据程序关键代码数据文件和内容（截图）
二
数据采集的工具
任务五
采集商品销售数据程序关键代码数据文件和内容（截图）
#商品网址
url = ‘https://re./search keyword=%E8%BF%9B%E5%8F%A3%E9%9B%B6%E9%A3%9F&catid=50010550&refpid=619362_1007&_input_charset=utf8&clk1=b93e1915c335dd925dfcbf24ae696b12&spm=a21bo.2017.201874-p4p.7.5af911d9f5vIK4’
# 商品价格，由于标签strong没有类名， soup.find_all参数用上一级标签及其类名
all_price = soup.find_all('span', class_="pricedetail")
for l in all_price:
soup_price = bs4.BeautifulSoup(str(l), "html.parser")
price.append(soup_price.strong.string)
#生成每一行数据
for n in range(len(title)):
data_sheet.write(n, 0, n+1)
data_sheet.write(n, 1, title[n]) # n 表示行， 1 表示列
data_sheet.write(n, 2, store[n])
data_sheet.write(n, 3, price[n])
data_sheet.write(n, 4, paynum[n][:-3]) #删除销量的最后三个字符
#保存文件
wookbook.save("taobao.xls")
二
数据采集的工具
在信息系统中，系统日志是记录系统中硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用程序日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序，将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。
通过日志服务器可以监视系统中发生的事件，可以检查错误发生的原因，或者寻找受到攻击时攻击者留下的痕迹。
例如，安全管理信息系统就是以系统日志服务器采集原始日志数据，以日志记录文本文件实现日志数据的监控和保存，以数据库操作进行日志有效信息的管理工作。
数据采集的方法—系统日志采集法
三
数据采集的方法
系统日志采集法——临时文件
三
数据采集的方法
概念：记录系统硬件、软件和系统问题的信息文件。
内容：操作系统日志、应用程序日志、安全日志。
作用：
●监视系统中发生的事件
●检查错误发生的原因
●寻找受到攻击时攻击者留下的痕迹
系统日志采集法——临时文件
三
数据采集的方法
查看日志的方法：鼠标右键→事件查看器→windows日志
查看日志的方法
三
数据采集的方法
网络数据采集是通过网络爬虫或者网站公开API等方式从网站上获取数据信息。网络爬虫从一个若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。
这种方法可以将非结构化数据从网页中抽取出来，将其存储为统一的本地数据文件，并以结构化的方式存储。它支持图片、音频、视频等文件或者附件的采集，附件和正文可以自动关联。
数据采集的方法—网络数据采集法
三
数据采集的方法
查看网页是否被爬取方法
三
数据采集的方法
方法：在网址后加robots.txt，可以查看本网页是否能被爬取。
网络爬虫的定义
三
数据采集的方法
定义：网络爬虫，又称为网页蜘蛛、网络机器人，是一种按照一定的规则，自动请求万维网网站并提取网络数据的程序或脚本。如果说网络像一张网，那么爬虫就是网上的一只小虫子，在网上爬行的过程中遇到了数据，就把它抓取下来。
这里的数据是指互联网上公开的并且可以访问到的网页信息，而不是网站的后台信息（没有权限访问)，更不是用户注册的信息(非公开的)。
网络爬虫也叫作网络蜘蛛、网络蚂蚁、网络机器人等，可以自动地浏览网络中的信息，当然浏览信息的时候需要按照我们制定的规则去浏览，这些规则我们将其称为网络爬虫算法。使用Python可以很方便地编写出爬虫程序，进行互联网信息的自动化检索。
网络爬虫的作用
三
数据采集的方法
作用：
①私人订制一个搜索引擎，并且可以对搜索引擎的数据采集工作原理，进行更深层次地理解。
②为大数据分析提供更多高质量的数据源。
③更好地研究搜索引擎优化。
④解决就业或跳槽的问题。
第一步：选取一部分精心挑选的种子URL。
网络爬虫的基本工作流程
三
数据采集的方法
第四步：分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。
第二步：将这些URL放入待抓取URL队列。
第三步：从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。
网络爬虫的基本工作流程
三
数据采集的方法
对于企业生产经营或者科学研究等保密性要求比较高的数据，可以通过与企业或者研究机构合作，使用特定的系统接口等相关方式收集数据。
例如，科学研究的数据是通过科学实验的各种传感器采集，并传输到数据库管理系统中的。
数据采集的方法—其他数据采集法
三
数据采集的方法
小结
采集方法数据来源采集工具应用范围（举例）
系统日志采集法
1.信息系统日志数据
2.信息系统系统数据
系统导出
1.导出上网行为管理系统日志
2.导出上网行为管理系统客户数据
网络数据采集法
1.网站存储的数据
2.网站公开API(应用程序接口)传输的数据
1.爬虫程序
2.系统导出
3.接口程序
1.爬取淘宝网站数据
2.从淘宝网店铺后台导出数据
3.获取微信企业号公开接口数据
其它数据采集法
传感器
系统接口
传感器采集数据传输到数据库管理系统
四
小结
THANKS
“
”

展开更多......

收起↑

请用微信扫码

5.2.1 数据采集的方法和工具 课件(共28张PPT)-高一信息技术（粤教版2019必修1）

5.2.1 数据采集的方法和工具 课件(共28张PPT)-高一信息技术（粤教版2019必修1）

5.2.1 数据采集的方法和工具课件(共28张PPT)-高一信息技术（粤教版2019必修1）

5.2.1 数据采集的方法和工具课件(共28张PPT)-高一信息技术（粤教版2019必修1）