5.2.1 数据采集的方法和工具 课件(共28张PPT)-高一信息技术(粤教版2019必修1)

资源下载
  1. 二一教育资源

5.2.1 数据采集的方法和工具 课件(共28张PPT)-高一信息技术(粤教版2019必修1)

资源简介

(共28张PPT)
中物理
第五章 数据处理和可视化表达
粤教版(2019) 信息技术(高中)
5.2.1 数据采集的方法和工具
(必修一)
1
课堂导入
淘宝购物平台上各种商品应有尽有,假如你在该平台开了一个零食网店,最近你要调整经营策略,以提高网店的盈利水平。在调整经营策略之前你必须进行前期调研分析,比如通过分析淘宝网上各类零食的销量数据,去重新定位销售商品的种类和价格;通过分析网店销售数据订单,去了解客户的购物喜好,去判断哪些商品可以捆绑销售。从而下架一些销量不好商品和上架一些新的商品。
1
课堂导入
完成前期调研工作,需要获取到哪些数据呢?怎样获取到这些数据呢?从获取数据中怎样提炼出有价值的信息呢?以小组为单位,通过学习、交流,探索和实践,得出可视化结论。
1
学习目标
1、明确数据应用项目的需求,能制定数据采集的需求清单。
2、知道数据采集的方法和工具。
3、了解数据采集、分析和可视化表达的基本方法。(信息社会责任、计算思维)
4、能够利用软件工具或者平台对数据进行整理、组织计算和呈现。(信息社会责任、计算思维)
任务一

数据的采集
各小组根据选择的项目范例的主题,确定项目的数据需求,列出数据采集清单和内容大纲,采集数据使用的方法和工具,以小组为单位,通过学习和交流,填写下表。
编号 项目数据内容大纲 数据来源 采集方法和工具 数据保存方式
1
2
3
任务一

数据的采集
各小组根据选择的项目范例的主题,确定项目的数据需求,列出数据采集清单和内容大纲,采集数据使用的方法和工具,以小组为单位,通过学习和交流,填写下表。
编号 项目数据内容大纲 数据来源 采集方法和工具 数据保存方式
1
2
3
商品销售数据:包括商品名称、店铺名称、商品价格、商品销量
淘宝网-实惠热卖-零食类别
方法:网络数据采集法
工具:爬虫程序
data_sample.csv
商品销售数据:包括商品价格、商品销量、商品评论
店铺销售订单数据:包括每个订单购买的商品名称
淘宝网-实惠热卖-零食类别
方法:网络数据采集法
工具:爬虫程序
淘宝网店铺后台
方法:网络数据采集法
工具:系统导出、手工记录等
taobao.xls
sale_orders.xls

数据采集的工具
任务二
体验安装numpy,scipy,pandas,matplotib四个Python第三方库。
任务三
运行“绘制正弦函数.py”,观察程序运行结果,以小组为单位,通过学习和交流,填写下表。
语句 语句作用
import numpy as np
import matplotlib.pyplot as plt
from pylab import *

数据采集的工具
任务三
运行“绘制正弦函数.py”,观察程序运行结果,以小组为单位,通过学习和交流,填写下表。
语句 语句作用
Import numpy as np
import matplotlib.pyplot as plt
from pylab import *
引入numpy库模块,用np替代
引入matplotlib库模块中的pyplot方法,用plt替代
引入pylab库模块中的所有方法

数据采集的工具
任务四
1、体验安装、运行xampp并搭建、启动本地网页服务。
2、运行“爬取本地网页数据.py”,数据文件内容如下图所示,体验使用爬虫程序采集本地网页数据。

数据采集的工具
运行爬虫程序采集本地网页数据需要获取的关键信息有哪些?具体内容是什么?怎么获取到这些信息?以小组为单位,通过学习和交流,填写下表。
思考
关键信息 具体内容 获取方法
网页数据网址
商品每项数据的 标签和属性类名

数据采集的工具
运行爬虫程序采集本地网页数据需要获取的关键信息有哪些?具体内容是什么?怎么获取到这些信息?以小组为单位,通过学习和交流,填写下表。
思考
关键信息 具体内容 获取方法
网页数据网址
商品每项数据的 标签和属性类名 http://127.0.0.1/wholesale.html
商品名称标签:a 该标签属性类名:item-title
商品价格标签:span 该标签属性类名:price-current
订单量标签:a 该标签属性类名:sale-value-link
店铺名称标签:a 该标签属性类名:store-name
chrome浏览
器的检查工具

数据采集的工具
用chrome浏览器打开淘宝网-实惠热卖-零食类别,需要爬取的数据内容包括每种商品的商品名称、店铺名称、商品价格和商品销量。
思考

数据采集的工具
任务五
通过修改“爬取购物平台商品销售数据.py”代码,爬取淘宝网-实惠热卖-零食类别中前5页商品的销售数据,数据内容包括每种商品的商品名称、店铺名称、商品价格和商品销量,以小组为单位,通过学习、交流,探究和实践,填写下表。
采集商品销售数据程序关键代码 数据文件和内容(截图)

数据采集的工具
任务五
采集商品销售数据程序关键代码 数据文件和内容(截图)
#商品网址
url = ‘https://re./search keyword=%E8%BF%9B%E5%8F%A3%E9%9B%B6%E9%A3%9F&catid=50010550&refpid=619362_1007&_input_charset=utf8&clk1=b93e1915c335dd925dfcbf24ae696b12&spm=a21bo.2017.201874-p4p.7.5af911d9f5vIK4’
# 商品价格,由于标签strong没有类名, soup.find_all参数用上一级标签及其类名
all_price = soup.find_all('span', class_="pricedetail")
for l in all_price:
soup_price = bs4.BeautifulSoup(str(l), "html.parser")
price.append(soup_price.strong.string)
#生成每一行数据
for n in range(len(title)):
data_sheet.write(n, 0, n+1)
data_sheet.write(n, 1, title[n]) # n 表示行, 1 表示列
data_sheet.write(n, 2, store[n])
data_sheet.write(n, 3, price[n])
data_sheet.write(n, 4, paynum[n][:-3]) #删除销量的最后三个字符
#保存文件
wookbook.save("taobao.xls")

数据采集的工具
在信息系统中,系统日志是记录系统中硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用程序日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。
通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
例如,安全管理信息系统就是以系统日志服务器采集原始日志数据,以日志记录文本文件实现日志数据的监控和保存,以数据库操作进行日志有效信息的管理工作。
数据采集的方法—系统日志采集法

数据采集的方法
系统日志采集法——临时文件

数据采集的方法
概念:记录系统硬件、软件和系统问题的信息文件。
内容:操作系统日志、应用程序日志、安全日志。
作用:
●监视系统中发生的事件
●检查错误发生的原因
●寻找受到攻击时攻击者留下的痕迹
系统日志采集法——临时文件

数据采集的方法
查看日志的方法:鼠标右键→事件查看器→windows日志
查看日志的方法

数据采集的方法
网络数据采集是通过网络爬虫或者网站公开API等方式从网站上获取数据信息。网络爬虫从一个若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
这种方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或者附件的采集,附件和正文可以自动关联。
数据采集的方法—网络数据采集法

数据采集的方法
查看网页是否被爬取方法

数据采集的方法
方法:在网址后加robots.txt,可以查看本网页是否能被爬取。
网络爬虫的定义

数据采集的方法
定义:网络爬虫,又称为网页蜘蛛、网络机器人,是一种按照一定的规则,自动请求万维网网站并提取网络数据的程序或脚本。如果说网络像一张网,那么爬虫就是网上的一只小虫子,在网上爬行的过程中遇到了数据,就把它抓取下来。
这里的数据是指互联网上公开的并且可以访问到的网页信息,而不是网站的后台信息(没有权限访问),更不是用户注册的信息(非公开的)。
网络爬虫也叫作网络蜘蛛、网络蚂蚁、网络机器人等,可以自动地浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则去浏览,这些规则我们将其称为网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索。
网络爬虫的作用

数据采集的方法
作用:
①私人订制一个搜索引擎,并且可以对搜索引擎的数据采集工作原理,进行更深层次地理解。
②为大数据分析提供更多高质量的数据源。
③更好地研究搜索引擎优化。
④解决就业或跳槽的问题。
第一步:选取一部分精心挑选的种子URL。
网络爬虫的基本工作流程

数据采集的方法
第四步:分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
第二步:将这些URL放入待抓取URL队列。
第三步:从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
网络爬虫的基本工作流程

数据采集的方法
对于企业生产经营或者科学研究等保密性要求比较高的数据,可以通过与企业或者研究机构合作,使用特定的系统接口等相关方式收集数据。
例如,科学研究的数据是通过科学实验的各种传感器采集,并传输到数据库管理系统中的。
数据采集的方法—其他数据采集法

数据采集的方法
小结
采集方法 数据来源 采集工具 应用范围(举例)
系统日志采集法
1.信息系统日志数据
2.信息系统系统数据
系统导出
1.导出上网行为管理系统日志
2.导出上网行为管理系统客户数据
网络数据采集法
1.网站存储的数据
2.网站公开API(应用程序接口)传输的数据
1.爬虫程序
2.系统导出
3.接口程序
1.爬取淘宝网站数据
2.从淘宝网店铺后台导出数据
3.获取微信企业号公开接口数据
其它数据采集法
传感器
系统接口
传感器采集数据传输到数据库管理系统

小结
THANKS

展开更多......

收起↑

资源预览