资源简介 (共28张PPT)中物理第五章 数据处理和可视化表达粤教版(2019) 信息技术(高中)5.2.1 数据采集的方法和工具(必修一)1课堂导入淘宝购物平台上各种商品应有尽有,假如你在该平台开了一个零食网店,最近你要调整经营策略,以提高网店的盈利水平。在调整经营策略之前你必须进行前期调研分析,比如通过分析淘宝网上各类零食的销量数据,去重新定位销售商品的种类和价格;通过分析网店销售数据订单,去了解客户的购物喜好,去判断哪些商品可以捆绑销售。从而下架一些销量不好商品和上架一些新的商品。1课堂导入完成前期调研工作,需要获取到哪些数据呢?怎样获取到这些数据呢?从获取数据中怎样提炼出有价值的信息呢?以小组为单位,通过学习、交流,探索和实践,得出可视化结论。1学习目标1、明确数据应用项目的需求,能制定数据采集的需求清单。2、知道数据采集的方法和工具。3、了解数据采集、分析和可视化表达的基本方法。(信息社会责任、计算思维)4、能够利用软件工具或者平台对数据进行整理、组织计算和呈现。(信息社会责任、计算思维)任务一一数据的采集各小组根据选择的项目范例的主题,确定项目的数据需求,列出数据采集清单和内容大纲,采集数据使用的方法和工具,以小组为单位,通过学习和交流,填写下表。编号 项目数据内容大纲 数据来源 采集方法和工具 数据保存方式123任务一一数据的采集各小组根据选择的项目范例的主题,确定项目的数据需求,列出数据采集清单和内容大纲,采集数据使用的方法和工具,以小组为单位,通过学习和交流,填写下表。编号 项目数据内容大纲 数据来源 采集方法和工具 数据保存方式123商品销售数据:包括商品名称、店铺名称、商品价格、商品销量淘宝网-实惠热卖-零食类别方法:网络数据采集法工具:爬虫程序data_sample.csv商品销售数据:包括商品价格、商品销量、商品评论店铺销售订单数据:包括每个订单购买的商品名称淘宝网-实惠热卖-零食类别方法:网络数据采集法工具:爬虫程序淘宝网店铺后台方法:网络数据采集法工具:系统导出、手工记录等taobao.xlssale_orders.xls二数据采集的工具任务二体验安装numpy,scipy,pandas,matplotib四个Python第三方库。任务三运行“绘制正弦函数.py”,观察程序运行结果,以小组为单位,通过学习和交流,填写下表。语句 语句作用import numpy as npimport matplotlib.pyplot as pltfrom pylab import *二数据采集的工具任务三运行“绘制正弦函数.py”,观察程序运行结果,以小组为单位,通过学习和交流,填写下表。语句 语句作用Import numpy as npimport matplotlib.pyplot as pltfrom pylab import *引入numpy库模块,用np替代引入matplotlib库模块中的pyplot方法,用plt替代引入pylab库模块中的所有方法二数据采集的工具任务四1、体验安装、运行xampp并搭建、启动本地网页服务。2、运行“爬取本地网页数据.py”,数据文件内容如下图所示,体验使用爬虫程序采集本地网页数据。二数据采集的工具运行爬虫程序采集本地网页数据需要获取的关键信息有哪些?具体内容是什么?怎么获取到这些信息?以小组为单位,通过学习和交流,填写下表。思考关键信息 具体内容 获取方法网页数据网址商品每项数据的 标签和属性类名二数据采集的工具运行爬虫程序采集本地网页数据需要获取的关键信息有哪些?具体内容是什么?怎么获取到这些信息?以小组为单位,通过学习和交流,填写下表。思考关键信息 具体内容 获取方法网页数据网址商品每项数据的 标签和属性类名 http://127.0.0.1/wholesale.html商品名称标签:a 该标签属性类名:item-title商品价格标签:span 该标签属性类名:price-current订单量标签:a 该标签属性类名:sale-value-link店铺名称标签:a 该标签属性类名:store-namechrome浏览器的检查工具二数据采集的工具用chrome浏览器打开淘宝网-实惠热卖-零食类别,需要爬取的数据内容包括每种商品的商品名称、店铺名称、商品价格和商品销量。思考二数据采集的工具任务五通过修改“爬取购物平台商品销售数据.py”代码,爬取淘宝网-实惠热卖-零食类别中前5页商品的销售数据,数据内容包括每种商品的商品名称、店铺名称、商品价格和商品销量,以小组为单位,通过学习、交流,探究和实践,填写下表。采集商品销售数据程序关键代码 数据文件和内容(截图)二数据采集的工具任务五采集商品销售数据程序关键代码 数据文件和内容(截图)#商品网址url = ‘https://re./search keyword=%E8%BF%9B%E5%8F%A3%E9%9B%B6%E9%A3%9F&catid=50010550&refpid=619362_1007&_input_charset=utf8&clk1=b93e1915c335dd925dfcbf24ae696b12&spm=a21bo.2017.201874-p4p.7.5af911d9f5vIK4’# 商品价格,由于标签strong没有类名, soup.find_all参数用上一级标签及其类名all_price = soup.find_all('span', class_="pricedetail")for l in all_price:soup_price = bs4.BeautifulSoup(str(l), "html.parser")price.append(soup_price.strong.string)#生成每一行数据for n in range(len(title)):data_sheet.write(n, 0, n+1)data_sheet.write(n, 1, title[n]) # n 表示行, 1 表示列data_sheet.write(n, 2, store[n])data_sheet.write(n, 3, price[n])data_sheet.write(n, 4, paynum[n][:-3]) #删除销量的最后三个字符#保存文件wookbook.save("taobao.xls")二数据采集的工具在信息系统中,系统日志是记录系统中硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用程序日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。例如,安全管理信息系统就是以系统日志服务器采集原始日志数据,以日志记录文本文件实现日志数据的监控和保存,以数据库操作进行日志有效信息的管理工作。数据采集的方法—系统日志采集法三数据采集的方法系统日志采集法——临时文件三数据采集的方法概念:记录系统硬件、软件和系统问题的信息文件。内容:操作系统日志、应用程序日志、安全日志。作用:●监视系统中发生的事件●检查错误发生的原因●寻找受到攻击时攻击者留下的痕迹系统日志采集法——临时文件三数据采集的方法查看日志的方法:鼠标右键→事件查看器→windows日志查看日志的方法三数据采集的方法网络数据采集是通过网络爬虫或者网站公开API等方式从网站上获取数据信息。网络爬虫从一个若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。这种方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或者附件的采集,附件和正文可以自动关联。数据采集的方法—网络数据采集法三数据采集的方法查看网页是否被爬取方法三数据采集的方法方法:在网址后加robots.txt,可以查看本网页是否能被爬取。网络爬虫的定义三数据采集的方法定义:网络爬虫,又称为网页蜘蛛、网络机器人,是一种按照一定的规则,自动请求万维网网站并提取网络数据的程序或脚本。如果说网络像一张网,那么爬虫就是网上的一只小虫子,在网上爬行的过程中遇到了数据,就把它抓取下来。这里的数据是指互联网上公开的并且可以访问到的网页信息,而不是网站的后台信息(没有权限访问),更不是用户注册的信息(非公开的)。网络爬虫也叫作网络蜘蛛、网络蚂蚁、网络机器人等,可以自动地浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则去浏览,这些规则我们将其称为网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索。网络爬虫的作用三数据采集的方法作用:①私人订制一个搜索引擎,并且可以对搜索引擎的数据采集工作原理,进行更深层次地理解。②为大数据分析提供更多高质量的数据源。③更好地研究搜索引擎优化。④解决就业或跳槽的问题。第一步:选取一部分精心挑选的种子URL。网络爬虫的基本工作流程三数据采集的方法第四步:分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。第二步:将这些URL放入待抓取URL队列。第三步:从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。网络爬虫的基本工作流程三数据采集的方法对于企业生产经营或者科学研究等保密性要求比较高的数据,可以通过与企业或者研究机构合作,使用特定的系统接口等相关方式收集数据。例如,科学研究的数据是通过科学实验的各种传感器采集,并传输到数据库管理系统中的。数据采集的方法—其他数据采集法三数据采集的方法小结采集方法 数据来源 采集工具 应用范围(举例)系统日志采集法1.信息系统日志数据2.信息系统系统数据系统导出1.导出上网行为管理系统日志2.导出上网行为管理系统客户数据网络数据采集法1.网站存储的数据2.网站公开API(应用程序接口)传输的数据1.爬虫程序2.系统导出3.接口程序1.爬取淘宝网站数据2.从淘宝网店铺后台导出数据3.获取微信企业号公开接口数据其它数据采集法传感器系统接口传感器采集数据传输到数据库管理系统四小结THANKS“” 展开更多...... 收起↑ 资源预览