资源简介 (共23张PPT)5.2 数据的采集必修一 《数据与计算》第五章知识回顾:第一章常见的数据类型有哪些?这数据类型用什么设备可以获取?文本,图片,音频,视频等键盘,数码相机,麦克风,数码DV等高中信息技术必修1 数据与计算5.2 数据的采集1、明确数据应用项目的需求,能制定数据采集的需求清单;2、知道数据采集的方法和工具;1、了解数据采集的基本方法。学业要求学习目标高中信息技术必修1 数据与计算5.2 数据的采集1PART ONE什么是数据采集什么是数据采集数据采集是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。(百度百科)数据采集是指根据需求采用适当的方法和工具获取所需要的数据。(课本描述)1数据采集是目前一个重要的研究领域,有大量书籍和研究文献供我们学习。2对于我们而言,从数据采集的过程、数据采集的方法和工具,来理解数据采集。3数据编码数据编码、现有数据获取高中信息技术必修1 数据与计算5.2 数据的采集体验数据采集需要获取什么数据?经纬度去哪儿找经纬度?手机APP手机APP为什么能获取经纬度?GPS定位传感器动手:下载手机APP,获取经纬度。安装时注意,要允许APP获取“位置信息”权限。高中信息技术必修1 数据与计算5.2 数据的采集如何记录当前自己的精确位置?体验数据采集高中信息技术必修1 数据与计算5.2 数据的采集如何记录当前自己的精确位置?2PART TWO数据采集的过程数据采集的过程明确数据应用的需求围绕项目主题,制定数据采集的需求清单和内容大纲。第1步选择适当的方法和工具针对不同数据类型,选择适当的工具,运用有效的方法,进行数据采集。第2步数据的存储和保护采集的数据要选择合适的存储方式并注意数据安全,为数据分析和可视化表达做准备。第3步经纬度手机APP+GPS传感器记录经纬度高中信息技术必修1 数据与计算5.2 数据的采集确定项目的数据需求淘宝购物平台上各种商品应有尽有,假如你在该平台开了一个零食网店,最近你要调整经营策略,以提高网店的盈利水平。在调整经营策略之前你必须进行前期调研分析,比如通过分析淘宝网上各类零食的销量数据,去重新定位销售商品的种类和价格;通过分析网店销售数据订单,去了解客户的购物喜好,去判断哪些商品可以捆绑销售。从而下架一些销量不好商品和上架一些新的商品。那么,你要完成前期调研工作,需要获取到哪些数据呢?完成下表中第2,3列。编号 项目数据内容大纲 数据来源 采集方法和工具 数据保存方式123各类零食销售数据:包括商品名称、店铺名称、商品价格、商品销量淘宝网-零食类别客户购物喜好数据:包括商品价格、商品销量、商品评论店铺销售订单数据:包括每个订单购买的商品名称、数量淘宝网-零食类别淘宝网店铺后台高中信息技术必修1 数据与计算5.2 数据的采集3PART THREE数据采集的方法和工具数据采集的方法传感器采集法利用数据采集设备,检测、采集物理信息,并将其转换为电信号形式表示的一种采集方法。1高中信息技术必修1 数据与计算5.2 数据的采集数据采集的方法传感器采集法利用数据采集设备,检测、采集物理信息,并将其转换为电信号形式表示的一种采集方法。1系统日志采集法利用系统中记录硬件、软件和系统问题的信息文件来采集数据。有操作系统日志、应用程序日志、安全日志等。如:通过Web日志,获取网站点击率。2高中信息技术必修1 数据与计算5.2 数据的采集网络数据采集法通过网络爬虫或网站API(应用程序接口)等方式从网站上获取数据信息。3网络爬虫网络数据采集的工具——网络爬虫1、又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。通常分为通用爬虫和聚焦爬虫。高中信息技术必修1 数据与计算5.2 数据的采集高中信息技术必修1 数据与计算5.2 数据的采集网络数据采集的工具——网络爬虫又称全网爬虫,它将爬取对象从一些种子 URL扩充到整个Web上的网站,主要用途是为门户站点、搜索引擎和大型Web服务提供商采集数据。通用爬虫用户检索爬虫爬取高中信息技术必修1 数据与计算5.2 数据的采集网络数据采集的工具——网络爬虫又称全网爬虫,它将爬取对象从一些种子 URL扩充到整个Web上的网站,主要用途是为门户站点、搜索引擎和大型Web服务提供商采集数据。通用爬虫高中信息技术必修1 数据与计算5.2 数据的采集网络数据采集的工具——网络爬虫又称主题网络爬虫,是指选择性地爬取那些与预先定义好的主题相关的页面的网络爬虫。聚焦爬虫网络爬虫网络数据采集的工具——网络爬虫1、又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。2、网页:是一个包含HTML标签的纯文本文件。3、用户浏览网页:浏览器提交请求->下载网页代码->解析/渲染成页面。4、爬虫程序:模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中。5、Robots协议:用来告知爬虫哪些页面能被抓取,哪些页面不能被抓取。以此为爬虫使用规范。高中信息技术必修1 数据与计算5.2 数据的采集爬虫程序实践搭建“网络商城”网站:安装、并运行XAMPP,启动Apache、MySQL;将文件“wholesale.html”复制到C:\xampp\htdocs目录下。安装Python扩展库:通过pip安装bs4、requests、xlwt、datetime等库。浏览抓取的数据:打开名如“nike*.xls”的excel文件。网站测试:浏览器输入http://127.0.0.1/ wholesale.html ,访问网站,尝试查看网页源码。运行Python IDLE调试:打开“程序5-3-2 爬取程序(教材范例).py”,阅读关键代码,调试运行。12345高中信息技术必修1 数据与计算5.2 数据的采集第1步、第3步可下载微课学习爬虫程序实践高中信息技术必修1 数据与计算5.2 数据的采集动手调试:调试时,记录爬虫程序的关键语句,并说明作用,完成学习资源包中的记录表。思考:如果将刚才爬虫程序中的” url = ‘http://127.0.0.1/wholesale.html’ ”,改成其它网络商城网址,能直接爬取数据吗?确定采集方法和工具淘宝购物平台上各种商品应有尽有,假如你在该平台开了一个零食网店,最近你要调整经营策略,以提高网店的盈利水平。在调整经营策略之前你必须进行前期调研分析,比如通过分析淘宝网上各类零食的销量数据,去重新定位销售商品的种类和价格;通过分析网店销售数据订单,去了解客户的购物喜好,去判断哪些商品可以捆绑销售。从而下架一些销量不好商品和上架一些新的商品。确定数据需求清单后,对比各种采集方法和工具,选择哪种更合适呢?编号 项目数据内容大纲 数据来源 采集方法和工具 数据保存方式123各类零食销售数据:包括商品名称、店铺名称、商品价格、商品销量淘宝网-零食类别客户购物喜好数据:包括商品价格、商品销量、商品评论店铺销售订单数据:包括每个订单购买的商品名称、数量淘宝网-零食类别淘宝网店铺后台方法:网络数据采集法工具:爬虫程序方法:网络数据采集法工具:爬虫程序方法:网络数据采集法工具:系统导出、手工记录等高中信息技术必修1 数据与计算5.2 数据的采集课堂小结:高中信息技术必修1 数据与计算5.2 数据的采集 展开更多...... 收起↑ 资源预览