资源简介 (共25张PPT)5.2 数据的采集网购平台为什么总能知道你想买什么?01数据采集的方法和工具数据的存储和保护CONTENTS021.数据采集的方法和工具1系统日志采集法2网络数据采集法3其他数据采集法系统日志包括操作系统日志、应用程序日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。系统日志采集法是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。网络数据采集法API(Application Programming Interface,应用程序接口)是一组定义、程序及协议的集合,通过 API接口实现计算机软件之间的相互通信。URL(Uniform Resource Locator,统一资源定位符)是因特网的万维网服务程序上用于指定信息位置的表示方法。它最初是由蒂姆·伯纳斯·李发明用来作为万维网的地址。网络爬虫:(又称为网页蜘蛛,网络机器人)是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。Python 中的扩展库(1)NumPy。NumPy(Numerical Python)是构建科学计算最基础的软件库,为Python中的n维数组和矩阵的操作提供了大量有用的功能。该库还提供了NumPy数组类型的数学运算向量化,可以提升性能,加快执行速度。Python 中的扩展库(2)SciPy。SciPy是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块。SciPy的主要功能建立在 NumPy 的基础之上,因此它的数组大量使用了NumPy。它通过其特定的子模块提供高效的数值例程操作,如数值积分等。SciPy的所有子模块中的函数都有详细的介绍文档。Python 中的扩展库(3)Pandas。Pandas是一个Python包,旨在通过标记(labeled)和关系(relational)数据进行工作,简单直观。Pandas是data wrangling的完美工具。它设计用于快速简单的数据操作、聚合和可视化。库中有两个主要的数据结构,一维数组(Series)和二维数组(DataFrame)结构。Python 中的扩展库(4)Matplotlib。Matplotlib是Python的一个2D绘图库,以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。在NumPy、SciPy和Pandas的帮助下,通过 Matplotlib,开发者仅需输入几行代码,便可以生成绘图、直方图、功率谱、条形图、散点图等。Python引入第三方库的两种方法:1、在Python模块库中有大量模块可供使用,使用import语句导入模块的语法如下:Import module关键字 模块名2、from import语句也是导入模块的一种方法,是导入指定模块内的指定函数方法。使用from import语句导入模块内指定方法的语法如下:from module import name关键字 模块名 关键字 方法名实践体验打开并运行配套学习资源包“第五章\课本素材\程序5-1 5-2”体会import语句的作用及爬取网络资源的过程。对于企业生产经营或科学研究等保密性要求较高的数据,可通过与企业或研究机构合作,使用特定系统接口等相关方式收集数据。例如,科学研究的数据是通过科学实验的各种传感器采集,并传输到数据库管理系统中的。其他数据采集法2.数据的存储1本地存储2云存储云存储是把各类数据存储在虚拟的逻辑模型里,其物理空间存储在跨越多个地域放置的众多服务器中,为用户提供统一、灵活、安全的“云存储服务”。云存储供应商拥有并管理这些服务器,负责管理数据的使用和访问权限,以及云存储环境的日常运营和维护。数据的存储采用分布式文件存储或NoSQL数据库存储。2.数据的保护1数据安全保护技术2数据的隐私保护数据安全保护指数据不被破坏、更改、泄露或丢失。安装杀毒软件和防火墙只能防备数据安全隐患,而采用拷贝、备份、复制、镜像、持续备份等技术进行数据保护才是更为彻底、有效的方法。数据加密加密技术通常分为对称式加密和非对称式加密两大类。对称式加密指加密和解密用的是同一个密钥。非对称式加密指加密和解密用的是两个不同的密钥,必须配对使用,否则不能打开加密数据。数据的隐私保护解决隐私泄露问题的方法主要有:一是技术手段,常用的隐私保护有:①数据收集时进行数据精度处理;②数据共享时进行访问控制;③数据发布时进行人工加扰;④数据分析时进行数据匿名处理等。二是提高自身的保护意识。三是要对数据使用者进行道德和法律上的约束。拓展提高Cookies是指用户浏览网页时,网络服务器以文本格式存储在用户电脑硬盘上的少量数据。Cookies的主要目的是帮助网站记忆用户之前可能进行的操作。网站通过获取并分析属于用户的Cookies,为用户提供设置或推送服务。体验查找Cookies的所在位置1.选择网页浏览器,右键选择“属性”。2.在弹出的“Internet选项”窗口选择“设置”按钮。3.在弹出的新窗口“网站数据设置”中,当前位置就是Cookies所在的位置,可以选择“查看文件”按钮找到文件所在处。小组讨论谈谈如何有效组织Cookies跟踪或者跨站跟踪的行为。课后作业了解智能手环采集数据的过程,分析智能手环是如何利用采集的数据给予用户建议的。 展开更多...... 收起↑ 资源预览