资源简介 (共15张PPT)数据处理和可视化表达5.1认识大数据大数据什么是大数据?大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的信息集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据大数据都有哪些特征?角度 特征互联网产生大数据 大量(Volume)、多样(Variety)低价值密度(Value)、高速(Velocity)互联网思维 样本渐趋于总体、精确让位于模糊、相关性重于因果大数据存储与计算 存储在互联网不同的服务器与客户端分布式并行计算大数据讨论大数据对日常生活的影响?正面影响 负面影响1.方便支付2.方便出行3.方便看病与诊病1.个人信息泄露2.信息伤害与诈骗大数据讨论如何避免大数据带来的负面影响?信息泄露方面 信息伤害与诈骗方面1.避免使用不熟悉的网络上网2.不使用信用卡刷卡消费3.保管好手机等电子设备……1.要判断手机收到陌生信息的真伪2.接到关于钱财方面的电话,要多方查证……5.2数据的采集听说过“网络爬虫”嘛?学习“爬虫”有什么用呢?HTML标记语言网络爬虫从一个或若干个初始网页URL(统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面抽取新的URL放入队列,直到满足系统的一定停止条件。网页1网页2网页3网页4URL1URL2URL3URL4网页5URL5网页6URL6Hash表数据采集采集方法 采集工具 应用范围(举例)系统日志采集法 系统导出 导出上网行为管理系统日志网络数据采集法 1.爬虫程序 2.系统导出 3.接口程序 爬取网站数据其他数据采集法 系统接口 生产和业务数据或学术研究数据(高保密性要求)HTML标记语言HTML的英文全称是 Hyper Text Marked Language,即超文本标记语言。用HTML编写的超文本文档称为HTML文档,它能独立于各种操作系统平台(如UNIX, Windows等)。使用HTML语言,将所需要表达的信息按某种规则写成HTML文件,通过专用的浏览器来识别,并将这些HTML文件“翻译”成可以识别的信息,即现在所见到的网页。HTML标记语言标签HTML称为超文本标记语言,是一种标识性的语言。它包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。HTML标记语言标签<标记> 内容 标记>标记和被标记的内容构建出HTML文档HTML标记语言标签的属性值<标记 属性1=属性值 属性2=属性值 ... ... >内容标记>下课 展开更多...... 收起↑ 资源预览