模块5 大数据技术及其应用 课件(共36张PPT) -2024--2025学年中职《信息技术(拓展模块)》(电子工业出版社)

资源下载
  1. 二一教育资源

模块5 大数据技术及其应用 课件(共36张PPT) -2024--2025学年中职《信息技术(拓展模块)》(电子工业出版社)

资源简介

(共36张PPT)
信息技术(拓展模块)
模块5 大数据技术及其应用
【问题探析】
【问题5-1】 如何正确理解大数据和大数据技术的
基本概念?
从一般意义上讲,大数据是指无法在一定时间范围内用常规软件工具进行获取、存储、管理和处理的数据集合,需要具有新型处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据由巨型数据集组成,这些数据集的大小常超出人类在可接受时间内的收集、使用、管理和处理能力。
适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
【问题探析】
【问题5-2】 大数据的核心特征有哪些?
目前,业界对大数据还没有一个统一的定义,但是大家普遍认为,大数据具备Volume(规模性)、Velocity(高速性)、Variety(多样性)和Value(低价值密度)4个特征,简称“4V”特征,即数据规模大、数据处理速度快、数据类型繁多和数据价值密度低,如图5-1所示。
【问题探析】
【问题探析】
【问题5-3】 大数据的结构类型有哪几种?
大数据的结构类型多种多样,主要可以归纳为结构化数据、半结构化数据、准结构化数据和非结构化数据4种。
【问题探析】
【问题5-4】 如何进行大数据采集?
大数据采集是指从各种不同的数据源中获取数据并进行数据存储与管理,为后面的数据分析与建模做好准备。
1.大数据的来源
大数据的来源可以概括为下几个方面。
(1)Web端,包括基于浏览器的网络爬虫或者API。
(2)App端,包括无线客户端采集SDK或者埋点。
(3)传感器,如将物联网测量值转化成数字信号。
(4)数据库,涉及源业务系统和数据同步,包括结构化数据与非结构化数据。
(5)第三方数据,一般是由合作方提供的,如政府公布的数据。
【问题探析】
2.大数据采集的方法
针对不同的数据,大数据采集的方法也有所不同。
1)采集内容数据
采集这类数据可以使用Hadoop、Spark、Cloudera等专门的海量数据采集工具,这些工具采用分布式架构,能满足每秒数百兆字节的数据采集和传输需求。
【问题探析】
2)采集网络数据
采集这类数据可以通过网络爬虫或网站公开的应用程序接口等方式从网站获取数据信息。这些采集方式可以将非结构化数据从网页中提取出来,并以结构化的方式将其存储为统一的本地数据文件,无论是对数字、文本,还是对图片、音频、视频等文件,都可以实现采集操作。
3)采集其他企业或组织机构的内部数据
对于某些企业的生产经营数据或研究机构的学科研究数据等保密性要求较高的数据,可以通过与该企业或研究机构开展合作,使用特定系统接口等相关方式进行采集。
【问题探析】
【问题5-5】 如何进行大数据预处理?
大数据预处理主要分为4个步骤:数据清洗、数据集成、数据规约和数据变换,如图5-3所示。每个步骤都需要分别完成各自的工作。
【问题探析】
【问题5-6】 如何实现大数据存储与管理?
1.新型数据库的常见类型
1)NoSQL数据库
NoSQL数据库抛弃了关系模型并能够在集群中运行,不用事先修改结构定义也可以自由添加字段,这些特征决定了NoSQL非常适用于大数据环境,使NoSQL得到了迅猛的发展和推进。
对于NoSQL,它所采用的数据模型并非传统关系数据库的关系模型,而是类似键-值、列族、文档等非关系模型。因此,与传统关系数据库相比,NoSQL具有易扩展性、高性能、高可用、灵活的数据模型等特点。
【问题探析】
2)NewSQL数据库
NewSQL数据库是对各种新的可扩展、高性能数据库的简称,这类数据库不仅具有对海量数据的存储管理能力,而且保持了传统数据库支持ACID和SQL等的特性。目前,NewSQL数据库主要有Spanner、Clustrix、VoltDB、RethinkDB、ScaleDB等。其中,Spanner是可以全球扩展并且支持外部一致性的数据库。
【问题探析】
3)分布式文件系统
分布式文件系统(Distributed File System,DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,或是若干不同的逻辑磁盘分区、卷标组合在一起而形成的完整的有层次的文件系统。
4)云数据库
云数据库是指被优化或部署到一个虚拟计算环境中的数据库,拥有按需付费、按需扩展、高可用性和存储整合等优势。
【问题探析】
2.目前主流的大数据存储与管理技术
在大数据场景下,数据量呈爆发式增长,而数据存储能力的增长远远赶不上数据量的增长,因此,选择合适的大数据存储与管理技术十分重要。目前主流的大数据存储与管理技术包括直接附加存储、网络附加存储、存储区域网络、iSCSI网络存储4种。
【问题探析】
【问题5-7】 如何进行大数据分析与挖掘?
1.数据处理与分析的概念
数据处理与分析是指利用统计学、机器学习和数据挖掘的方法,对数据进行处理和分析并得到有价值的结果的过程。
数据分析分为广义的数据分析和狭义的数据分析。
狭义的数据分析是指根据分析目的,用适当的统计分析方法和工具,对收集来的数据进行处理和分析,提取有价值的信息的过程;
广义的数据分析是指利用统计学、机器学习、数据挖掘等领域的算法和分析方法对收集的数据进行分析,提取有用信息,形成结论的过程。
数据分析方法有3类,分别是基本分析方法、高级分析方法、数据挖掘方法。
【问题探析】
2.大数据分析与挖掘的算法模式
大数据分析与挖掘的算法模式主要包括分类、聚类、关联规则。
3.大数据分析方法
数据分析是指利用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总、理解和消化,以求最大化地开发数据的功能,发挥数据的作用。
大数据分析是指利用正确的分析方法和分析工具对经过预处理的大数据进行分析,从中提取出具有价值的信息,为大数据可视化环节提供关键的数据结果。常用的大数据分析方法有多维聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析等。
【问题探析】
4.数据挖掘的概念
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取出隐含其中的、人们事先不知道的但又有潜在价值的信息和知识的过程。数据挖掘可以使用统计学、人工智能、机器学习等算法从大量的数据中挖掘出未知的、有价值的信息和知识。
数据挖掘主要有数据准备、规律寻找和规律表示3个步骤。
数据准备是指从相关的数据源中选取所需的数据并将其整合成用于数据挖掘的数据集;
规律寻找是指用某种方法将数据集所含的规律找出来;
规律表示是指尽可能以用户可以理解的方式将找出的规律表示出来。
【问题探析】
5.大数据挖掘的基本环节
大数据挖掘是指提取隐含在数据中的、人们事先不知道的但又有潜在价值的信息和知识,是一个发现数据特征和模式的过程。一般来说,大数据挖掘的过程包含6个环节,分别是问题识别、数据理解、数据准备、数据建模、模型评价和部署应用。
6.大数据挖掘常用的方法
大数据挖掘常用的方法主要有神经网络算法、遗传算法、决策树方法、粗糙集方法、覆盖正例排斥反例方法、统计分析方法、模糊集方法等。
【问题探析】
【问题5-8】 如何实现大数据可视化?
大数据可视化可以将大数据分析和挖掘出的信息以图形化等充满视觉元素的方式展示出来,使数据变得更加直观、可信并具有美感。大数据可视化随着平台的拓展、应用领域的增加,表现形式不断变化,从原始的统计图表到不断增加的诸如实时动态效果、地理信息、用户交互等对象。大数据可视化的应用范围也在不断扩大。
【问题探析】
大数据可视化技术是指运用计算机图形学和图像处理技术,将数据转换为可以在屏幕上显示出来的图形或图像,并利用数据分析和开发工具发现其中未知信息的交互处理的理论、方法和技术。其本质是借助图形化手段,清晰有效地传达与沟通信息。大数据可视化最常用的表现形式是统计图表,常用的统计图表包括折线图、柱形图、饼图、散点图、雷达图及仪表图等。
【问题探析】
【问题5-9】 如何正确使用大数据分析工具Hadoop?
Hadoop是一个对大量数据进行分布式处理的软件架构,可以将海量数据分布式地存储在集群中,并使用分布式并行程序来处理这些数据。它被设计成从单一的服务器扩展到成千上万台计算机,在每台计算机上部署集群并提供本地计算和存储。Hadoop生态系统目前已经成为处理海量数据的首选框架。
Hadoop框架包含用于解决大数据存储的HDFS、用于解决分布式计算的MapReduce和YARN(分布式资源管理系统)3个部分。
【问题探析】
随着Hadoop的快速发展,很多组件也被相继开发出来。这些组件各有特点,共同服务于Hadoop工程,并且与Hadoop一起构成了Hadoop生态系统,如图5-8所示。
【问题探析】
【问题5-10】 如何正确使用大数据分析工具Spark?
目前,Spark生态系统已经发展成一个可应用于大规模数据处理的统一分析引擎。它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台系统。Spark生态系统如图5-9所示。
【问题探析】
Spark生态系统的主要组成部分说明如下。
① Spark Core(Spark核心)提供底层框架及核心支持。
② Spark SQL是操作结构化数据的核心组件,通过它可以直接查询Hive、HBase等多种外部数据源中的数据。
③ Spark Streaming是流式计算框架,支持高吞吐量、可容错处理的实时流式数据处理。
【问题探析】
④ MLlib是MLBase的一部分,也是Spark的数据挖掘算法库,实现了一些常见的机器学习算法和实用程序,包括分类、回归、聚类、协同过滤、降维及底层优化。
⑤ GraphX是分布式图处理框架,拥有图计算和图挖掘算法的API接口及丰富的功能和运算符,方便了用户对分布式图的处理需求,能在海量数据上运行复杂的图算法。
【问题探析】
【问题5-11】 如何应对大数据面临的安全问题?
1.大数据安全的定义
大数据安全包括数据本身的安全和数据防护的安全。
数据本身的安全是指采用密码算法对数据流进行主动保护,如数据保密、数据完整性、双向强身份认证等;
数据防护的安全是指采用现代信息存储手段对数据进行主动防护,如通过磁盘阵列、数据备份、异地实时备份等手段保证数据的安全。
【问题探析】
数据安全是一种主动的措施,数据本身的安全必须基于可靠的加密算法与安全体系。
大数据安全有两层含义,一层是保障大数据计算过程、数据形态、应用价值的安全,主要是保证大数据安全;另一层是将大数据用于解决安全问题,也就是利用大数据技术提升安全能力和安全效果。
【问题探析】
2.大数据安全的基本特点
大数据安全的基本特点有3个,分别是保密性、完整性、可用性。
3.大数据的不安全因素
(1)大数据成为网络攻击的目标。
(2)大数据加大了隐私泄露的风险。
(3)大数据技术成为黑客攻击的手段。
(4)大数据成为可持续攻击的目标。
【问题探析】
【问题5-12】 造成大数据应用面临风险的
主要原因有哪些?
大数据应用面临的最严重的安全问题和风险就是隐私泄露问题,而造成这种现象的原因是多种多样的,总结起来主要有以下4个方面。
(1)滥用和非法使用大数据。
(2)内部人员非法使用大数据。
(3)不安全的应用编程接口。
(4)资源隔离问题。
【问题探析】
【问题5-13】 大数据安全防护措施有哪些?
大数据在应用过程中面临的安全问题是多种多样的,其安全防护措施归纳起来主要有如下3个方面。
1.大数据存储安全防护
(1)通过加密手段保护数据安全,如采用专用的程序对存储数据进行加密,同时将加密数据和密钥分开存储和管理。
(2)通过加密手段实现数据通信安全,如通过加密通信来保证数据节点和应用程序之间通信数据的安全性。
(3)通过数据灾难备份机制确保大数据的恢复能力。
【问题探析】
2.大数据应用安全防护
(1)对大数据核心业务系统和数据进行集中管理,保持数据口径一致,通过严格的授权访问控制来实现在规定范围内使用大数据资源,防止越权使用。
(2)针对部分敏感字段进行过滤处理,对敏感字段进行屏蔽,防止重要数据外泄。
(3)通过统一身份认证与权限控制技术,对用户进行严格的访问控制。
【问题探析】
3.大数据管理安全防护
(1)从数据层面建立较为完整的大数据模型,建立统一的数据管理机制,实现大数据管理的集中化、标准化、安全化。
(2)依据数据的价值与应用的性质将数据分为在线数据、近线数据、历史数据、归档数据、销毁数据等,分别制定相应的安全管理策略,有针对性地使用和保护不同阶段的数据,解决大数据管理策略单一所带来的安全防护措施不匹配、性能瓶颈等问题。
(3)汇总、收集数据访问操作日志和基础数据库数据,手工维护操作日志,实现对大数据使用安全记录的监控和查询统计,建立数据使用安全审计规则库,实现数据使用安全的自动审计和人工审计。
(4)对大数据平台的运行状态数据进行监控与检测,保证系统正常运行。
【操作训练】
【任务5-1】探析大数据的典型应用场景
大数据技术在政府机关、电子商务、金融、医疗、能源、交通、制造、教育等领域都有广泛应用。具体来说,关联分析、趋势预测和决策支持是使用比较多的应用场景。
【操作训练】
【任务5-2】采集并分析京东商城的手机数据
本次任务将利用“八爪鱼采集器”采集京东商城手机的品种、品牌、价格、评价等数据,利用Python+ Pandas对数据进行预处理、分析和可视化操作。
1.采集京东商城的手机数据
“八爪鱼采集器”是一款热门的网络数据采集软件,它具备模板采集、自定义采集、云采集等多种功能。下面利用该软件的模板采集功能完成数据的采集任务。
【操作训练】
2.处理并分析数据
打开采集到的Excel数据,删除多余数据,数据样例如图5-25所示。
对数据进行预处理,通过创建饼图等操作来实现对数据的处理与分析。
快乐学习、高效学习

展开更多......

收起↑

资源预览