2023年大学专业课程教学大数据时代课件(共38张PPT)

资源下载
  1. 二一教育资源

2023年大学专业课程教学大数据时代课件(共38张PPT)

资源简介

(共38张PPT)
2023年大学专业课程教学课件
1
2
3
大数据概述
大数据4V特性
相关领域应用
4
相关技术架构
目录
1
大数据概述
大数据产生的背景
什么是大数据
大数据时代
数据量级变化
大数据产生背景
数据量级不断增加 | 根据IDC 监测,人类产生的数据
量正在呈指数级增长,大约每两年翻一番,这个速度在2020
年之前会继续保持下去。
数据结构日趋复杂 | 大量新数据源的出现则导致非结构化、
半结构化数据爆发式的增长
TB
PB
ZB
EB
地球上至今的数据量:
在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;
在2011 年,这个数字达到了1.8ZB。
而有市场研究机构预测:到2020 年,整个世界的数
据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)
说明
互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。
1GB(Gigabyte)=1024MB
1TB(Terabyte)=1024GB
1PB(Petabyte)=1024TB
1EB(Exabyte) =1024PB
1ZB(Zettabyte)=1024EB
大数据时代
变化
数据
在web 2.0的时代,人们从信息的被动接受者变成了主动创造者
全球每秒钟发送 2.9 百万封电子邮件,
每天会有 2.88 万个小时的视频上传到Youtube,
推特上每天发布 5 千万条消息
量级
每月网民在Facebook 上要花费7 千亿分钟,发送和接收的数据高达1.3EB
Google 上每天需要处理24PB 的数据…
数结
多样性
大数据的定义
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
想驾驭这庞大的数据,我们必须了解大数据的特征。
facebook
社交网络

淘宝、ebuy
电子商务

微博、Apps
移动互联

2
大数据的4V特性
体量Volume
多样性Variety
价值密度Value
速度Velocity
数据结构
海量
存储能力
读写速度
实时
大数据
分析
hadoop
hbase
spark
strom
大数据典型特性——存储能力变化
▲ 数据量不断增加,存储能力也随之不断增强
存储能力
大数据典型特性——读写速度提升
▲与云计算相结合的大数据存储速度显著提升
数据体量
读写速度
读写速度
大数据典型特性——多样性发展
▲数据结构更加复杂,呈多样性发展
数据结构
多样性
1
2
3
4
体量Volume
多样性Variety
价值密度Value
速度Velocity
4V


从非结构化数据的超大规模和增长,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍,总数据量的80~90%
大数据的异构和多样性,多种形式(文本、图像、视频、机器数据),无模式或者模式不明显,
不连贯的语法或句义
大量的不相关信息对未来趋势与模式的可预测分析,深度复杂分析,机器学习、人工智能Vs传统商务智能(咨询、报告等)
实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效
3
相关领域应用
军事
①建设公共基础设施应该如何选址?
②怎样有效提高公众生活安全水平?
③人口土地、资源利用如何优化?
④自然灾害、雾霾情况怎样最大化去改善?
⑤城市交通拥堵情况怎么去解决?
合理规划很重要
食品安全
消费行业
金融服务
电子商务
气象
交通环保
医疗卫生
军事
食品安全
消费行业
金融服务
电子商务
气象
交通环保
医疗卫生
VS
优化
城市
实时交通信息:利用社交网络和天气数据来优化最
新的交通情况
智能城市系统:自动通知消防、公安、医院等,迅速
到达现场处理
自然灾害预测:实时监测、对潜在危机做出快速响应,
通过卫星和遥感技术,远程获取灾区情况,制定合理
救援计划
智慧城市建设:宏观调控人口、环境、土地
资源利用等,做高效的城市规划建设
正确
方式
VS
改善
生活
穿戴的装备:根据睡眠模式、热量消耗、心率等
时刻监控健康状况
提高医疗和研发:迅速解码DNA,结合海量病例
迅速制定最优治疗方案
改善安全和执法:国家实时监控恐怖主义,企业
防御网络攻击,警察利用社交、公共资源数据来匹
配犯罪人员信息,捕捉罪犯
正确
方式
用户行为数据
用户消费数据
用户社交等UGC数据
培亚马逊、SMG、淘宝
信用卡中心、蚂蚁金服
谷歌地图、大众点评、美团等APP的自动定位系统
互联网金融数据
支付宝、陆金所
用户地理位置数据
互联网大数据
简单罗列几个行业
fackbook、新浪
合理使用大数据
大数据之提高经济策略
金融服务
电子商务
消费行业
根据用户的喜好、交易记录并制定权重匹配商品,提供准确的推送
根据不同地域、不同年龄段的人群的消费情况及生活习惯,
制定提供最优服务的计划
结合热点、题材、政策和历史数据及趋势分析,制定良好的方向
4
相关技术
云计算
列数据库
实时分析
hadoop生态集群
数据库
数据灵活
低价格
高性能
数据灵活
非关系型(列)




优点
缺点
优点
缺点
易理解
使用方便
支持sql
易于维护
价格昂贵
不能自动切片
固定表结构
读写性能差
高并发读写需求
读写性能高
基于键值对无耦合
数据存储格式丰富
价格低大多免费
不提供sql支持
学习成本高
BI支持弱
关系型数据库
非关系型数据库NoSql
场景不同效果也不同,目前NoSql是最为合适大数据发展的
关系型数据库:Mysql、Oracle、SQserver等
非关系型数据库:Hbase、MongoDB、Redis等



移动电话
PCs
TVs
PDAs
GPS
导航
汽车电子设备
智能家电
iPhone
DCs
传感器
。。。
我们已经进入一个无处不网、无时不网的时代!
云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
云是网络、互联网的一种比喻说法,用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。
大数据与云计算
云计算与大数据的关系是静与动的关系,
前者强调的是计算、存储能力;
大数据需要处理大数据的能力
(数据获取、清洗、转换、存储、分析、统计等能力),
其实就是强大的计算能力和数据存储能力。
大数据必须采用云端分布式架构对海量数据进行分布式存储、分布式处理。
云计算为大数据资源、大数据挖掘提供技术设施
大数据挖掘为云计算建设和运作提供决策
相互关联性
大数据之
实时分析
是指对规模巨大的数据进行分析,利用大数据技术高效的快速完成分析,达到近似实时的效果,更及时的反映数据的价值和意义。
近实时的数据分析,是传统架构的50-1000倍
高效的响应速度在当今互联网显得极为重要
实时大数据分析
spark实时分析框架
共性:开源的分布式系统,具有低延迟、可扩展和容错性诸多优点
流式实时分析框架storm
Hadoop集群
什么是hadoop
集群又是什么?
是编程语言吗?
作用?
设计理念?
跟大数据有什么关系?
Hadoop 是开源平台, 本身不是数据库, 但可处理非结构化数据
这点关系数据库很难做到
java、android等程序是用来做交互的,而hadoop是用来做计算的
哪些公司在使用Hadoop
为什么使用Hadoop
小型机
小型机
VPS
VPS
VPS
VPS
存储阵列
数据移动
EMC存储
Oracle
IBM
磁盘IO瓶颈
带宽瓶颈
计算瓶颈
cpu
cpu
基于共享存储和高性能计算的架构。
大型机和小型机的差别
存储阵列和普通硬盘的差别
IO,稳定性。
IO能力和机器数量成非正比
计算能力和机器数量成正比
scale-up(纵向扩展)
集群思路引入
一户人家,家里有很多的田,他需要牛来耕地,他要怎么来决策耕田的问题呢?
一只普通的牛体力有限,很快就不行了
换一只昂贵的身材健硕的牛呢?
还是体力有限,很快就又不行了
最后他想到一个办法:如果找一群普通的牛,事实不会又便宜又高效呢?
集群的概念就是这么得来的


HDFS: Hadoop Distributed File System 分布式文件系统
MapReduce:分布式运算框架
YARN: Yet Another Resource Negotiator 资源管理调度系统



问题:怎样存储海量数据?
HDFS分布式文件系统
两个思想十分重要
1.切分
2.分装
MapReduce 介绍
MapReduce = Map(拆分)+Reduce(合并、排序)
大数据时代来临
一切真相将会展现在我们面前

展开更多......

收起↑

资源预览