第五章《数据处理和可视化表达》课件(共53张PPT) 2023—2024学年粤教版(2019)高中信息技术必修1

资源下载
  1. 二一教育资源

第五章《数据处理和可视化表达》课件(共53张PPT) 2023—2024学年粤教版(2019)高中信息技术必修1

资源简介

(共53张PPT)
第五章 数据处理和可视化表达
多样化的数据
都是什么呢?
地理位置信息
网络日志
你从哪个网页跳转来?
你点击了哪些商品?
商品页面上停留的时间?
评价关注程度
颜色偏好
品牌偏好
数据的概念
数据是现实世界客观事物的符号记录,是信息的载体,是计算机加工的对象,如图像、视频、音频、文本(文字、数值、字符)等。
计算机科学中的数据
数据是对所有输入计算机并被计算机识别、存储和处理的符号的总称,是联系现实世界和计算机世界的途径。
数据的概念
数据是现实世界客观事物的符号记录,是信息的载体,是计算机加工的对象,如图像、视频、音频、文本(文字、数值、字符)等。
数据的基本特征
(1)二进制。
在计算机中,数据以二进制的形式存储、加工。
(2)语义性。
语义是将数据符号解释为客观世界的事物。
(3)分散性。
数据是分散的记录,分别记录不同客观事物的运动状态。
120
某个小朋友的身高是120cm
衣服的价格是120元
(4)多样性和感知性。
数据记录的形式是多样的、可看的、可听的、可感知的,如图形、图像、视频、音频、文字等。
汽车在高速路上的行驶速度为120km/h
二进制:由0,1两个数码来表示数据。
练一练(P8 1):
(单选题)1、下列选项中不属于数据的是 ( )
A、进入商场时用额温枪测量的体温
B、教室里电子时钟显示的时间
C、春游时手机里拍摄的风景照片
D、记录旅行日记的笔记本
D
大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
一、认识大数据
二、大数据的特征
多样化:即数据类型繁多
都是什么呢?
地理位置信息
网络日志
你从哪个网页跳转来?
你点击了哪些商品?
商品页面上停留的时间?
评价关注程度
颜色偏好
品牌偏好
价值密度低
比如视频,在连续不间断存储的监控视频中,有用的数据可能只有一两秒。
变化速度快
二、大数据的特征
二、大数据的特征
三、大数据对日常生活的影响
方便支付
方便出行
方便购物与产品推介
三、大数据对日常生活的影响
P64 例1、例2、例3、例4
P67 1、2
P69 16-21
【二、数据的采集】
(一)数据采集的方法与工具
1.系统日志采集法
在信息系统中,系统日志是记录系统硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用日志和安全日志。
系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。
        
【二、数据的采集】
(一)数据采集的方法与工具
2.网络数据采集法:
网络数据采集:指通过网络爬虫或网站公开API(Application Programming Interface, 应用程序接口)等方式从网站上获取数据信息。
网络爬虫的过程
工作过程:
(1)从一个或若干初始网页的URL(Uniform Resource Locator,统一资源定位符)开始,获得初始网页上的URL。
(2)在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列, 直到满足系统的一定停止条件。
采集类型:支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
【二、数据的采集】
(一)数据采集的方法与工具
3.其他数据采集法。
应用领域:企业生产经营或科学研究等保密性要求较高的数据。
使用方法:与企业或研究机构合作,使用特定系统接口等相关方式收集数据
例如:科学研究的数据是通过科学实验的各种传感器采集,并传输到数据库管理系统中的。
【二、数据的采集】
(一)数据采集的方法对比
采集方法 数据来源 采集工具 应用范围(举例)
系统日志采集法
1.信息系统日志数据
2.信息系统系统数据
系统导出
1.导出上网行为管理系统日志
2.导出上网行为管理系统客户数据
网络数据采集法
1.网站存储的数据
2.网站公开API(应用程序接口)传输的数据
1.爬虫程序
2.系统导出
3.接口程序
1.爬取淘宝网站数据
2.从淘宝网店铺后台导出数据
3.获取微信企业号公开接口数据
其它数据采集法
传感器
系统接口
传感器采集数据传输到数据库管理系统
【二、数据的采集】
拓展:Python网络数据采集程序使用的扩展库
1.NumPy(NumericalPython)
是构建科学计算最基础的软件库;
2.SciPy
是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块;
3.Pandas
是一个Python包,旨在通过标记(labeled)和关系(relational)数据进行工作;
4.Matplotlib
是Python的一个2D绘图库。
Python网络数据采集程序使用扩展库时导入模块的方法:
import module
from module import name
【二、数据的采集】
(二)数据的存储
1.本地存储:把数据存在本地内部。(硬盘、磁带、服务器…)
2.云存储:把数据放在第三方公共或者私有的“云端”存储。(百度网盘、腾讯微盘)
【二、数据的采集】
(三)数据的保护
1.数据安全保护技术:杀毒软件、防火墙、拷贝、备份、复制、镜像、持续备份,加密…。
2.数据的隐私保护
(1)隐私泄露的途径
(2)技术手段:
(3)提高自身意识
(4)进行道德和法律约束
数据收集时:精度处理
数据共享时:访问控制
数据发布时:人工干扰
数据分析时:匿名处理
【二、数据的采集】
(四)数据安全保护技术的使用特点
数据安全保护技术 适用场合 备份介质 备份距离 管理
拷贝/FTP 简单小数据量备份,个人不定期的文件保护等。 磁盘。 近。 手动执行,占用人力资源。
备份 有归档需求的用户等。 磁带机、磁带库、磁盘。 近,以本地备份为主。 备份软件对使用者要求较高,需要掌握数据库、文件系统等综合知识。
复制技术 企业等。 磁盘。 远近皆可。 设定策略后无须人工干预,复制与恢复的过程都很简单。
镜像技术 企业等。 磁盘。 近,带宽和距离影响延迟时间和性能,因此多以本地为主 简单。
持续备份 企业等。 磁盘。 远近皆可。 连续备份,可以实现过去任意一个时间点的数据恢复。
P68 15
P69 23、33
如何对数据
DATA
数据
分析
处理的对象
运用的工具
分析的方法
分析的目的
初级工具:Excel
高级工具:SPSS、SAS
编程工具R语言、Python、Java语言等
一大批杂乱无章的数据
运用数字化工具和技术
探索数据内在的结构和规律构建数学模型
进行可视化表达,通过验证将模型转化为知识
为诊断过去、预测未来发挥作用
DATA ANALYSIS
关联分析
特征探索
聚类分析
数据分类
数据分析的常用方法
特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
(如果价格为0的,修改为64)
x=0
data["price"][(data["price"]==0)]=None
for i in data.columns:
for j in range(len(data)):
if(data[i].isnull())[j]:
data[i][j]="64"
x+=1
print(x)
商品标题
链接
价格
评论数
观察并运行程序
[1]数据清洗,发现缺失值
总结特征分析的作用
【程序演示】
(横轴:价格,纵轴:评论数)
data2=data.T
price=data2.values[2]
comt=data2.values[3]
plt.xlabel('price') #显示X坐标标签
plt.ylabel('comt') #显示Y坐标标签
pyl.plot(price,comt,"o")
pyl.show()
数据分布不均匀
观察并运行程序
[2]异常值处理:找到异常值、画散点图
【程序演示】
x=0
for i in range(0,line):
for j in range(0, col):
if(da[i][3]>65):#评论数大于65
continue
elif(da[i][2]>100):#价格大于100
continue
else:
if(x==0):
newda=da[i]
else:
newda=npy.row_stack((newda,da[i]))
x+=1
da2=newda.T
price=da2[2]
comt=da2[3]
plt.xlabel('price') #显示X坐标标签
plt.ylabel('comt') #显示Y坐标标签
pyl.plot(price,comt,"o")
pyl.show()
数据均匀分布
缺失数据和异常数据处理完毕
[3]处理异常数据,评论数大于65,价格大于100都处理掉,再重新绘制散点图
观察并运行程序
【程序演示】
关联分析是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
流水号 交易的商品
001 可乐,鸡蛋,汉堡
002 可乐,尿布,啤酒
003 可乐,尿布,啤酒,汉堡
004 尿布,啤酒
以下是某超市的交易记录,请分组讨论如何提高超市商品的销量?
典型例子:购物篮分析
频率次数统计:
可乐、尿布、啤酒
支持度(两个商品同时被购买发生的概率):
最大频繁项集:{尿布,啤酒}
可乐:3/12
鸡蛋:1/12
汉堡:2/12
尿布:3/12
啤酒:3/12
{可乐,尿布}:2/4
{可乐,啤酒}:2/4
{尿布,啤酒}:3/4
聚类分析是一种探索性的分析,在分类的过程中,不必事先给出一个分类的标准,从样本数据出发,自动进行分类
K-平均算法是一种经典的自下而上的聚类分析方法
试把下图分成几组
观看K-平均聚类分析微课,试总结其步骤
观看微课
总结分类步骤
聚类分析
是一种探索性的分析,在分类的过程中,不必事先给出一个分类的标准,从样本数据出发,自动进行分类。
K-平均算法:是一种经典的自下而上的聚类分析方法。
K-平均算法的基本思想:在空间N个点中,初始选择K个点作为中心聚点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚焦点,以达到”物以类聚,人以群分”的效果。
数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(分类器),该分类器具有将待分类数据项映射到某一特点类别的功能,实现对未分类的数据分类。
数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。
P116 问题:贝叶斯方法
96
49
56
43
92
36
18
37
72
21
74
87
28
54
61
33
游戏记忆两组数据
纯数字
按从大到小以柱形图呈现
第一组
第二组
可视化表达
结论:数字可视化表达可以提高数字的记忆效率!
【四、数据的可视化表达】
数据可视化表达是指以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。
优点:把枯燥乏味的海量数据以丰富的视觉效果呈现数据所反映的本质问题,有效提升数据分析的效率。
【四、数据的可视化表达】
(一)定义
【四、数据的可视化表达】
(一)数据可视化表达的方法
1.概念:用图形、图像、地图、动画等生动、易于理解的方式展现数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。
2.优点:
快速抓住要点信息
有效提升数据分析的效率。
生动形象的呈现方式便于理解数据。
3.分类
(1)探索类:帮助人们发现数据背后的价值
(2)解释类:简单明了地呈现数据
2.数据分析类型及对应的可视化呈现
【四、数据的可视化表达】
(二)数据可视化表达的工具
1.Seaborn:
2.Bokeh:
能实现交互式可视化
独立于Matplotlib
能通过浏览器呈现文档的风格
Seaborn直方图程序及结果
Bokeh示例程序及结果
主要关注统计模型的可视化
基于且高度依赖于Matplotlib
【选择题】
1.从互联网产生的大数据角度看,其最显著特征是( )
A.数据价值密度低 B.数据类型繁多
C.数据规模大 D.数据处理速度快
2. 从互联网产生大数据的角度,大数据具有的特征( )
A.4V特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)
B.样本渐趋于总体,精确让位于模糊,相关性重于因果
C.分布式存储,分布式并行计算 D.没有特征
3.某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是( )
A.聚类分析 B.分类分析 C.关联分析 D.回归分析
C
C
A
【选择题】
4.小智通过网络问卷收集同学们课外阅读时间的百分比分布情况,下列可以用于分析调查数据的是( )
A.饼图 B.折线图 C .动态热力图 D.词云图
5.下列关于大数据的特征,说法正确的是(   )。
A.数据价值密度高 B.数据类型少
C.数据基本无变化 D.数据体量巨大
6.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页 的( )开始获取。
A.URL B. WWW C. HTML D. XML
7.电子警察采用拍照的方式来约束车辆的行为,其拍照的过程属于( )
A.数据分析 B.数据采集 C.数据分类 D.数据可视化表达
A
D
A
B
【判断题】
8.利用Python采集网络数据时,导入扩展库的关键字是import。( )
9.从互联网产生大数据的角度来看,大数据具有的特征是“4V”特征:大量、多样、高价值密度、低速。( )
10.网络数据采集法主要通过网络爬虫或网站公开API的方式获取网络爬虫,从网页的URL开始获取。( )
11.数据采集的基本方法包括系统日志采集、网络数据采集等方法。( )
A
B
A
A
【判断题】
12.数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征。( )
13.K-平均算法属于聚类分析方法。( )
14.可以用于分析数据趋势的可视化呈现类型包括折线图、分组柱形图、堆叠柱形图和柱线混合图等。( )
15.Seaborn基于且高度依赖于Matplotlib,可实现交互式可视化。( )
A
A
A
B
【知识体系】

展开更多......

收起↑

资源预览