资源简介 (共53张PPT)第五章 数据处理和可视化表达多样化的数据都是什么呢?地理位置信息网络日志你从哪个网页跳转来?你点击了哪些商品?商品页面上停留的时间?评价关注程度颜色偏好品牌偏好数据的概念数据是现实世界客观事物的符号记录,是信息的载体,是计算机加工的对象,如图像、视频、音频、文本(文字、数值、字符)等。计算机科学中的数据数据是对所有输入计算机并被计算机识别、存储和处理的符号的总称,是联系现实世界和计算机世界的途径。数据的概念数据是现实世界客观事物的符号记录,是信息的载体,是计算机加工的对象,如图像、视频、音频、文本(文字、数值、字符)等。数据的基本特征(1)二进制。在计算机中,数据以二进制的形式存储、加工。(2)语义性。语义是将数据符号解释为客观世界的事物。(3)分散性。数据是分散的记录,分别记录不同客观事物的运动状态。120某个小朋友的身高是120cm衣服的价格是120元(4)多样性和感知性。数据记录的形式是多样的、可看的、可听的、可感知的,如图形、图像、视频、音频、文字等。汽车在高速路上的行驶速度为120km/h二进制:由0,1两个数码来表示数据。练一练(P8 1):(单选题)1、下列选项中不属于数据的是 ( )A、进入商场时用额温枪测量的体温B、教室里电子时钟显示的时间C、春游时手机里拍摄的风景照片D、记录旅行日记的笔记本D大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。一、认识大数据二、大数据的特征多样化:即数据类型繁多都是什么呢?地理位置信息网络日志你从哪个网页跳转来?你点击了哪些商品?商品页面上停留的时间?评价关注程度颜色偏好品牌偏好价值密度低比如视频,在连续不间断存储的监控视频中,有用的数据可能只有一两秒。变化速度快二、大数据的特征二、大数据的特征三、大数据对日常生活的影响方便支付方便出行方便购物与产品推介三、大数据对日常生活的影响P64 例1、例2、例3、例4P67 1、2P69 16-21【二、数据的采集】(一)数据采集的方法与工具1.系统日志采集法在信息系统中,系统日志是记录系统硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。 【二、数据的采集】(一)数据采集的方法与工具2.网络数据采集法:网络数据采集:指通过网络爬虫或网站公开API(Application Programming Interface, 应用程序接口)等方式从网站上获取数据信息。网络爬虫的过程工作过程:(1)从一个或若干初始网页的URL(Uniform Resource Locator,统一资源定位符)开始,获得初始网页上的URL。(2)在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列, 直到满足系统的一定停止条件。采集类型:支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。【二、数据的采集】(一)数据采集的方法与工具3.其他数据采集法。应用领域:企业生产经营或科学研究等保密性要求较高的数据。使用方法:与企业或研究机构合作,使用特定系统接口等相关方式收集数据例如:科学研究的数据是通过科学实验的各种传感器采集,并传输到数据库管理系统中的。【二、数据的采集】(一)数据采集的方法对比采集方法 数据来源 采集工具 应用范围(举例)系统日志采集法1.信息系统日志数据2.信息系统系统数据系统导出1.导出上网行为管理系统日志2.导出上网行为管理系统客户数据网络数据采集法1.网站存储的数据2.网站公开API(应用程序接口)传输的数据1.爬虫程序2.系统导出3.接口程序1.爬取淘宝网站数据2.从淘宝网店铺后台导出数据3.获取微信企业号公开接口数据其它数据采集法传感器系统接口传感器采集数据传输到数据库管理系统【二、数据的采集】拓展:Python网络数据采集程序使用的扩展库1.NumPy(NumericalPython)是构建科学计算最基础的软件库;2.SciPy是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块;3.Pandas是一个Python包,旨在通过标记(labeled)和关系(relational)数据进行工作;4.Matplotlib是Python的一个2D绘图库。Python网络数据采集程序使用扩展库时导入模块的方法:import modulefrom module import name【二、数据的采集】(二)数据的存储1.本地存储:把数据存在本地内部。(硬盘、磁带、服务器…)2.云存储:把数据放在第三方公共或者私有的“云端”存储。(百度网盘、腾讯微盘)【二、数据的采集】(三)数据的保护1.数据安全保护技术:杀毒软件、防火墙、拷贝、备份、复制、镜像、持续备份,加密…。2.数据的隐私保护(1)隐私泄露的途径(2)技术手段:(3)提高自身意识(4)进行道德和法律约束数据收集时:精度处理数据共享时:访问控制数据发布时:人工干扰数据分析时:匿名处理【二、数据的采集】(四)数据安全保护技术的使用特点数据安全保护技术 适用场合 备份介质 备份距离 管理拷贝/FTP 简单小数据量备份,个人不定期的文件保护等。 磁盘。 近。 手动执行,占用人力资源。 备份 有归档需求的用户等。 磁带机、磁带库、磁盘。 近,以本地备份为主。 备份软件对使用者要求较高,需要掌握数据库、文件系统等综合知识。复制技术 企业等。 磁盘。 远近皆可。 设定策略后无须人工干预,复制与恢复的过程都很简单。 镜像技术 企业等。 磁盘。 近,带宽和距离影响延迟时间和性能,因此多以本地为主 简单。持续备份 企业等。 磁盘。 远近皆可。 连续备份,可以实现过去任意一个时间点的数据恢复。P68 15P69 23、33如何对数据DATA数据分析处理的对象运用的工具分析的方法分析的目的初级工具:Excel高级工具:SPSS、SAS编程工具R语言、Python、Java语言等一大批杂乱无章的数据运用数字化工具和技术探索数据内在的结构和规律构建数学模型进行可视化表达,通过验证将模型转化为知识为诊断过去、预测未来发挥作用DATA ANALYSIS关联分析特征探索聚类分析数据分类数据分析的常用方法特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。(如果价格为0的,修改为64)x=0data["price"][(data["price"]==0)]=Nonefor i in data.columns:for j in range(len(data)):if(data[i].isnull())[j]:data[i][j]="64"x+=1print(x)商品标题链接价格评论数观察并运行程序[1]数据清洗,发现缺失值总结特征分析的作用【程序演示】(横轴:价格,纵轴:评论数)data2=data.Tprice=data2.values[2]comt=data2.values[3]plt.xlabel('price') #显示X坐标标签plt.ylabel('comt') #显示Y坐标标签pyl.plot(price,comt,"o")pyl.show()数据分布不均匀观察并运行程序[2]异常值处理:找到异常值、画散点图【程序演示】x=0for i in range(0,line):for j in range(0, col):if(da[i][3]>65):#评论数大于65continueelif(da[i][2]>100):#价格大于100continueelse:if(x==0):newda=da[i]else:newda=npy.row_stack((newda,da[i]))x+=1da2=newda.Tprice=da2[2]comt=da2[3]plt.xlabel('price') #显示X坐标标签plt.ylabel('comt') #显示Y坐标标签pyl.plot(price,comt,"o")pyl.show()数据均匀分布缺失数据和异常数据处理完毕[3]处理异常数据,评论数大于65,价格大于100都处理掉,再重新绘制散点图观察并运行程序【程序演示】关联分析是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。流水号 交易的商品001 可乐,鸡蛋,汉堡002 可乐,尿布,啤酒003 可乐,尿布,啤酒,汉堡004 尿布,啤酒以下是某超市的交易记录,请分组讨论如何提高超市商品的销量?典型例子:购物篮分析频率次数统计:可乐、尿布、啤酒支持度(两个商品同时被购买发生的概率):最大频繁项集:{尿布,啤酒}可乐:3/12鸡蛋:1/12汉堡:2/12尿布:3/12啤酒:3/12{可乐,尿布}:2/4{可乐,啤酒}:2/4{尿布,啤酒}:3/4聚类分析是一种探索性的分析,在分类的过程中,不必事先给出一个分类的标准,从样本数据出发,自动进行分类K-平均算法是一种经典的自下而上的聚类分析方法试把下图分成几组观看K-平均聚类分析微课,试总结其步骤观看微课总结分类步骤聚类分析是一种探索性的分析,在分类的过程中,不必事先给出一个分类的标准,从样本数据出发,自动进行分类。K-平均算法:是一种经典的自下而上的聚类分析方法。K-平均算法的基本思想:在空间N个点中,初始选择K个点作为中心聚点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚焦点,以达到”物以类聚,人以群分”的效果。数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(分类器),该分类器具有将待分类数据项映射到某一特点类别的功能,实现对未分类的数据分类。数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。P116 问题:贝叶斯方法96495643923618377221748728546133游戏记忆两组数据纯数字按从大到小以柱形图呈现第一组第二组可视化表达结论:数字可视化表达可以提高数字的记忆效率!【四、数据的可视化表达】数据可视化表达是指以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。优点:把枯燥乏味的海量数据以丰富的视觉效果呈现数据所反映的本质问题,有效提升数据分析的效率。【四、数据的可视化表达】(一)定义【四、数据的可视化表达】(一)数据可视化表达的方法1.概念:用图形、图像、地图、动画等生动、易于理解的方式展现数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。2.优点:快速抓住要点信息有效提升数据分析的效率。生动形象的呈现方式便于理解数据。3.分类(1)探索类:帮助人们发现数据背后的价值(2)解释类:简单明了地呈现数据2.数据分析类型及对应的可视化呈现【四、数据的可视化表达】(二)数据可视化表达的工具1.Seaborn:2.Bokeh:能实现交互式可视化独立于Matplotlib能通过浏览器呈现文档的风格Seaborn直方图程序及结果Bokeh示例程序及结果主要关注统计模型的可视化基于且高度依赖于Matplotlib【选择题】1.从互联网产生的大数据角度看,其最显著特征是( )A.数据价值密度低 B.数据类型繁多C.数据规模大 D.数据处理速度快2. 从互联网产生大数据的角度,大数据具有的特征( )A.4V特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)B.样本渐趋于总体,精确让位于模糊,相关性重于因果C.分布式存储,分布式并行计算 D.没有特征3.某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是( )A.聚类分析 B.分类分析 C.关联分析 D.回归分析CCA【选择题】4.小智通过网络问卷收集同学们课外阅读时间的百分比分布情况,下列可以用于分析调查数据的是( )A.饼图 B.折线图 C .动态热力图 D.词云图5.下列关于大数据的特征,说法正确的是( )。A.数据价值密度高 B.数据类型少C.数据基本无变化 D.数据体量巨大6.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页 的( )开始获取。A.URL B. WWW C. HTML D. XML7.电子警察采用拍照的方式来约束车辆的行为,其拍照的过程属于( )A.数据分析 B.数据采集 C.数据分类 D.数据可视化表达ADAB【判断题】8.利用Python采集网络数据时,导入扩展库的关键字是import。( )9.从互联网产生大数据的角度来看,大数据具有的特征是“4V”特征:大量、多样、高价值密度、低速。( )10.网络数据采集法主要通过网络爬虫或网站公开API的方式获取网络爬虫,从网页的URL开始获取。( )11.数据采集的基本方法包括系统日志采集、网络数据采集等方法。( )ABAA【判断题】12.数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征。( )13.K-平均算法属于聚类分析方法。( )14.可以用于分析数据趋势的可视化呈现类型包括折线图、分组柱形图、堆叠柱形图和柱线混合图等。( )15.Seaborn基于且高度依赖于Matplotlib,可实现交互式可视化。( )AAAB【知识体系】 展开更多...... 收起↑ 资源预览