资源简介 (共15张PPT)粤教版信息技术必修一《数据与计算》高二学业水平考试复习授课教师:YY一【知识结构体系】第五章 数据处理与可视化二【知识梳理】一、认识大数据(一)大数据的概念大数据:无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(二)大数据的特征1.从互联网产生大数据的角度来看(具有“4V”特征):大量(Volume),多样(Variety)低价值密度(Value),高速(Velocity)。2.从互联网思维的角度来看:样本渐趋于总体,精确让位于模糊,相关性重于因果3.从大数据存储与计算的角度来看:分布式存储,分布式并行计算。(三)大数据的影响1.大数据使人们日常生活更为便捷:方便支付、方便出行、方便购物与产品推荐、方便看病与诊病。2.大数据对人们日常生活产生的负面影响:个人信息泄露、信息伤害与诈骗。二【知识梳理】二、数据的采集(一)数据采集的方法与工具1.系统日志采集法:监视系统中发生的事情检查错误发生的原因寻找攻击时攻击者留下的痕迹2.网络数据采集法:网络爬虫:从初始网页的URL(统一资源定位器)获取对应的数据网络公开API补充注意:Python网络数据采集程序使用扩展库时导入模块的方法:import module 关键字 模块名from module import name 关键字 模块名 关键字 方法名3.其他数据采集法。二【知识梳理】拓展:Python网络数据采集程序使用的扩展库(1)NumPy(NumericalPython)是构建科学计算最基础的软件库;(2)SciPy是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块;(3)Pandas是一个Python包,旨在通过标记(labeled)和关系(relational)数据进行工作;(4)Matplotlib是Python的一个2D绘图库。二【知识梳理】(二)数据的存储1.本地存储:把数据存在本地内部2.云存储:把数据放在第三方公共或者私有的“云端”存储分布式文件存储Nosql数据库存储(三)数据的保护1.数据安全保护技术:拷贝、备份、复制、镜像、持续备份,加密…2.数据的隐私保护(1)技术手段数据收集时:精度处理数据共享时:访问控制数据发布时:人工干扰数据分析时:匿名处理(2)提高自身意识(3)进行道德和法律约束二【知识梳理】三、数据的分析常见数据分析方法:特征探索,关联分析,聚类与分类,建立模型,模型评价(一)特征探索特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。(二)关联分析关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。(三)聚类分析聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。K-平均算法是一种经典的自下而上的聚类分析方法。(四)数据分类数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。贝叶斯分类技术在众多分类技术中占有重要地位。二【知识梳理】四、数据的可视化1. 数据可视化表达方式(见右边表5-5)二【知识梳理】2. 数据可视化工具Python语言嵌入了大量数据可视化的工具,如绘图工具模块Matplotlib、Seaborn和Bokeh等。(1)Seaborn主要关注统计模型的可视化。(2)Bokeh也是一个很好的可视化库,可实现交互式可视化。三【典型例题-------学业测试】一、单选题1.从互联网产生大数据的角度,大数据具有的特征( )A.4V特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)B.样本渐趋于总体,精确让位于模糊,相关性重于因果C.分布式存储,分布式并行计算D.没有特征【答案】:A【解析】:见教材P102,从互联网产生大数的角度来看,大数据的4V特征。2.下列可以用于分析数据趋势的是( )A.饼图 B.折线图 C.动力热力图 D.词云图【答案】:B【解析】:见教材P119页,有关趋势的分析为拆线图,饼图表示比例的分析,动态热力图是关于空间关系的,词云图是逻辑关系分析。3.数据分析的方法不包括( )。A.线性分析 B.关联分析 C.聚类分析 D.数据分类【答案】:A【解析】:见教材P111,数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价,不含线性分析。三【典型例题-------学业测试】4.下列关于大数据的特征,说法正确的是( )A.数据价值密度高 B.数据类型少 C.数据基本无变化 D.数据体量巨大【答案】:D【解析】:见教材P102,从互联网产生大数的角度来看,大数据的4V特征是:数据体量巨大、数据类型繁多、价值密度低、变化速度快。5.数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是( )A.数据清洗 B.异常数据处理 C.数据缺失处理 D.数据分类处理【答案】:D【解析】:见教材P112,数据特征探索的预处理主要有数据清洗、发现缺失值、异常数据处理、求最大值和最小值、求极差、求组距、绘制价格直方图、绘制评论数直方图等。不含D项。6.海军军官通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( )A.在数据基础上倾向于全体数据而不是抽样数据B.在分析方法上更注重相关分析而不是因果分析C.在分析效果上更追究效率而不是绝对精确D.在数据规模上强调相对数据而不是绝对数据【答案】:B【解析】:见教材P102,A项强调数据规模;B项对前人航海数据的分析,不是分析为什么走某条航线,不是分析为什么会发生洋流,而是强调数据的相互联系,注重数据的相关性分析,所以选B项;C项是讲分析数据的走势和发展方向,与题干不符;D项强调数据规模,题干中也未涉及。三【典型例题-------学业测试】7.大数据时代已经在悄悄地改变我们的日常生活,也使人们日常生活更为便捷,如移动支付、网络约车出行、网络购物、网络预约挂号等。以下不属于大数据分析的是( )A.特征探索 B.关联分析 C.聚类与分类 D.建模分析【答案】:D【解析】:见教材P111,数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价,不含线性分析。不含D项。8.电子警察采用拍照的方式来约束车辆的行为,其拍照的过程属于( )A.数据分析 B.数据采集 C.数据分类 D.数据可视化表达【答案】:B【解析】:拍照的过程属于数据的采集,选B项。9.某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这种属于数据的( )A.聚类分析 B.关联分析 C.分类分析 D.回归分析【答案】:B【解析】:见教材P113,关联分析就是发现存在于大数据之间的关联性或相关性,即A与B的相关性,符合题意。10.数据采集的基本方法包括( )、网络数据采集法和其他数据采集法。A.数据库采集法 B.访问记录采集法 C.数据目录采集法 D.系统日志采集法【答案】:D【解析】:数据采集的基本方法包括系统日志采集法、网络数据采集法、其他数据采集法,所以选D项。三【典型例题-------学业测试】11.下列关于聚类分析的说法,错误的是( )A.可以从数据点集合中随机选择K个点作为初始的聚集中心B对其他的每个数据点,以此判断其与K个中心点的距离,距离最近的表明它属于这项聚类C.聚类分析,必须先设定分类的标准,否则无法准确分类D.重新计算新的聚簇集合的平均值既中心点【答案】:C【解析】:见教材P115,K-平均算法中包括ABD,而明确指出聚类分析不性事先给出一个分类标准。12.K-平均算法属于( )分析方法。A.聚类 B.关联 C.分类 D.回归【答案】:A【解析】:见教材P115,K-平均算法是一种聚类分析法。13.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的( )开始获取。A.HTML B.WWW C.URL D.XML【答案】:C【解析】:见教材P104页,网络爬虫从一个或若干网页的URL开始。三【典型例题-------学业测试】14.大数据时代,数据应用的关键是( )A.数据收集 B.数据存储 C.数据分析 D.数据再利用【答案】:D【解析】:大数据时代,数据随时产生,随时收集并存储,要利用大数,必须分析出数据的相关性、发展方向等特征,才能对数据进行利用,所以数据分析是关键。15.为了弘扬和传承中华民族勤俭节约的传统美德,引导同学们进一步深化节约粮食的意识和行为习惯,学生会开展了“我为食堂提建议”的活动。请根据学生会开展该活动的几个步骤,排出最合理的顺序( )①根据数据分析结果,撰写数据分析报告,对食堂提出合理化建议②学生会成员去学校食堂收集数据,并制作调查问卷的题目③利用图表形式直观展示分析数据④对问卷进行回收整理,将无效的问卷进行剔除⑤学生会成员对就餐同学们进行问卷调查⑥对调查数据和食堂数据进行分析与处理A.②⑤④⑥③① B.②④⑤③⑥① C.⑤②④⑥③① D.⑤④②③⑥①【答案】:A【解析】:搞调查,写报告的合理逻辑应为:确定活动的主题,然后收集数据,制作问卷,发放问卷,回收问卷,录入回收数据,对数据进行分析,呈现分析结果,写出报告,所以A项符合题意。一起向未来,加油! 展开更多...... 收起↑ 资源预览