资源简介 课时2 大数据处理的基本思想与架构课时目标1.了解大数据处理架构和基本思路。2.了解静态数据、流数据和图数据三者的区别。1.处理大数据时一般采用分治思想,就是把一个复杂的问题分成两个或更多相同或相似的子问题。分治思想的实现过程2.大数据处理类型有静态数据、流数据和图数据三大类。3.Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。静态数据指在处理时已收集完成,在计算时不会发生改变的数据,一般采用批处理方式。4.分布式文件系统(简称HDFS)主要功能是将大规模海量数据以文件的形式,用多个副本保存在不同的存储节点中,并用分布式系统进行管理。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。云盘、网盘的底层一般采用HDFS实现。5.分布式的列式数据库(HBase)采用基于列的存储形式,建立在HDFS提供的底层存储基础上,主要用来存储非结构化数据和半结构化数据,具有良好的横向扩展能力,可管理PB级的大数据。6.流数据是指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随着降低。7.实时处理系统处理大量的流数据,处理流数据的计算平台有Storm、Heron、IBM InfoSphere、Streams等。8.Twitter公司的大数据处理系统Summingbird实现了批处理和实时流计算在一个平台架构下的整合(Hadoop+Storm)。重难点剖析1.处理大数据的分治思想分治就是把一个复杂的问题分成两个或更多相同或相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决,可以再把它们分成几个更小的子问题,以此类推,直至可以直接求出解为止。2.三种处理数据的系统及相应的平台(1)批处理计算Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。Spark属于较广的开源分布式计算架构,Spark启用了内存存储中间结果,运行速度比Hadoop快很多。(2)实时处理系统实时处理系统主要用于处理流数据,比如大型购物网站的广告推荐、社交网络的个性化推荐等,流数据的计算平台有Storm、Heron、IBM InfoSphere、Stream等等。(3)图计算图数据的特点是节点之间的关系错综复杂,且节点之间可能有多条回路。目前通用的图处理软件主要包括两类:一类是图数据库,如Neo4j、InfiniteGraph、OrientDB等;另一类是并行图处理系统,如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。(4)实时处理与批处理的整合开发者在同一个平台既可以做批处理,也可以做实时流计算,还可以进行两种模式的混合使用。平台的整合降低了批处理与流处理之间的切换,有利于减少系统的开销,降低使用成本。例1 n个志愿来自10个不同的城市,每个城市按每个志愿参加志愿活动降序排列。小明把n个志愿按城市分成10个集合,在每个集合进行排序,该算法主要采用的思想是 ( )A.顺序查找法 B.枚举法C.分治算法 D.解析法答案 C解析 把一个大问题,分成若干个小问题,称为分治算法。变式训练1 把n个数据按序排序,若要查找一个数是否在这些数据中,把这些数分成前后两部分,与中间的数据进行对比,如果该数据在前半部分,则继续按前面的思想进行分别查找,该算法主要采用的思想是 ( )A.顺序查找法 B.枚举法C.分治算法 D.解析法答案 C解析 采用同样的方法,在不同的区域中进行查找,属于分治的算法思想。例2 通过下列方式获取数据,数据类型属于静态数据的是 ( )A.各个监控不断向监控中心发送的数据B.同一时间内收到10万移动设备的位置信息C.服务器的近10天内的IP访问数据日志D.大型购物网站的广告推荐答案 C解析 静态数据和流数据的区别在于数据是以前就有的,还是即时产生的数据。变式训练2 下列关于大数据中的流数据的描述,正确的是 ( )A.数据必须采集完成后再进行处理B.数据价值不会随着时间的流逝降低C.Hadoop是专业的流数据处理平台D.实时分析流数据可以得到更有价值的结果答案 D解析 在处理时已经采集完成的数据是静态数据,流数据是不间断地、持续地到达的实时数据,但随着时间变化,其价值会发生改变。Hadoop属于批量数据处理平台。例3 下列关于分布式文件系统,说法错误的是 ( )A.是一个高度容错性的系统B.适合于静态数据的存储,但不适合于流数据的存储C.Hadoop系统中,采用基于列的存储方式进行存储D.大规模海量数据以文件的形式,用多个副本保存在不同的存储节点中答案 B解析 大数据往往用分布式文件系统为底层文件格式,即可以是实时信息,也可以是静态数据。变式训练3 云盘的底层一般采用文件格式是 ( )A.HDFS B.Ext4C.FAT32 D.NTFS答案 A解析 云盘采用流数据存储数据,因此采用分布式存储系统格式。例4 下列有关大数据中统计和处理说法正确的是 ( )A.批处理的结果不能用于实时处理系统中B.图处理软件主要包括图数据库和并行图处理系统C.同一个平台既要么做批处理,要么做实时流计算,不能两者兼之D.对于社交网络的个性化数据推荐,往往可以在批处理平台中进行计算答案 B解析 目前通用的图处理软件主要包括两类:一类是图数据库,如Neo4j、Infinite Graph、OrientDB等;另一类是并行图处理系统,如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。变式训练4 下列有关Hadoop计算平台的说法中,不正确的是 ( )A.Hadoop计算平台是一个可运行于大规模计算机集群上的分布式系统基础架构B.Hadoop计算平台适用于对静态数据进行处理C.Hadoop计算平台主要包括Common公共库、HDFS、HBase、MapReduce等模块D.Hadoop计算平台也适用于对流数据的实时处理答案 D解析 本题主要考查的是Hadoop计算平台。Hadoop计算平台适用于对静态数据进行处理,而对流数据的实时处理明显性能不足,因此答案为D。 1.大数据处理的基本思想是 ( )A.排序 B.枚举C.分治 D.递归答案 C解析 处理大数据时,一般采用分治思想。分治思想就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题……,直到最后子问题可以简单地直接求解,原问题的解即子问题的解再合并,因此答案为C。2.下列有关大数据按照类型划分的处理方式的描述,正确的是 ( )A.流数据采用批处理计算B.静态数据采用流计算C.社交网络的数据一般采用图计算D.图数据采用批量计算答案 C解析 大数据处理按照类型可划分为对静态数据的批处理计算、对流数据的流计算和对图结构数据的图计算,社交网络、道路交通等数据一般采用图计算模式进行处理,因此,答案为C。3.下列不属于Hadoop计算平台组成部分的是 ( )A.Common公共库B.分布式文件系统NTFSC.分布式数据库HBaseD.分布式并行计算模型MapReduce答案 B解析 Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。NTFS是Windows的文件系统,因此答案为B。 一、基础巩固1.某国要选举国家领导人,该国家分为多个地区,把每个选区的选票结果进行汇总,该算法主要体现的思想是 ( )A.顺序查找法 B.枚举法C.分治算法 D.解析法答案 C解析 把一个大问题,分成若干个小问题,称为分治算法。2.某省在填报志愿时,由于报名人数较多,在各地市报名并把数据汇总在一起,该算法主要体现的思想是 ( )A.顺序查找法 B.枚举法C.分治算法 D.解析法答案 C解析 把一个大问题,分成若干个小问题,称为分治算法。根据题目的描述可知,该算法主要体现的思想是分治算法,因此,答案为C。3.下列关于Hadoop平台的说法正确的是 ( )A.该平台只能处理结构化数据B.处理信息必须通过可视化体现处理的结论C.该平台中每台计算机都在处理相同的数据D.该平台可以节省大型和复杂问题的处理时间答案 D解析 该平台可以处理结构化、非结构化和半结构化的数据,分析的结果可以通过可视化来体现,也可以是单纯的数据信息。该平台采用分布式文件格式,不同的计算机往往处理不同的数据,其目的是为了节省计算时间。4.下列应用中涉及静态数据处理的是 ( )A.统计上个月的交易量排行榜B.实时更新导航线路C.在线统计某个商品的点赞率D.不断更新的电力数据答案 A解析 静态数据往往是已经存在的不会改变的数据,上个月的交易量排行榜属于静态数据,因此,答案为A。5.下列应用中涉及流数据处理的是 ( )A.统计店铺的月交易量B.用户搜索某关键词同时得到的推荐信息C.上个月的地铁客流数据D.用户一个月的煤气费账单答案 B解析 流数据往往是即时的,实时的数据。ACD都属于静态数据,用户搜索某关键词同时得到的推荐信息,属于流数据,因此,答案为B。6.目前,网盘的底层一般采用的文件系统是 ( )A.HDFS B.Ext4C.FAT32 D.NTFS答案 A解析 网盘采用流数据存储数据,因此采用分布式存储系统格式,而HDFS是分布式文件系统,因此,答案为A。7.下列关于分布式数据库HBase的理解,错误的是 ( )A.HBase是谷歌BigTable数据库的开源实现B.底层存储采用建立在HDFS基础上C.采用基于行的存储方式,可管理PB级的大数据D.可以用于存储结构化、非结构化数据和半结构化数据答案 C解析 数据库HBase是基于列的存储方式,因此,错误的是C。二、能力提升8.下列有关分治思想的描述,正确的是 ( )A.将复杂的问题分解成两个或多个相同或相似的小问题,然后分别对小问题进行求解B.运用分治思想,可以提高数据的处理速度C.运用分治思想,最终结果的正确性得不到保障D.运用分治思想,系统的容错性得不到保障答案 B解析 分治思想是指把最初的问题分解成若干个相同或相似的子问题,然后,在逐个解决各个子问题的基础上得到原始问题的解。由于分解出的每个子问题总是比最初的问题简单,因此,分治思想能够降低原始问题的难度,能提高解决问题的效率。运用分治思想,最终结果的正确性和系统的容错性均能得到保障。因此,答案为B。9.下列属于图并行处理软件的是 ( )A.Infinite Graph B.Neo4jC.OrientDB D.Google Pregel答案 D解析 Google Pregel属于图处理系统。10.要构建一个电子商务平台,需实时向用户推送相关产品信息,推荐该平台底层采用的文件系统和数据处理平台是 ( )A.HDFS Google PregelB.Ext4 HeronC.HDFS StormD.HDFS Hadoop答案 C解析 大数据处理平台往往采用HDFS文件系统,实时向用户推送相关产品信息需采用流数据平台。11.实时处理与批处理整合的优势有 ( )①减少了系统开销②不利于降低使用成本③可以在同一个平台做批处理计算和流计算④缩短了批处理计算和流计算之间的切换延时A.①②③ B.①②④C.①③④ D.②③④答案 C解析 一个平台架构下的整合Hadoop和Storm,开发者在同一个平台既可以做批处理,也可以做实时流计算,还可以进行两种模式的混合使用。平台的整合降低了批处理与流处理之间的切换,有利于减少系统的开销,降低使用成本。12.(多选)关于大数据处理,下列说法正确的是 ( )A.大数据必须采集完成后才能处理B.大数据包括对静态数据的批处理、对流数据的实时计算和对图结构数据的图计算C.大数据只能处理结构化数据不能处理非结构化的数据D.数据的可视化可以增强数据的解释力与吸引力答案 BD解析 本题考查大数据技术概念和特征。A选项大数据可以边采集边处理。C选项大数据可以处理结构化,半结构化和非结构化的数据。13.下列有关大数据的说法,错误的是 ( )A.分治的思想就是处理大数据的基本思路B.Hadoop、Spark适用于静态数据的批处理计算C.图计算是指对大规模图片类型数据进行处理的计算方式D.电商平台的“猜你喜欢”功能运用了大数据技术答案 C解析 本题考查大数据技术概念和特征。C选项图计算是专门针对图结构数据的处理。14.上海浦东机场采集了过去两年中每个时刻的旅客到达量和陆路交通情况的数据,开发出一个智能出租车调度系统,从而使旅客在机场等候出租车的时间大幅缩短。下列关于该事例说法正确的是 ( )A.人们在机场候车的行为产生了数据B.机场主要是通过人工方式采集数据的C.机场在过去两年采集到的数据属于流数据D.大数据处理只需要分析最近一个月的抽样数据答案 A解析 本题考查大数据的概念。机场数据主要是通过机器采集。流数据是指不间断地、持续地到达的实时数据。大数据收集和分析的数据量非常大,不仅仅是最近一个月的抽样数据。15.下列说法正确的是 ( )A.文本数据处理时可以通过特征提取提高文本处理的速度和效率B.学生选课系统中存放的大量数据属于大数据C.大数据要求所有处理的数据都是精确的D.领域人工智能指智能系统从一个领域快速跨越到另外一个领域答案 A16.FlightAware平台可以为用户提供实时航班数据、机场信息、天气图、飞行计划、导航图、航空新闻和照片。该平台提供的数据为 ( )A.静态数据 B.流数据C.图数据 D.结构化数据答案 B17.下列关于大数据的描述中,不正确的是 ( )A.处理大数据时,一般采用分治思想B.某学校的高考报名数据属于大数据C.大数据的速度快不仅指数据产生的速度快,还指数据处理的速度快D.Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构答案 B解析 本题考查大数据技术概念和特征。B选项学生报名的数据有限,不属于大数据。18.下列有关大数据及其处理的说法,错误的是 ( )A.大数据的四个特征:数据规模大、速度快、数据类型多、价值密度低B.对大数据进行处理时,必须保证每个数据都准确无误C.批处理计算适合处理静态数据D.流计算适合处理实时更新的数据答案 B解析 本题考查大数据的相关知识。B选项对于数据不再追求精确性,而是能够接受数据的混杂性。(共42张PPT)课时2 大数据处理的基本思想与架构第四章 数据处理与应用1.了解大数据处理架构和基本思路。2.了解静态数据、流数据和图数据三者的区别。目 录CONTENTS知识梳理01例题精析02随堂检测03巩固与提升04知识梳理11.处理大数据时一般采用______思想,就是把一个复杂的问题分成两个或更多____________的子问题。分治相同或相似分治思想的实现过程2.大数据处理类型有__________、________和________三大类。3.Hadoop是一个可运行于大规模计算机集群上的____________基础架构,适用于__________的批处理计算。静态数据指在处理时已收集完成,在计算时不会发生改变的数据,一般采用________方式。4.分布式文件系统(简称HDFS)主要功能是将大规模海量数据以文件的形式,用多个副本保存在不同的存储节点中,并用____________进行管理。HDFS是一个高度________的系统,适合部署在廉价的机器上。云盘、网盘的底层一般采用__________实现。静态数据流数据图数据分布式系统静态数据批处理分布式系统容错性HDFS5.分布式的列式数据库(HBase)采用基于____的存储形式,建立在HDFS提供的底层存储基础上,主要用来存储非结构化数据和__________数据,具有良好的横向扩展能力,可管理PB级的大数据。6.流数据是指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随着______。7.实时处理系统处理大量的流数据,处理流数据的计算平台有____________、Heron、IBM InfoSphere、Streams等。8.Twitter公司的大数据处理系统Summingbird实现了____________________在一个平台架构下的整合(Hadoop+Storm)。列半结构化降低Storm批处理和实时流计算重难点剖析1.处理大数据的分治思想分治就是把一个复杂的问题分成两个或更多相同或相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决,可以再把它们分成几个更小的子问题,以此类推,直至可以直接求出解为止。2.三种处理数据的系统及相应的平台(1)批处理计算Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。Spark属于较广的开源分布式计算架构,Spark启用了内存存储中间结果,运行速度比Hadoop快很多。(2)实时处理系统实时处理系统主要用于处理流数据,比如大型购物网站的广告推荐、社交网络的个性化推荐等,流数据的计算平台有Storm、Heron、IBM InfoSphere、Stream等等。(3)图计算图数据的特点是节点之间的关系错综复杂,且节点之间可能有多条回路。目前通用的图处理软件主要包括两类:一类是图数据库,如Neo4j、InfiniteGraph、OrientDB等;另一类是并行图处理系统,如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。(4)实时处理与批处理的整合开发者在同一个平台既可以做批处理,也可以做实时流计算,还可以进行两种模式的混合使用。平台的整合降低了批处理与流处理之间的切换,有利于减少系统的开销,降低使用成本。例题精析2例1 n个志愿来自10个不同的城市,每个城市按每个志愿参加志愿活动降序排列。小明把n个志愿按城市分成10个集合,在每个集合进行排序,该算法主要采用的思想是 ( )A.顺序查找法 B.枚举法 C.分治算法 D.解析法C解析 把一个大问题,分成若干个小问题,称为分治算法。变式训练1 把n个数据按序排序,若要查找一个数是否在这些数据中,把这些数分成前后两部分,与中间的数据进行对比,如果该数据在前半部分,则继续按前面的思想进行分别查找,该算法主要采用的思想是 ( )A.顺序查找法 B.枚举法C.分治算法 D.解析法解析 采用同样的方法,在不同的区域中进行查找,属于分治的算法思想。C例2 通过下列方式获取数据,数据类型属于静态数据的是 ( )A.各个监控不断向监控中心发送的数据B.同一时间内收到10万移动设备的位置信息C.服务器的近10天内的IP访问数据日志D.大型购物网站的广告推荐解析 静态数据和流数据的区别在于数据是以前就有的,还是即时产生的数据。C变式训练2 下列关于大数据中的流数据的描述,正确的是 ( )A.数据必须采集完成后再进行处理B.数据价值不会随着时间的流逝降低C.Hadoop是专业的流数据处理平台D.实时分析流数据可以得到更有价值的结果解析 在处理时已经采集完成的数据是静态数据,流数据是不间断地、持续地到达的实时数据,但随着时间变化,其价值会发生改变。Hadoop属于批量数据处理平台。DA.是一个高度容错性的系统B.适合于静态数据的存储,但不适合于流数据的存储C.Hadoop系统中,采用基于列的存储方式进行存储D.大规模海量数据以文件的形式,用多个副本保存在不同的存储节点中解析 大数据往往用分布式文件系统为底层文件格式,即可以是实时信息,也可以是静态数据。B变式训练3 云盘的底层一般采用文件格式是 ( )A.HDFS B.Ext4C.FAT32 D.NTFS解析 云盘采用流数据存储数据,因此采用分布式存储系统格式。A例4 下列有关大数据中统计和处理说法正确的是 ( )A.批处理的结果不能用于实时处理系统中B.图处理软件主要包括图数据库和并行图处理系统C.同一个平台既要么做批处理,要么做实时流计算,不能两者兼之D.对于社交网络的个性化数据推荐,往往可以在批处理平台中进行计算解析 目前通用的图处理软件主要包括两类:一类是图数据库,如Neo4j、Infinite Graph、OrientDB等;另一类是并行图处理系统,如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。BA.Hadoop计算平台是一个可运行于大规模计算机集群上的分布式系统基础架构B.Hadoop计算平台适用于对静态数据进行处理C.Hadoop计算平台主要包括Common公共库、HDFS、HBase、MapReduce等模块D.Hadoop计算平台也适用于对流数据的实时处理解析 本题主要考查的是Hadoop计算平台。Hadoop计算平台适用于对静态数据进行处理,而对流数据的实时处理明显性能不足,因此答案为D。D随堂检测31.大数据处理的基本思想是 ( )A.排序 B.枚举C.分治 D.递归C解析 处理大数据时,一般采用分治思想。分治思想就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题……,直到最后子问题可以简单地直接求解,原问题的解即子问题的解再合并,因此答案为C。2.下列有关大数据按照类型划分的处理方式的描述,正确的是 ( )A.流数据采用批处理计算B.静态数据采用流计算C.社交网络的数据一般采用图计算D.图数据采用批量计算C解析 大数据处理按照类型可划分为对静态数据的批处理计算、对流数据的流计算和对图结构数据的图计算,社交网络、道路交通等数据一般采用图计算模式进行处理,因此,答案为C。A.Common公共库B.分布式文件系统NTFSC.分布式数据库HBaseD.分布式并行计算模型MapReduceB解析 Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。NTFS是Windows的文件系统,因此答案为B。4巩固与提升基础巩固能力提升1.某国要选举国家领导人,该国家分为多个地区,把每个选区的选票结果进行汇总,该算法主要体现的思想是 ( )A.顺序查找法 B.枚举法C.分治算法 D.解析法C解析 把一个大问题,分成若干个小问题,称为分治算法。2.某省在填报志愿时,由于报名人数较多,在各地市报名并把数据汇总在一起,该算法主要体现的思想是 ( )A.顺序查找法 B.枚举法C.分治算法 D.解析法C解析 把一个大问题,分成若干个小问题,称为分治算法。根据题目的描述可知,该算法主要体现的思想是分治算法,因此,答案为C。3.下列关于Hadoop平台的说法正确的是 ( )A.该平台只能处理结构化数据B.处理信息必须通过可视化体现处理的结论C.该平台中每台计算机都在处理相同的数据D.该平台可以节省大型和复杂问题的处理时间D解析 该平台可以处理结构化、非结构化和半结构化的数据,分析的结果可以通过可视化来体现,也可以是单纯的数据信息。该平台采用分布式文件格式,不同的计算机往往处理不同的数据,其目的是为了节省计算时间。4.下列应用中涉及静态数据处理的是 ( )A.统计上个月的交易量排行榜B.实时更新导航线路C.在线统计某个商品的点赞率D.不断更新的电力数据A解析 静态数据往往是已经存在的不会改变的数据,上个月的交易量排行榜属于静态数据,因此,答案为A。5.下列应用中涉及流数据处理的是 ( )A.统计店铺的月交易量B.用户搜索某关键词同时得到的推荐信息C.上个月的地铁客流数据D.用户一个月的煤气费账单B解析 流数据往往是即时的,实时的数据。ACD都属于静态数据,用户搜索某关键词同时得到的推荐信息,属于流数据,因此,答案为B。6.目前,网盘的底层一般采用的文件系统是 ( )A.HDFS B.Ext4C.FAT32 D.NTFSA解析 网盘采用流数据存储数据,因此采用分布式存储系统格式,而HDFS是分布式文件系统,因此,答案为A。A.HBase是谷歌BigTable数据库的开源实现B.底层存储采用建立在HDFS基础上C.采用基于行的存储方式,可管理PB级的大数据D.可以用于存储结构化、非结构化数据和半结构化数据C解析 数据库HBase是基于列的存储方式,因此,错误的是C。8.下列有关分治思想的描述,正确的是 ( )A.将复杂的问题分解成两个或多个相同或相似的小问题,然后分别对小问题进行求解B.运用分治思想,可以提高数据的处理速度C.运用分治思想,最终结果的正确性得不到保障D.运用分治思想,系统的容错性得不到保障B解析 分治思想是指把最初的问题分解成若干个相同或相似的子问题,然后,在逐个解决各个子问题的基础上得到原始问题的解。由于分解出的每个子问题总是比最初的问题简单,因此,分治思想能够降低原始问题的难度,能提高解决问题的效率。运用分治思想,最终结果的正确性和系统的容错性均能得到保障。因此,答案为B。9.下列属于图并行处理软件的是 ( )A.Infinite Graph B.Neo4jC.OrientDB D.Google PregelD解析 Google Pregel属于图处理系统。10.要构建一个电子商务平台,需实时向用户推送相关产品信息,推荐该平台底层采用的文件系统和数据处理平台是 ( )A.HDFS Google PregelB.Ext4 HeronC.HDFS StormD.HDFS HadoopC解析 大数据处理平台往往采用HDFS文件系统,实时向用户推送相关产品信息需采用流数据平台。11.实时处理与批处理整合的优势有 ( )①减少了系统开销②不利于降低使用成本③可以在同一个平台做批处理计算和流计算④缩短了批处理计算和流计算之间的切换延时A.①②③ B.①②④C.①③④ D.②③④C解析 一个平台架构下的整合Hadoop和Storm,开发者在同一个平台既可以做批处理,也可以做实时流计算,还可以进行两种模式的混合使用。平台的整合降低了批处理与流处理之间的切换,有利于减少系统的开销,降低使用成本。12.(多选)关于大数据处理,下列说法正确的是 ( )A.大数据必须采集完成后才能处理B.大数据包括对静态数据的批处理、对流数据的实时计算和对图结构数据的图计算C.大数据只能处理结构化数据不能处理非结构化的数据D.数据的可视化可以增强数据的解释力与吸引力BD解析 本题考查大数据技术概念和特征。A选项大数据可以边采集边处理。C选项大数据可以处理结构化,半结构化和非结构化的数据。CA.分治的思想就是处理大数据的基本思路B.Hadoop、Spark适用于静态数据的批处理计算C.图计算是指对大规模图片类型数据进行处理的计算方式D.电商平台的“猜你喜欢”功能运用了大数据技术解析 本题考查大数据技术概念和特征。C选项图计算是专门针对图结构数据的处理。14.上海浦东机场采集了过去两年中每个时刻的旅客到达量和陆路交通情况的数据,开发出一个智能出租车调度系统,从而使旅客在机场等候出租车的时间大幅缩短。下列关于该事例说法正确的是 ( )A.人们在机场候车的行为产生了数据B.机场主要是通过人工方式采集数据的C.机场在过去两年采集到的数据属于流数据D.大数据处理只需要分析最近一个月的抽样数据A解析 本题考查大数据的概念。机场数据主要是通过机器采集。流数据是指不间断地、持续地到达的实时数据。大数据收集和分析的数据量非常大,不仅仅是最近一个月的抽样数据。15.下列说法正确的是 ( )A.文本数据处理时可以通过特征提取提高文本处理的速度和效率B.学生选课系统中存放的大量数据属于大数据C.大数据要求所有处理的数据都是精确的D.领域人工智能指智能系统从一个领域快速跨越到另外一个领域A16.FlightAware平台可以为用户提供实时航班数据、机场信息、天气图、飞行计划、导航图、航空新闻和照片。该平台提供的数据为 ( )A.静态数据 B.流数据C.图数据 D.结构化数据BA.处理大数据时,一般采用分治思想B.某学校的高考报名数据属于大数据C.大数据的速度快不仅指数据产生的速度快,还指数据处理的速度快D.Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构B解析 本题考查大数据技术概念和特征。B选项学生报名的数据有限,不属于大数据。BA.大数据的四个特征:数据规模大、速度快、数据类型多、价值密度低B.对大数据进行处理时,必须保证每个数据都准确无误C.批处理计算适合处理静态数据D.流计算适合处理实时更新的数据解析 本题考查大数据的相关知识。B选项对于数据不再追求精确性,而是能够接受数据的混杂性。课时2 大数据处理的基本思想与架构课时目标1.了解大数据处理架构和基本思路。2.了解静态数据、流数据和图数据三者的区别。1.处理大数据时一般采用________思想,就是把一个复杂的问题分成两个或更多______________的子问题。分治思想的实现过程2.大数据处理类型有____________、________和________三大类。3.Hadoop是一个可运行于大规模计算机集群上的____________基础架构,适用于____________的批处理计算。静态数据指在处理时已收集完成,在计算时不会发生改变的数据,一般采用________方式。4.分布式文件系统(简称HDFS)主要功能是将大规模海量数据以文件的形式,用多个副本保存在不同的存储节点中,并用________________进行管理。HDFS是一个高度________的系统,适合部署在廉价的机器上。云盘、网盘的底层一般采用________实现。5.分布式的列式数据库(HBase)采用基于________的存储形式,建立在HDFS提供的底层存储基础上,主要用来存储____________数据和____________数据,具有良好的横向扩展能力,可管理PB级的大数据。6.流数据是指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随着________。7.实时处理系统处理大量的________,处理流数据的计算平台有________、Heron、IBM InfoSphere、Streams等。8.Twitter公司的大数据处理系统Summingbird实现了________________________在一个平台架构下的整合(Hadoop+Storm)。1.处理大数据的分治思想分治就是把一个复杂的问题分成两个或更多相同或相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决,可以再把它们分成几个更小的子问题,以此类推,直至可以直接求出解为止。2.三种处理数据的系统及相应的平台(1)批处理计算Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。Spark属于较广的开源分布式计算架构,Spark启用了内存存储中间结果,运行速度比Hadoop快很多。(2)实时处理系统实时处理系统主要用于处理流数据,比如大型购物网站的广告推荐、社交网络的个性化推荐等,流数据的计算平台有Storm、Heron、IBM InfoSphere、Stream等等。(3)图计算图数据的特点是节点之间的关系错综复杂,且节点之间可能有多条回路。目前通用的图处理软件主要包括两类:一类是图数据库,如Neo4j、InfiniteGraph、OrientDB等;另一类是并行图处理系统,如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。(4)实时处理与批处理的整合开发者在同一个平台既可以做批处理,也可以做实时流计算,还可以进行两种模式的混合使用。平台的整合降低了批处理与流处理之间的切换,有利于减少系统的开销,降低使用成本。例1 n个志愿来自10个不同的城市,每个城市按每个志愿参加志愿活动降序排列。小明把n个志愿按城市分成10个集合,在每个集合进行排序,该算法主要采用的思想是( )A.顺序查找法 B.枚举法C.分治算法 D.解析法听课笔记: 变式训练1 把n个数据按序排序,若要查找一个数是否在这些数据中,把这些数分成前后两部分,与中间的数据进行对比,如果该数据在前半部分,则继续按前面的思想进行分别查找,该算法主要采用的思想是( )A.顺序查找法 B.枚举法C.分治算法 D.解析法例2 通过下列方式获取数据,数据类型属于静态数据的是( )A.各个监控不断向监控中心发送的数据B.同一时间内收到10万移动设备的位置信息C.服务器的近10天内的IP访问数据日志D.大型购物网站的广告推荐听课笔记: 变式训练2 下列关于大数据中的流数据的描述,正确的是( )A.数据必须采集完成后再进行处理B.数据价值不会随着时间的流逝降低C.Hadoop是专业的流数据处理平台D.实时分析流数据可以得到更有价值的结果例3 下列关于分布式文件系统,说法错误的是( )A.是一个高度容错性的系统B.适合于静态数据的存储,但不适合于流数据的存储C.Hadoop系统中,采用基于列的存储方式进行存储D.大规模海量数据以文件的形式,用多个副本保存在不同的存储节点中听课笔记: 变式训练3 云盘的底层一般采用文件格式是( )A.HDFS B.Ext4C.FAT32 D.NTFS例4 下列有关大数据中统计和处理说法正确的是( )A.批处理的结果不能用于实时处理系统中B.图处理软件主要包括图数据库和并行图处理系统C.同一个平台既要么做批处理,要么做实时流计算,不能两者兼之D.对于社交网络的个性化数据推荐,往往可以在批处理平台中进行计算听课笔记: 变式训练4 下列有关Hadoop计算平台的说法中,不正确的是( )A.Hadoop计算平台是一个可运行于大规模计算机集群上的分布式系统基础架构B.Hadoop计算平台适用于对静态数据进行处理C.Hadoop计算平台主要包括Common公共库、HDFS、HBase、MapReduce等模块D.Hadoop计算平台也适用于对流数据的实时处理1.大数据处理的基本思想是( )A.排序 B.枚举C.分治 D.递归2.下列有关大数据按照类型划分的处理方式的描述,正确的是( )A.流数据采用批处理计算B.静态数据采用流计算C.社交网络的数据一般采用图计算D.图数据采用批量计算3.下列不属于Hadoop计算平台组成部分的是( )A.Common公共库B.分布式文件系统NTFSC.分布式数据库HBaseD.分布式并行计算模型MapReduce 展开更多...... 收起↑ 资源列表 课时2 大数据处理的基本思想与架构 学案 浙教版(2019)必修1.doc 课时2 大数据处理的基本思想与架构 教案 浙教版(2019)必修1.doc 课时2 大数据处理的基本思想与架构 课件(共42张ppt)浙教版(2019)必修1.pptx