资源简介 第四章作业:《大数据处理的基本思想架构》班级: 学号: 姓名:1.大数据处理的分治思想分治就是把一个复杂的问题分成两个或更多相同或相似的 ,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决,可以再把它们分成几个更小的子问题,以此类推,直至可以直接求出解为止。2. 大数据处理类型(1)静态数据:在处理时已收集完成、在计算时 的数据,一般采用 进行处理。(2) :不间断地、持续地到达的实时数据,随着时间的流逝,数据的价值也随之降低,可采用________ 进行实时分析。(3)图数据:现实世界中的许多数据,如社交网络、道路交通等数据,可采用 进行处理。3.批处理计算Hadoop 是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于 的批处理计算。Hadoop 计算平台主要包括Common 公共库、 、 、______________________等多个模块。(1)HDFS 将大规模海量数据以________的形式、用多个副本保存在不同的存储节点中,并用分布式系统进行管理。HDFS 是一个高度容错性的系统,适合部署在廉价的机器上。(2)HBase 建立在HDFS 提供的底层存储基础上,采用基于列的存储方式,主要用来存储 和___________________,可管理PB 级的大数据。(3)MapReduce:MapReduce 能够处理大规模数据集的并行运算,主要由 和 2个函数构成。其核心处理思想是将任务分解 并分发到多个节点上进行处理,最后汇总输出。4. 流计算流计算系统可以简单、高效、可靠地实现实时数据的获取、传输和存储,在与数据库、Hadoop、编程语言等整合后可开发出功能强大的实时计算与分析应用。5. 图计算现实世界中的很多数据是以图的形式呈现的,或者是可以转换为图以后再进行分析的,如社交网络、网络浏览与购买行为、传染病的传播路径等。基 础 训 练下列关于流数据的描述,不正确的是( )A. 数据必须采集完成后处理B. 数据价值随着时间的流逝降低C. 可以采用流计算进行实时分析D. 实时分析流数据可以得到更有价值的结果2. 下列应用中涉及流数据处理的是( )A. 统计店铺的月交易量B. 实时更新导航线路C. 查询历史话费账单D. 分析上年的地铁客流数据3. 下列选项中,属于分布式文件系统的是( )A. HDFS B. FAT32C. NTFS D. Ext44. 下列关于分布式数据库HBase 的理解,不正确的是( )A.HBase 是谷歌BigTable数据库的开源实现B. 建立在HDFS 提供的底层存储基础上C. 采用基于行的存储方式,可管理PB 级的大数据D. 主要用于存储非结构化数据和半结构化数据5. 下列属于图数据处理软件的是( )A. MapReduce B. Twitter StormC. Yahoo! S4 D.Google Pregel6. 实时处理与批处理整合的优势有( )①增加了系统开销②有利于降低使用成本③可以在同一个平台做批处理计算和流计算④缩短了批处理计算和流计算之间的切换延时A.①②③ B.①②④C.①③④ D.②③④7. 下列关于数据和信息的说法,正确的是( )A.数据的表现形式只能是文字和图像 B.同一信息对所有人而言其价值是相同的C.计算机中保存的数据可以是未经数字化的 D.信息是数据经分析、解释后得到的8. 下列关于大数据的说法,不正确的是 ( )A. Windows和Linux文件系统均不能满足分布式文件的管理需求B. Hadoop分布式文件系统是谷歌文件系统的开源实现C. Twitter开源了其大数据处理系统Summingbird,该系统实现了批处理和图计算在一个平台架构下的整合D. MapReduce分布并行计算的思想是将任务分解并分发到多个节点上进行处理,最后汇总输出9. 淘宝所使用的银河流数据处理平台,可以不间断、持续到达的、具有时效性的给平台提供数据参考,已知的实时更新的导航系统也具备同样的特征,可以推测这两种平台实现上述功能采用的是()A. 对流数据的流计算 B. 对静态数据的批处理计算C. 对图数据的图计算 D. 对静态数据的图计算10. 下列属于Hadoop计算平台包括的模块的是( )①分布式并行计算模型 MapReduce ②Twitter Storm软件系统 ③分布式文件系统HDFS ④分布式数据库HBase ⑤Google Pregel系统A. ②④ B. ①②③ C. ①③④ D. ④⑤11. 下列应用中的数据不属于图计算处理的是 ( )A. 社交网络图 B. 传染病的传播途径C. 实时更新的天气预报信息 D. 台风的移动轨迹12. 下列关于大数据处理方法和特征的说法,不正确的是( )A. 图数据的处理方式为图计算B. 流数据具有不间断、持续到达的、具有时效性的特点C. 图数据的处理平台有Hadoop、Pregel等D. 静态数据在处理时已收集完成,在计算时不会发生改变,处理平台包括Spark等13. 应用“分治”思想,从某大型搜索引擎网站某天的访问日志数据文件(大数据集)中提取出访问该网站次数最多的IP。(1)IP地址是一个32位的二进制数,通常被分割为4个“8位二进制数”。IP 地址通常用“点分十进制”表示成a.b.c.d的形式,其中a,b,c,d均为0~255之间的十进制整数。 如:点分十进制 IP 地址100 .4 . 5 . 6,实际上是32位二进制数01100100.00000100.00000101.00000110。IP地址最多有 种取值。(2)IP日志数据量非常大,不能完全加载到内存中处理。可以采用“分治”思想,把 IP日志数据分别存储到1024个小文件中,则每个小文件最多包含 个IP地址的数据。(3)同时统计每个小文件中出现次数最多的IP地址和出现次数。若小文件中IP地址数据格式如图4-7所示,统计小文件中出现次数最多的IP地址的Python代码如下,在方框中补充合适代码,完善程序。file =open('1.log')ips =[]for line in file:ip=line.split()[0] #split()分割后,返回的列表中第一个值就是IP地址ips.append(ip)def showmax(list): #返回一个列表中出现次数最多的元素及其出现次数print(showmax(ips))(4)汇总每个小文件中出现次数最多的IP地址和出现次数数据,可以得到至少 个 IP地址。对这些IP地址按出现次数排序或求最大值,最终得到总体上出现次数最多的IP。【编程作业】给定一个正整数n,返回连续正整数满足所有数字之和为n的组数。示例1:输入:n=5输出:2解释:5=2+3,共有两组连续整数([5],[2,3])求和后为5示例2:输入:n=9输出:3解释:9=4+5=2+3+4示例3:输入:n=15输出:4解释:15=7+8=4+5+6=1+2+3+4+5 展开更多...... 收起↑ 资源预览