4.2大数据处理第2课时分层作业（含答案解析）-高中信息技术浙教版2019 必修1 数据与计算

资源简介

4.2大数据处理第2课时（分层作业）
【夯实基础】
大数据的特征可以用被总结为4V特征，以下哪个不属于大数据的4V特征（）
A．种类多（Variety） B．体量大（Volume）
C．风险大（Venture） D．速度快（Velocity）
下列数据处理中，不属于文本数据处理的是(　　)
A．将中文翻译成其他国家的文字
B．输入姓名、单位等信息，制作通讯录
C．检测的论文内容与对比库中的资料进行对比，检测论文可信度
D．解析大量合同文档，有效监控风险条款，节省人力和时间成本
大数据领域中，为了提高数据质量、降低数据计算的复杂度、提升数据处理的准确性。常用的技术是（）
A．预处理技术 B．存储技术 C．管理技术 D．挖掘技术
数据处理的一般过程是（）。
A．采集—分析—整理—可视化表达 B．采集—整理—可视化表达－分析
C．采集—整理—分析－可视化表达 D．采集—可视化表达—整理－分析
下列关于大数据的描述中，不正确的是（）
A．大数据专指Excel软件收集、加工的数据
B．物联网、云计算、手机、电脑都是数据的来源
C．互联网生成的数据量正以爆发性的速度不断增长
D．在科学实验中，各种传感器每时每刻的速度不断增长
下列关于大数据的说法，正确的是（）
A．大数据要分析的是全体数据，而不是抽样数据，且要求数据必须是精确无误的
B．处理大数据时，一般采用分治思想
C．处理大数据时，更注重事物的因果关系而不是相关性
D．实现对实时数据的获取、传输和存储可以采用分布式系统完成
下列关于大数据处理的描述中，不正确的是（　　）
A．处理大数据时，一般采用分治思想
B．Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构，适用于处理实时数据
C．HDFS是一个高度容错性的系统，适合部署在廉价的机器上，云盘、网盘的底层一般采用HDFS实现
D．MapReduce是一种分布式并行编程模型，主要由Map（映射）和Reduce（归纳）2个函数构成
下列对大数据的理解错误的是（）。
A．从互联网产生大数据的角度来看，大数据具有“4V”特征，分别是大量（Volume），多样（Variety），低价值密度（Value），高速（Velocity）。
B．从互联网思维的角度来看，大数据具有三个特征：样本渐趋于总体，精确让位于模糊，相关性重于因果。
C．从大数据存储与计算的角度来看，大数据具有两个特征：分布式存储和分布式并行计算。
D．以上都不对
【巩固提升】
下列描述的场景与处理方法使用不恰当的是(　　)
A．分析前一年的高铁客流数据优化高铁运行采用批处理计算
B．京东网双12通过实时分析用户行为实现商品的推荐采用流计算
C．图计算为腾讯超大规模社交网络图数据的各类计算提供支撑
D．分析近五年的信息技术选考试卷梳理高频考点采用流计算
某超市曾经研究销售数据，发现买商品A的人购买商品B的概率很大，这种属于数据的（　　）
A．聚类分析 B．关联分析 C．分类分析 D．回归分析
下列数据处理中，不属于文本数据处理的是(　　)
A．根据白名单和黑名单机制，进行垃圾邮件的识别
B．在线客服通过自动应答技术回答问题
C．实时监测景区的人流数据，控制过多的游客进入景区
D．分析消费者的意见数据，挖掘用户观点，辅助运营决策
居民身份证号码可以反映出常住户口所在地的行政区划、出生日期和性别等信息，这主要体现了数据是（）。
计算工具识别、存储和加工的对象 B．信息的载体
C．可处理的 D．可加工的
【拓展应用】
（简答题）请写出大数据处理流程四步骤。
近年来，很多网络平台会在年底为用户生成专属的个人报表，显示一年内该用户在该平台上的各种使用行为数据。
（1）这类个人报表是利用大数据技术收集用户的个人行为数据，并通过分类和计算获得。由此可见( )
A.大数据采集的数据必须准确无误 B.大数据的数据采集主要还是人工方式
C.大数据分析的是抽样数据 D.大数据分析能发现数据间的相关性
（2）某数据公司统计了2016-2020年全球每年产生的数据量及其增速，结果如图。
此统计主要采用的数据分析方法是（），使用了（）和（）两种图表来组合进行可视化呈现。( )
A.聚类分析、饼图、条形图 B.对比分析、折线图、柱形图
C.结构分析、饼图、条形图 D.平均分析、折线图、柱形图
（3）该网站可实现对数据的加密解密，界面如图。该应用服务架构体系属于( )
A.B/S B.P2P C.C/S D.B/C
（4）此网站的加密功能是对输入的明文（由字母、数字或其他字符组成的字符串）中的每个字符进行处理。算法规则如下：
①将明文中所有的小写字母转换为大写字母，例如：a→A；
②将明文中所有的数字加上1变成另一个数字，例如0→1，9→0；
③明文中除了小写字母和数字字符外均不进行转换；
④将加密后的数据倒序输出，例如“abc”→“cba”，即为该明文的密文。
那么，明文为“An95”得到的密文为( )
A.59nA B.69nA C.60NA D.60nA
（5）以上加密算法，如果用Python语言实现，为方便处理，明文和密文一般都被抽象为( )数据类型的数据。
A.数值 B.字符串 C.列表 D.元组
参考答案：
【夯实基础】
1．C
【详解】[详解]:本题主要考查大数据特征。大数据的4V特征分别是Volume(大量性)、Velocity (高速性)、Variety(多样性)、Value(价值性)，故本题选C选项。
2．B
【详解】本题考查的是文本数据处理。制作通讯录的材料是结构化数据，选项 B符合题意。
3 . A
【详解】本题考查大数据技术相关内容。大数据预处理技术是指在进行大数据分析之前，对原始的大量数据进行清洗、转换、集成和规范化等一系列操作，以提高数据的质量、可用性和可操作性。故本题答案是A选项。
4 . C
【详解】本题主要考查数据处理。数据处理的一般过程是采集一分析一整理可视化表达，故本题选C选项。
5 . A
【详解】本题主要考查大数据的描述。大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合，是需要新处理模式才能具有更佳的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;物联网、云计算、手机、电脑都是数据的来源;互联网生成的数据量正以爆发性的速度不断增长;在科学实验中，各种传感器每时每刻的速度不断增长，故本题选A选项。
6．B
【详解】本题考查大数据相关内容。
A选项，大数据要分析的是全体数据，不是抽样数据，大数据具有低价值密度性，所以大数据无需每个数据都准确无误，选项错误。
B选项，处理大数据时，一般采用分治思想(把最初的问题分解成若干子问题，然后，在逐个解决各个子问题的基础上得到原始问题的解)，选项正确。
C选项，处理大数据时，更注重事物的相关性而不是因果关系，选项错误。
D选项，实现对实时数据的获取、传输和存储可以采用Flink完成。Flink是一个开源的流处理框架，支持窗口操作、聚合操作、连接操作等复杂计算。Flink还提供了容错机制，可以在数据处理过程中实时修复错误，并可以通过Checkpoint机制实现数据的容错。Flink的优点是支持流式计算，可以处理大规模的数据流，适用于处理实时数据。选项错误。故本题答案是B选项。
7．B
【详解】本题主要考查大数据处理。hadoop指一个用于大数据分布式存储(HD FS)，分布式计算(MapReduce )和资源调度(YARN)的平台，Hadoop适用于静态数据的批处理计算，不适用于夂处理实时数据，故本题选B选项。
项。
8．D
【详解】本题主要考查大数据的相关知识。大数据具有“4V”特征，分别是大量(Volume)，多样(Variety)，高速(Velocity)、低价值密度(Value),因此A选项正确;从互联网思维白的角度来看，大数据具有三个特征:样本渐趋于总体，精确让位于模糊，相关性重于因果。因此B选项正确;人从大数据存储与计算的角度来看，大数据具有两个特征:分布式存储和分布式并行计算。因此C选项正确;由上可知D选项不符合题意。
【巩固提升】
D
【详解】本题考查的是对不同数据的不同处理方法。一般静态数据用批处理计算，流数据用流计算，图数据用图计算等。近五年的信息技术选考试卷梳理高频考点应该属于静态数据，应采用批处理计算。故选项D正确。
B
【详解】本题考查的是数据分析。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标
准，聚类分析能够从样本数据出发、自动进行分类。关联分析就是分析并发现存在于大量数据之间的关联性或相关性，从而描述一个事物中某些属性同时出现的规律和模式。数据分类是数据分析处理中最基本的方法。数据分类通常的做法是，基于样本数据先训练构建分类函数或者分类模型(也称为分类器)，该分类器具有将分类数据项映射到某一特点类别的功能。回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。某超市曾经研究销售数据，发现买商品A的人购买商品B的概率很大，这种属于数据的关联分析。故选项B正确。
C
【详解】本题考查的是数据处理。C选项只是掌握游客数量，没有进行分词等文本操作。
C
【详解】本题主要考查数据处理。数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取出相对有价
值、有意义的数据，故居民身份证号码可以反映出常住户口所在地的行政区划、出生日期和性别等信息，这主要体现了数据是可处理的，故本题选C选项。
【拓展应用】
【答案】
大数据处理流程主要包括四个关键步骤:数据采集、数据预处理、数据存储与分析以及数据可视化。
(1)数据采集是大数据处理流程的第一步，也是至关重要的一步。数据采集的主要目的是从各种数据源中收集、识别和记录数据。在数据采集阶段，需要使用各种不同的技术和工具，例如ETL(提取、转换、加载)工具、数据清洗工具、数据库管理系统等等。
(2)数据预处理是大数据处理流程的第二步，其主要目的是对数据进行清洗、整合和变换，以提高数据的质量和可用性。在这个阶段，需要使用各种数据处理技术和工具，例如数据去重、数据填补、数据规范化等等。
(3)数据存储与分析是大数据处理流程的第三步，其主要目的是对数据进行存储和管理，并通过对数据的分析来获得有用的信息。在这个阶段，需要使用各种数据存储技术和工具，例如分布式文件系统、数据库管理系统等等。
(4)数据可视化是大数据处理流程的最后一步，其主要目的是将数据处理的结果以可视化的方式呈现出来，以便更加直观地
展示数据的特征和规律。在这个阶段，需要使用各种数据可视化技术和工具，例如表格、图表、地理信息系统等等。
大数据处理流程的四大步骤是相互联系、相互影响的。通过这四个步骤的执行，可以有效地优化数据，充分挖掘数据的潜在价值，为决策和业务运营提供有力支持。同时，随着技术的不断发展和进步，大数据处理的流程和方式也将不断改变和优化，以更好地适应时代的需求和发展。
【详解】本题考查大数据处理流程相关内容。大数据处理流程主要包括四个关键步骤:数据采集、数据预处理、数据存储与分析以及数据可视化。回答出要点即可。
【答案】D B A C B
【详解】本题考查数据与大数据相关内容。结合题目内容可知:
(1)这类个人报表是利用大数据技术收集用户的个人行为数据，并通过分类和计算获得，说明大数据分析能发现数据间的相关性。故本题答案是:D。
(2)①聚类分析就是将研究对象根据一些特征指标，把比较相似的研究对象，按一定的方式归为同类。②对比分析法是指将两个或两个以上的数据进行比较，分析它们的差异，从而揭示这些数据所代表的事物发展变化情况和规律性，对比分析可分为静态比较和动态比较两大类:静态比较也叫横向对比，是同一时间下对不同指标的对比;动态比较也叫纵向对比，是同一总体条件对不同时期指标数值的比较。③结构分析法指分析总体内的各部分与总体之间进行对比的分析方法及总体内各部分占总体的比例，属于相对指标，一般某部分的比例越大，说明其重要程度越高，对总体的影响越大。④平均分析法是运用计算平均数的方法来反映总体在一定时间/地点条件下某一数量特征的一般水平，平均指标可用于同一现象在不同地区/不同部门或单位间的对比，还可用于同一现象在不同时间的对比。该图展示了2016-2020年全球每年产生的数据量及其增速，属于对比分析，使用了柱形图和折线图。故本题答案是:B。
(3)用户通过浏览器实现各种操作，属于B/S架构。故本题答案是:A。
(4)由加密规则可知，明文“An95”中:“A”保持不变，“n”转换为“N”，“9”转换为“0”，“5”转换为“6”，逆序排列即为密文:“60NA”，故本题答案是:C。
(5)用Python语言实现该加密算法，为方便处理，明文和密文一般都被抽象为字符串类型的数据。故本题答案是:B。

展开更多......

收起↑

请用微信扫码

4.2大数据处理 第2课时 分层作业（含答案解析）-高中信息技术浙教版2019 必修1 数据与计算

4.2大数据处理 第2课时 分层作业（含答案解析）-高中信息技术浙教版2019 必修1 数据与计算

4.2大数据处理第2课时分层作业（含答案解析）-高中信息技术浙教版2019 必修1 数据与计算

4.2大数据处理第2课时分层作业（含答案解析）-高中信息技术浙教版2019 必修1 数据与计算