5.1.2《大数据的特征》粤教版(2019)-数据与计算必修1-课后练习(含答案)

资源下载
  1. 二一教育资源

5.1.2《大数据的特征》粤教版(2019)-数据与计算必修1-课后练习(含答案)

资源简介

大数据的特征练习题
(粤教版·必修一《数据与计算》)
一、单选题(共15题,每题5分,共75分)
1. 下列选项中,被称为大数据“4V”特征核心内容的是(  )
A. 大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)
B. 大量(Volume)、多样(Variety)、价值密度高(Value)、高速(Velocity)
C. 大量(Volume)、单一(Variety)、低价值密度(Value)、低速(Velocity)
D. 少量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)
2. 从互联网产生大数据的角度来看,大数据最显著的特征是(  )
A. 数据类型单一
B. 数据体量巨大
C. 数据价值密度高
D. 数据变化速度慢
3. “淘宝网每日产生超过数十TB(1TB=1024GB)的交易数据”,这句话主要体现了大数据(  )的特征。
A. 多样(Variety)
B. 低价值密度(Value)
C. 大量(Volume)
D. 高速(Velocity)
4. 监控摄像头持续录制视频,产生的数据量极大,但其中真正有用且被关注的可能只有几秒钟的片段,这主要体现了大数据(  )的特征。
A. 数据体量巨大
B. 数据类型繁多
C. 价值密度低
D. 变化速度快
5. 某社交平台用户在1秒内发布上万条动态信息,后台系统需要快速响应并及时更新,这体现了大数据(  )的特征。
A. 数据体量巨大
B. 数据类型繁多
C. 价值密度低
D. 变化速度快
6. 当前互联网上存储的数据不仅包括传统的文本数字,还包括图片、音频、视频、位置信息等,这主要体现了大数据(  )的特征。
A. 数据体量巨大
B. 数据类型繁多
C. 价值密度低
D. 价值密度高
7. 下列关于大数据特征的说法,不正确的是(  )
A. 大数据的数据体量通常从TB级别跃升到PB级别
B. 大数据的数据类型单一,主要用于存储文本信息
C. 大数据的价值密度相对较低
D. 大数据的变化速度快,数据以秒为单位发生变化
8. 从互联网思维的角度来看,大数据具有三个重要特征:样本渐趋于总体、精确让位于模糊、相关性重于因果。其中“精确让位于模糊”的意思是(  )
A. 大数据的分析结果必须绝对精确
B. 大数据时代不再需要精确数据
C. 大数据时代只要掌握大体的发展方向即可,适当忽略微观层面的精确度
D. 大数据只能处理模糊的信息
9. 某电商平台通过分析大量用户购买记录发现,购买婴儿尿布的用户有较大概率也会购买啤酒。这一发现使用的是大数据分析理念中的(  )
A. 因果关系
B. 相关关系
C. 抽样分析
D. 精确分析
10. 从大数据存储与计算的角度来看,大数据具有的特征是(  )
A. 集中存储和集中计算
B. 集中存储和分布式并行计算
C. 分布式存储和分布式并行计算
D. 分布式存储和集中计算
11. 下列有关大数据的说法中,正确的是(  )
A. 大数据的价值密度非常高,每条数据都有重要价值
B. 大数据的4V特征是指体积、暴力、速度、多样化
C. 大数据采集时更倾向于全体数据而不是抽样数据
D. 大数据处理时,数据的精确性比数据的时效性更重要
12. 以下数据描述中,最能体现大数据“多样(Variety)”特征的是(  )
A. 某公司网站每天的用户访问日志文件达到了1TB
B. 某城市交通数据包括GPS定位、电子警察抓拍、公交车刷卡记录、道路监控视频等多种来源的数据
C. 某气象监测站的温度数据每秒钟更新一次
D. 某视频监控系统中有价值的线索可能只有几秒钟
13. 对于数据挖掘中的“相关性重于因果”,下列说法正确的是(  )
A. 大数据分析完全不需要关注因果关系
B. 大数据分析强调发现事物之间的关联规律,不一定需要知道背后的原因
C. 相关性分析比因果分析更准确
D. 因果关系在大数据时代不再适用
14. 关于传统数据与大数据,以下说法正确的是(  )
A. 传统数据主要处理结构化数据,大数据主要处理非结构化数据
B. 传统数据和大数据都是小规模数据
C. 传统数据比大数据处理速度更快
D. 传统数据和大数据的特征完全相同,只是叫法不同
15. 粤教版教材中明确给出大数据“4V”特征中的“Value”指的是(  )
A. 数据量巨大
B. 数据类型多样
C. 低价值密度
D. 数据处理速度快
二、填空题(共10题,每题2分,共20分)
1. 从互联网产生大数据的角度来看,大数据具有“4V”特征,分别是:大量(Volume)、多样(Variety)、__________和__________。
2. 大数据的“4V”特征中,“Value”指的是__________。
3. 大数据的变化速度快,数据来自世界各地的网络终端,且以__________为单位快速变化。
4. 从大数据存储与计算的角度来看,大数据的两个基本特征是__________、__________。
5. 从互联网思维的角度来看,大数据具有三个特征:样本渐趋于总体、精确让位于模糊、__________。
6. 某机场每天产生的乘客通行数据量极大,但真正有价值的部分仅占极小比例,这体现的是大数据__________的特征。
7. 大数据的“Volume”特征是指__________。
8. 与传统数据分析注重因果关系不同,大数据分析更注重事物之间的__________。
9. 大数据时代强调数据要__________而不是抽样,强调数据规模全量。
10. 道路交通中实时产生的车辆数据、电子警察抓拍数据属于__________型数据。
三、情景作答题(共3题)
情景一:城市交通大数据平台
某大城市正在建设智慧交通大数据平台,系统采集的数据包括:
全市5万辆出租车的实时GPS定位数据(每30秒更新一次)
全市2000个路口电子警察的抓拍记录(每天约200万条)
全市5000辆公交车和地铁的刷卡记录(每天约300万条)
主干道上的实时视频监控(全天24小时不间断录制)
天气预警系统数据(每10分钟更新)
交通广播听众互动平台的留言、投诉等文字信息
数据分析专家每天都在分析这些数据,用于交通流量预测、公交线路优化、交通信号灯配时优化等工作。
请回答以下问题:
1. 请指出上述交通大数据平台涉及的数据来源有哪些不同种类,并分析这些数据在类型上主要体现了大数据4V特征中的哪一个特征。(4分)
2. 视频监控数据“全天24小时不间断录制”,但真正有价值的交通事故或违章画面可能只占极少时间,这体现了大数据4V特征中的哪一个?请简要解释。(4分)
3. 出租车GPS数据每30秒更新一次,天气预警数据每10分钟更新一次。相比传统数据采集方式(如人工普查),这体现了大数据的哪一特征?请说明理由。(4分)
4. 交通预测系统通过分析历史路况信息来预测未来30分钟内的拥堵路段,这体现了大数据分析理念中的“相关性重于因果”。请结合本案例解释为什么相关关系在这一场景中比因果关系更重要。(6分)
情景二:学校图书馆的管理数据
某中学图书馆保存了最近5年的借阅记录,数据容量约为10GB。管理员希望通过分析掌握同学们的阅读喜好,以便采购更多受欢迎的书籍。
请回答以下问题:
1. 10GB的数据是否符合大数据的体量特征?请说明理由。(4分)
2. 如果把全市所有中学图书馆的借阅数据汇总起来进行分析,数据量将达到TB级别,这是否符合大数据的定义?为什么?(4分)
3. 请从大数据思维的角度,为管理员设计两个数据分析的思路(例如:全量数据分析而非抽样、关注相关性而非因果等)。(4分)
情景三:用户画像与隐私泄露
某大型购物网站通过分析用户的浏览和购买记录,为每位用户构建了“用户画像”,实现了精准的个性化商品推荐。例如,当用户浏览过户外运动装备后,页面就会出现登山鞋、帐篷等推荐商品。然而,有用户发现,自己只是帮朋友搜索过一次减肥产品,之后就不断收到相关产品的广告推送,感觉个人隐私受到了侵犯。
请回答以下问题:
1. 购物网站为用户推荐相关商品,用到了大数据分析理念中的哪一核心思想?(4分)
2. 从大数据特征的角度分析,为什么网站能够准确分析用户的购物偏好并实现个性化推荐?(4分)
3. 大数据对社会生活既有积极影响也有负面影响,请结合案例说明大数据对日常生活的正面和负面影响各一条,并针对隐私泄露问题提出一条合理化建议。(6分)
参考答案与解析
一、单选题答案解析
1. A
解析:本题考查大数据的4V特征内容分布。根据粤教版教材,从互联网产生大数据的角度来看,大数据具有“4V”特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)。因此A正确,B、C、D均存在替换错误或无此特征。
2. B
解析:本题考查大数据最显著的特征判断。大数据的最显著特征是数据体量巨大。其他选项的方向一对比就不正确,如“数据类型单一”不符合大数据多样的特征,“价值密度高”与低价值密度相反,“变化速度快”也是特征之一但不是最显著的特征。
3. C
解析:本题考查大数据“大量(Volume)”特征的识别——“每日产生数十TB数据”描述的是数据体量巨大的特征(Volume)。
4. C
解析:本题考查大数据“低价值密度(Value)”特征的理解。监控视频产生大量数据,其中有用信息少,符合低价值密度特征的定义。
5. D
解析:本题考查大数据“高速(Velocity)”特征的理解。用户每秒发布上万动态,后台系统快速响应处理,这体现了大数据变化速度快和处理速度快的特征。
6. B
解析:本题考查大数据“多样(Variety)”特征的识别。图片、音频、视频、位置信息属于不同类型的数据,体现数据类型繁多、来源多样的大数据特征。
7. B
解析:本题考查对大数据特殊化表述的真伪辨别。B错误,因为大数据的数据类型并非单一,而是多种类型并存,包括结构化、半结构化和非结构化数据。
8. C
解析:本题考查“精确让位于模糊”这一大数据思维理念的内涵。粤教版教材原文说明:“大数据时代研究的数据如此之多,追求的不是精确性,而是模糊性。在大数据时代,只要掌握了大体的发展方向即可,适当忽略微观层面的精确度,会让我们在宏观层面拥有更好的洞察力。”
9. B
解析:本题考查“相关性重于因果”这一大数据分析理念的理解。尿布与啤酒看似无关,但通过大数据分析发现购买尿布的用户有很大概率也购买啤酒,这是典型的关联分析,关注的是两者之间的相关关系而非因果关系。
10. C
解析:本题考查大数据存储与计算方式的两个特征。根据粤教版教材,从大数据存储与计算的角度来看,大数据具有两个特征:分布式存储和分布式并行计算。
11. C
解析:本题考查大数据基本概念的全面理解。A错误,价值密度低是大数据特点之一;B错误,4V特征应为大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity);C正确,粤教版明确指出大数据时代强调数据要全量而不是抽样;D错误,大数据时代更强调数据的时效性而非绝对的精确性。
12. B
解析:本题考查“多样(Variety)”特征的准确判断。A描述的是数据体量巨大(Volume);B描述的GPS定位、抓拍记录、刷卡记录、监控视频等属于多种来源、多种类型的数据,体现多样特征;C描述的是变化速度快(Velocity);D描述的是价值密度低(Value)。
13. B
解析:本题考查“相关性重于因果”理念的正确定义。A过于绝对(并非完全不需要因果);B符合粤教版教材相关表述;C不准确;D错误。教材原文明确指出:相关关系也许不能准确地告诉我们某件事情为何会发生,但会提醒我们这件事情正在发生。
14. A
解析:本题考查传统数据与大数据的区别。传统数据主要处理结构化数据(如二维表格),而大数据处理的数据类型多样,包括大量非结构化数据(如文本、图片、视频)。
15. C
解析:本题考查教材中“4V”特征的准确定位。教材明确指出4V中的Value指低价值密度。
二、填空题答案解析
1. 低价值密度(Value);高速(Velocity)
解析:教材明确规定“4V”特征包括大量、多样、低价值密度和高速。
2. 低价值密度
解析:在大数据的“4V”特征中,Value对应低价值密度而非高价值。
3. 秒
解析:教材说明大数据变化速度快,数据以秒为单位快速变化。
4. 分布式存储;分布式并行计算
解析:教材原文,从大数据存储与计算的角度来看的两大特征。
5. 相关性重于因果
解析:教材列出的互联网思维三大特征。
6. 低价值密度(Value)
解析:数据量大但有用信息少,属于低价值密度特征。
7. 数据体量巨大(或数据量大)
解析:Volume特征的核心含义是数据体量巨大。
8. 相关关系
解析:教材指出大数据时代不是紧紧围绕因果关系,而是相关关系。
9. 全量
解析:教材原文指出“强调数据要全量而不是抽样”。
10. 流
解析:交通实时数据属于流数据。
三、情景作答题答案解析
情景一:城市交通大数据平台
1. 数据类型多样性与4V特征
交通大数据平台涉及的数据来源包括GPS定位数据、交通抓拍记录、公交地铁刷卡记录、视频监控数据、天气数据、文本留言数据等。这些数据在类型上涵盖了结构化数据(刷卡记录、定位数据)、半结构化数据和大量非结构化数据(视频、文本)。这主要体现了大数据4V特征中的多样(Variety)特征——数据来源多、格式各异、类型丰富。
2. 视频监控数据的价值密度低特征
体现了大数据的低价值密度(Value)特征。视频监控全天24小时不间断录制,数据体量极为庞大,但真正涉及交通事故、违章等有价值的画面可能只占极少时间(也许仅是几秒钟)。这正是大数据低价值密度特征的典型体现:海量数据中蕴含的有价值内容非常稀疏,需要通过高效的分析手段来提取有价值的信息。
3. 数据更新快体现高速(Velocity)特征
这体现了大数据的高速(Velocity)特征。传统数据采集方式(如人工普查)需要耗费大量人力和时间,数据更新周期长、滞后明显。而交通大数据平台中,GPS数据以秒/分钟为单位不断更新,天气数据定期刷新,系统能快速响应和处理实时产生的大量数据,满足了交通管理对时效性的高要求。
4. 相关性优于因果关系的分析
在交通流实时预测过程中,需要根据当前时刻各路段的拥堵情况、天气状况、早晚高峰时段等因素快速预判未来时段可能发生拥堵的具体路段位置与程度。如果要逐一分析每个拥堵发生的具体“原因”——如某路段此刻发生事故、某个路口信号灯出现故障等——将需要大量复杂的人工调查和高实时性检测手段,会导致信息处理严重滞后进而错失预测时机。相比之下,通过分析历史路况数据,可以发现“早晚高峰时段车流量大—拥堵概率高”等相关性规律,不需要了解每个拥堵的具体原因,仅依据相关关系即可做出较为准确的前置判断,迅速协助交通疏导和预警。这正是大数据时代“相关性重于因果”含义的生动体现——在很多场景下,知道“会发生什么”比纠结“为什么会发生”更具有实时决策价值。
情景二:学校图书馆的管理数据
1. 10GB是否符合大数据的体量特征
不符合。虽然10GB(约100亿字节)对个人来说已是不小的数据量,但从大数据的基本概念看,大数据通常指数据体量从TB(1TB=1024GB)级别跃升到PB(1PB=1024TB)级别甚至更高。单所中学5年的借阅记录一般规模较小,尚未达到大数据的“体量巨大(Volume)”标准。教材定义明确指出“大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合”,单所中学的内部借阅数据仍可在常规电子表格中完成筛选整理,通常不会超过常规软件工具的快速处理能力。
2. 全市数据汇总后是否符合大数据的定义
符合。如果将全市所有中学的借阅数据汇总起来,数据量将达到TB级别甚至更高,超出常规软件工具的高效处理能力,需要借助分布式存储和并行计算等专门的大数据技术进行分析和管理。此时数据不仅在体量上足够“巨大”,在数据类型的多元化、增长速度等方面的复杂性也达到了大数据的标准,因此符合大数据的基本特征与定义。
3. 两个数据分析思路
① 全量数据分析而非抽样:不要只抽取部分班级或部分年份的数据进行分析,应采用全体学生的全部借阅记录数据,这样可以更全面地掌握不同年级、不同时间段学生的阅读偏好分布。② 关注相关性而非因果:不必花费大量精力去探究学生借阅某一类书籍背后的具体原因(如是为了兴趣、作业,还是受到老师推荐等),可以通过数据分析发现“某类书籍常常被同一批学生借阅”这类相关关系,据此进行连动推荐或组合采购决策,更高效地优化图书资源配置。
情景三:用户画像与隐私泄露
1. 使用的核心分析思想
使用了大数据分析理念中的相关性重于因果的思想。购物网站通过分析大量用户的浏览记录,发现“浏览过户外运动装备的用户”与“购买登山鞋、帐篷等户外产品”之间存在强相关性,进而基于这种相关关系向用户推送商品,而不必深究用户浏览户外装备的真实原因是什么。
2. 实现个性化推荐的原因
主要借助大数据多样(Variety)特征和高速(Velocity)特征。网站收集的数据类型非常丰富,包括用户搜索的记录、点击浏览的页面、加入购物车的商品、收藏的商品、购买历史等多种类型的数据。同时,后台系统能以极快的速度实时分析海量用户行为数据,捕捉用户兴趣变化趋势,及时更新用户画像,从而在恰当的时间为用户推送契合用户潜在购买意图的精准个性化推荐。
3. 正面影响、负面影响及建议
正面影响:大数据使人们日常生活更为便捷——方便购物与产品推介。案例中购物网站的个性化推荐,可以帮助用户发现可能需要但尚未了解的商品,提升购物体验和效率。
负面影响:大数据可能导致用户个人信息泄露,带来信息骚扰。案例中用户虽然仅是帮朋友查询减肥产品,却被持续推送大量此类广告,说明用户的浏览行为已被追踪记录,存在个人隐私信息被过度采集和使用的风险(“信息伤害与骚扰”的典型表现)。
建议:网站应明确告知用户数据的采集和使用范围并提前征得授权,提供更清晰的数据权限管理功能(如关闭个性化推荐、清除浏览历史记录等)。用户应增强个人信息保护意识,关注浏览网站或App的隐私政策,定期查看隐私条款变化与个人授权范围,避免在不必要的情况下授权过多个人信息,学会通过官方渠道申请个人信息查询与删除。

展开更多......

收起↑

资源预览