3.3数据分析与可视化训练4(含答案)

资源下载
  1. 二一教育资源

3.3数据分析与可视化训练4(含答案)

资源简介

3.3数据分析与可视化训练4
学校:___________姓名:___________班级:___________考号:___________
一、选择题
1.新冠肺炎疫情期间为了减少感染风险,在外出前可以提前通过电子地图软件查看人流情况。如图,是某区域实时人流密度图,其图形为数据可视化图形中的( )
A.雷达图 B.热力图 C.散点图 D.词云
2.数据如下图所示,现在要对其整理,以下说法正确的是( )
A.第3行和第4行的数据完全一样,可以用dropna()来删除重复记录
B.第6行中的温度38.2可能是异常值,一般使用箱形图或散点图能清晰地观察到异常值的存在
C.第6行中的温度38.2可能是异常值,可以用前后两条记录中温度的平均值修正该异常值
D.第7行有缺失值,在不研究湿度和风速的情况下,可以保留这条记录
3.小申认为,除了温度会影响骑行人数,在学校附近的共享单车站点,工作日和节假日可能也会影响骑行人数,于是他分别统计了工作日和节假日的骑行人数,以下比较合理的操作是( )
A.分析工作日、节假日骑行人数的总和
B.分析工作日、节假日骑行人数的日平均数
C.分析工作日、节假日骑行人数的最大数
D.分析工作日、节假日骑行人数的最小数
4.以下不是数据分析的基本方法的是( )
A.对比分析法 B.平均分析法 C.结构分析法 D.综合分析法
5.如图所示,某景区2020年某一周的入园游客数量图表,根据图表分析,下列结论错误的是( )
A.该图表是折线图 B.该图表是雷达图
C.周六的入园游客数量最 D.为了分散一周游客入园数量,可以在周三举行门票打折活动
6.在分析《红楼梦》时可以使用python将一些核心词绘进行统计并生成词云图,从而挖掘出《红楼梦》中更多的隐藏信息。词云图是一种数据可视化的表达方式,下列关于词云图的说法错误的是( )
A.词云图是目前常见的关键词数据可视化表达的一种方式
B.可以通过词云图快速获取文本数据中所蕴含的关键信息
C.可以通过词云图直观呈现《红楼梦》书中关键词的出现频次
D.词云图只能通过字体的大小表示关键词的重要程度
7.研究某网络购物平台的历史交易记录,发现买商品A的人购买商品B的概率很大,这是应用了( )数据分析方法。
A.聚类分析 B.数据分类 C.回归分析 D.关联分析
8.数据分析的一般过程不包括( )
A.收集数据 B.选择恰当的分析方法进行分析
C.验证假设是否正确 D.根据分析的目标提出假设
9.对于某个星球综合能力常用如下类似的图标进行标识,该类图表是( )
A.折线图 B.散点图 C.雷达图 D.柱形图
10.为了直观展示政府工作报告高频词,最适合选用的可视化表达方式是( )
A.热力图 B.雷达图 C.网络图 D.词云
11.小北利用python中的jieba分词模块对“大数据.txt”进行处理,创建了如图所示的标签云,下列说法正确的是( )
A.该中文分词算法是基于规则的分词方法
B.标签云中必须显示该文本中包含的全部词语
C.从标签云中可以推测,“数据”、“数据库”等词语是该文本的重点词语
D.文本内容是结构化数据,需要转化才能被计算机处理
12.分析一年12个月内每个月降水量在全年所占百分比时用( )最为恰当。
A.柱状图 B.折线图 C.饼图 D.雷达图
13.中国睡眠研究会等机构发布《2022中国国民健康睡眠白皮书》,下图展示了报告中睡眠困扰频率、睡眠困扰形式。图中使用的数据可视化方式是( )
A.饼图、柱形图 B.气泡图、饼图 C.饼图、雷达图 D.气泡图、雷达图
14.某同学填报高考志愿时将自高三以来的模拟成绩和高考成绩及兴趣爱好一并录入某一模拟填报平台中,该平台会给出其报考省份的重点大学及其相关专业方向的建议。该平台分析数据时可能没有采用的分析法是( )
A.横向对比 B.纵向对比 C.平均分析 D.情景分析
15.如果要比较一个同学一个学期每次月考的语文成绩,分析其语文学习的情况,这种数据分析的方法属于( )
A.横向对比 B.纵向分析 C.平均分析 D.综合分析
参考答案:
1.B
【详解】本题考查数据可视化相关内容。(1)雷达图是一种可视化图表,也被称为蛛网图、星形图或极坐标图,它以一个中心点为起点,从中心点向外延伸出多条射线,每条射线代表一个特定的变量或指标,每条射线上的点或线段表示该变量在不同维度上的取值或得分。(2)热力图是一种数据可视化技术,用于展示大量数据集中的区域和变化趋势。它通过使用颜色编码来显示数据点的密度和分布情况,帮助用户发现数据中的模式和规律,热力图通常在二维平面上呈现,其中横轴和纵轴代表数据的两个维度,例如时间和地理位置,每个数据点都被映射到对应的坐标位置,并使用不同的颜色来表示数据的密度或数值大小。(3)散点图是一种统计图表,用于展示两个变量之间的关系,在散点图中,因变量(通常位于Y轴)的值随自变量(通常位于X轴)的值变化而变化,这些点在坐标系中的位置显示了数据的相关性和分布关系,可以通过观察这些点的分布模式来分析两个变量之间是否存在线性或其他类型的函数关系。(4)词云是一种数据可视化技术,用于展示大量文本数据中的关键词,词云通过形成类似云的彩色图形来突出文本中出现频率较高的词语,使人们可以直观地了解文本的主题和重点,在词云图中,字体大小或颜色通常用来表示每个词的重要性,其中出现频率较高的词语会被放大,而频率较低的词语则可能变小或消失。故本题答案是B选项。
2.B
【详解】本题考查数据处理相关内容。A选项,在Python中,dropna()是一个Pandas库中的函数,用于从数据框(DataFrame)中删除包含缺失值(NaN)的行或列,它用于数据清洗和预处理阶段,以便去除缺失值,使数据更加规整,选项说法错误。B选项,散点图也叫X-Y图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定,散点图能够展示数据的分布情况,通过观察数据点的密集程度和分布形态,推断出数据的离散程度和集中程度,散点图能帮助发现异常值或离群点,这些点在图上会与其他点有明显的偏离或不符合预期的位置,表示数据的异常情况或错误;箱形图是一种用作显示一组数据分散情况资料的统计图,因形状如箱子而得名,在各种领域也经常被使用,常见于品质管理,快速识别异常值。选项正确。C选项,出现异常值,应进行删除或修正,不能用前后两条记录中温度的平均值修正该异常值,选项错误。D选项,在处理缺失数据时,我们可以选择不同的重建方法,如删除缺失数据、均值填补、插值法、回归方法和机器学习方法,选项错误。故本题答案是B选项。
3.B
【详解】本题考查的是数据分析。工作日、节假日的天数不一致,故不能采用骑行人数的总和,选项A错误。数据可能有些偶然性,故不能采用最大数、最小数,选项CD错误。故本题应选B。
4.D
【详解】本题考查数据分析相关内容。常用的数据分析方法包括:对比分析法、结构分析法、平均分析法、交叉分析法。对比分析法是将两个或两个以上的数据进行比较,对比有横向和纵向两种。平均分析法是运用计算平均数的方法反映总体在一定时间、地点等条件下某一数量特征的一般水平。结构分析法是将各个部分与总体进行对比。故本题答案是D选项。
5.B
【详解】本题考查数据可视化相关内容。折线图是一条弯折或平滑的线条,它通过连接数据点的线条来显示趋势和模式,可以显示随时间或其他连续变量而变化的数据趋势。雷达图是一种可视化图表,也被称为蛛网图、星形图或极坐标图,它以一个中心点为起点,从中心点向外延伸出多条射线,每条射线代表一个特定的变量或指标,每条射线上的点或线段表示该变量在不同维度上的取值或得分。由图可知,该图采用折线图来分析入园游客数量变化情况。ACD选项正确,B选项错误。故本题答案是B选项。
6.D
【详解】本题考查数据可视化。词云图除了可以通过字体的大小表示关键词的重要程度外,还可以通过颜色、字体样式等方式来呈现关键词的不同特征。故答案为:D。
7.D
【详解】本题考查数据分析相关内容。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发、自动进行分类。数据分类是数据分析处理中最基本的方法,通常的做法是基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将分类数据项映射到某一特点类别的功能。 回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。发现买商品A的人购买商品B的概率很大,这种属于数据的关联分析。故本题答案是D选项。
8.A
【详解】本题考查数据分析相关内容。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的过程包括首先要根据分析的目标提出假设,然后选择恰当的分析方法进行分析,验证假设是否正确。A选项不属于数据分析的一般过程。故本题答案是A选项。
9.C
【详解】本题主要考查图表的应用。雷达图也称为网络图、蜘蛛图、星图、蜘蛛网图,它被认为是一种表现多维数据的图表。由图可知,该类图表是雷达图,故本题选C选项。
10.D
【详解】本题考查数据可视化相关内容。(1)热力图是一种用颜色表达数据密度的可视化工具。它将数据以不同颜色的热点形式呈现在二维空间中,用于展示数据的分布情况和集中程度,从而帮助我们观察数据的趋势和模式。(2)雷达图是一种常见的数据可视化图表,它的特点是利用多边形的边和顶点来表示多个变量或维度的数据,在雷达图中,每个变量或维度对应一个轴,而数据值则是通过对距离中心的测量来表示的。(3)网络图是一种图解模型,形状如同网络,故称为网络图。网络图是由作业(箭线)、事件(又称节点)和路线三个因素组成的,在工程管理中,经常使用到网络图的概念,网络图是用箭线和节点将某项工作的流程表示出来的图形。(4)词云又称文字云,是文本数据的视觉表示,由词汇组成类似云的彩色图形,用于展示大量文本数据,每个词的重要性以字体大小或颜色显示,主要用来做文本内容关键词出现的频率分析,适合文本内容挖掘的可视化,词云中出现频率较高的词会以较大的形式呈现出来,出现频率较低的词会以较小的形式呈现,词云的本质是点图,是在相应坐标点绘制具有特定样式的文字的结果。为了直观展示政府工作报告高频词,最适合选用的可视化表达方式是词云。故本题答案是D选项。
11.C
【详解】本题考查的是标签云。jieba分词综合了基于字符串匹配的算法和基于统计的算法,选项A说法错误;标签云中不需要显示该文本中包含的全部词语,选项B说法错误;从标签云中可以推测,“数据”、“数据库”等词语是该文本的重点词语,选项C说法正确;文本内容是非结构化数据,故选项D说法错误。故本题应选C。
12.C
【详解】本题考查图表类型相关内容。(1)柱状图是一种利用长方形的长短来表示数据的统计图表,它通过垂直排列的长方形(条形)来显示不同类别或组别的数据及其相对大小,从而便于比较和理解数据的分布和变化情况。(2)折线图是将数据标注成点,并通过直线将这些点按某种顺序连接而成的图表,它以折线的方式形象地反映事物沿某个维度的变化趋势,能够清晰地展示数据增减的趋势、速率、规律及峰值等特征。(3)饼图是由若干个面积大小不一、以条形或颜色填的扇形组成的圆形图表,它使用圆表示数据的总量,组成圆的每个扇形表示数据中各项占总量的比例大小,主要用于显示数据中各项大小与各项总和的比例。(4)雷达图是一种常见的数据可视化图表,它的特点是利用多边形的边和顶点来表示多个变量或维度的数据。在雷达图中,每个变量或维度对应一个轴,而数据值则是通过对距离中心的测量来表示的。这种图表能够清晰地展示不同变量之间的差异和相对位置,有助于理解数据的分布和模式。
分析一年12个月内每个月降水量在全年所占百分比时用饼图来展现最为恰当。故本题答案是C选项。
13.C
【详解】本题考查数据可视化方式。根据题干提到的报告中睡眠困扰频率和睡眠困扰形式的图表,可知使用了饼图、雷达图。这意味着报告采用了饼图来展示睡眠困扰频率的分布情况,同时使用雷达图呈现不同睡眠困扰形式的特征。这种组合可以提供对数据的全面了解。故答案为:C。
14.D
【详解】本题考查数据分析相关内容。横向对比是指将同一类别或同一对象的不同事物或概念进行比较。横向对比的目的是从多个角度考察不同事物的差异和相似之处,帮助人们更好地理解事物。纵向对比是指将同一事物在不同时间或不同条件下进行比较,纵向对比的目的是分析事物的发展变化、趋势和演化过程,揭示事物的内在规律。平均分析法是指运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平的分析方法。情景分析法又称脚本法或者前景描述法,是假定某种现象或某种趋势将持续到未来的前提下,对预测对象可能出现的情况或引起的后果作出预测的方法,通常用来对预测对象的未来发展作出种种设想或预计,是一种直观的定性预测方法。题目内容中采用了横向对比、纵向对比和平均分析,并未采用情景分析法。故本题答案是D选项。
15.B
【详解】本题考查数据分析方法。纵向分析是比较同一个对象在不同时间点上的数据,即纵向比较同一个同学每次月考的语文成绩,以分析其学习的变化趋势,因此是本题的正确答案。故答案为:B。

展开更多......

收起↑

资源预览