四、 文本数据处理 数据可视化 大数据典型应用(课件+学案)2025-2026学年高中信息技术 必修1 数据与计算

资源下载
  1. 二一教育资源

四、 文本数据处理 数据可视化 大数据典型应用(课件+学案)2025-2026学年高中信息技术 必修1 数据与计算

资源简介

(共33张PPT)
四、 文本数据处理/数据可视化/大数据典型应用
信息技术 必修1 数据与计算
数据处理与应用
第四章
知识过关
1. 文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。
2. 文本数据处理的一般过程
(1)典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。
(2)中文分词:将连续的字序列按照一定的规范重新组合成词序列的过程,也就是将一个汉字序列切分成一个个单独的词。常见的中文分词方法如下:
①基于词典的分词方法,也称为基于字符匹配的分词方法,即分析句子时与词典中的词语进行对比,词典中出现的就划分为词。常见的分词系统有jieba分词。
import jieba #引入jieba分词模块  
text="文本数据处理的过程" #定义文本
seg_list=jieba. cut(text, cut_all=True)
#全模式分词  
print("全模式分词:"+"/".join(seg_list))
seg-list=jieba.cut(text)
#默认是精确模式分词
print("默认模式分词:"+"/".join(seg_list))
运行结果:
全模式分词:文本/本数/数据/数据处理/处理/的/过程  
默认模式分词:文本/数据处理/的/过程
②基于统计的分词方法,依据上下文中相邻字出现的频率进行统计,同时出现的次数越多就越可能组成一个词。一般与基于词典的分词方法结合使用。
③基于规则的分词方法,让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果。这种分词方法目前还处于试验阶段。
(3)特征提取
①特征词:在中文文本分析中可以采用字、词或短语作为表示文本的特征项。目前,大多数中文文本分析都采用词作为特征项,这种词被称为特征词。通常可直接用分词算法和词频统计得出的结果作为特征词。
②特征提取:一般采用的方式为根据专家的知识挑选有价值的特征,或者用数学建模的方法构造评估函数来自动选取特征。目前大多采用评估函数进行特征提取的方式。
3. 文本数据分析与应用
取得特征词后,对文本的分析就需要根据项目的需求,确定解决问题的路径,选取合适的工具、设计算法以抽取出文本中隐含的价值。
(1)标签云
①标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。
②标签云广泛应用于报纸、杂志等传统媒体和互联网。
(2)文本情感分析
①文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。
②文本情感分析主要应用于网络舆情监控、用户评论分析与决策、信息预测等诸多领 域。
4. 数据可视化是将数据以图形、图像等形式表示,直接呈现数据中蕴含的信息的处理
过程。
5. 可视化的作用
(1)快捷地观察与追踪数据。利用可视化技术,可以根据处于不断变化中的数据生成实时变化的可视化图表,帮助人们快捷地发现各种数据的动态变化过程。如百度地图提供的实时路况服务。
(2)实时分析数据。利用可视化技术,可以实时将数据转换为图像呈现给用户,帮助用户分析数据的内涵和特征。如利用百度指数分析全国某段时间内搜索关键词“数据可视化”的情况。
(3)增强数据的解释力与吸引力。利用数据图表,直观、动态地呈现新闻、研究报告等内容,可以帮助人们在短时间内了解内容、理解数据背后的含义,同时增强数据的吸引力,提高人们的阅读兴趣。如新闻、研究报告的可视化。
6. 可视化的基本方法
类别 数据间关系的描述 可视化方法
有关时间趋势的可视化 时间序列数据变化的过程或趋势 柱形图、折线图等
有关比例的可视化 各部分的大小及其占总体比例的情况 饼图、环形图等
有关关系的可视化 变量之间的关联性和分布关系 散点图、气泡图等
有关差异的可视化 多种变量的对象与同类之间的差异和联系 雷达图
有关空间关系的可视化 分析和展示与地理数据相关的数据 地图
7. 可视化工具
(1)主要用于数据可视化的工具有大数据魔镜、Gephi、Tableau等。Tableau用于实时可视化分析。
(2)使用Python、R等计算机语言编写程序来实现数据可视化。
(3)可视化工具库,如基于JavaScript的D3. js、Highcharts、Google Charts等,基于 Python的matplotlib等。
①D3. js是运行在JavaScript上的数据可视化开源工具库。
②Highcharts是一个用纯JavaScript编写的、基于HTML5技术的开源图表库。
③Google Charts是为浏览器与移动设备定制的交互式图表开发包,用于在Web上实现数据的可视化。
8. 可视化的典型案例
(1)风、气象、海洋状况的全球地图。
(2)编程语言之间的影响力关系图。
(3)“双十一”全网销售直播图。
(4)航班飞行实时跟踪地图。
(5)微博热词趋势图。
9. 随着大数据在各行业的应用,数据成为核心资产,数据规模以及运用数据的能力成为各行业发展的推动力。目前,大数据广泛应用于金融、交通、环境、医疗、能源、农业等行业,极大地促进了各行业的发展。
10. 智能交通
(1)智能交通整合了物联网、大数据、云计算、人工智能等技术。
(2)交通数据采集:GPS、卡口、视频检测、浮动车、地感线圈等产生的交通流监测数据、视频监控数据、系统数据、服务数据等构成了交通大数据。交通大数据是智能交通中“智能”的基础。
(3)云计算为大数据的分析与应用提供了速度保障;基于深度学习的智能分析算法,为大数据的分析与应用提供了有力的支撑。
(4)智能交通主要通过交通信息服务、交通管理、公共交通、车辆控制、货运管理、电子收费、紧急救援等服务子系统为用户提供服务。
①交通信息服务系统
交通信息服务系统建立在完善的信息采集、处理和传输系统上。
②交通管理系统
交通管理系统主要提供给交通管理者使用,用于检测、控制和管理公路交通,在道路、车辆和驾驶员之间提供通信联系。它与交通信息服务系统共用信息采集、处理和传输系统。
③电子收费系统
电子收费系统通过安装在车辆挡风玻璃上的车载器与收费站电子收费系统车道上的微波天线之间的微波专用短程通信,利用计算机联网技术与银行进行后台结算处理,使车辆通过路桥收费站时不需要停车即可交费。
11. 电子商务
(1)电商数据来源:大型电商企业拥有大量用户数据,同时,在交易、营销、供应链、仓储、配送和售后等环节也产生了大量数据。
(2)电商数据通过电商企业的数据平台,为其电子商务平台上的商户和客户提供精准营销、供应链管理、智能网站等多种数据服务。
①精准营销
精准营销基于用户购买行为的大数据,使用推荐算法深度挖掘出用户的行为偏好,智能地向用户展示符合其兴趣偏好和购买意图的商品。
②供应链管理
在仓储管理中,供应链管理实现了商品自动补货。在物流配送领域,供应链管理为物流人员提供最优配送路径,提高配送速度,提升用户体验。
③智能网站
基于大数据挖掘和分析,网站变得越来越“聪明”。
典例精选
【例1】 下列关于大数据思维的说法,错.误.的是(  )
A. 大数据时代,人们可以采集全体数据进行分析,避免样本不同导致的结论不同
B. 基于大数据技术,我们能够接受数据的混杂性,个别数据的不准确不影响整体数据分析
C. 使用大数据思维,我们更强调对事物因果关系的探求,而不仅仅是对数据间相关性的 探求
D. 数据总量变大会导致大量不相关的数据增加,大数据具有价值密度低的特点
【解析】 本题主要考查大数据的描述。大数据时代,人们可以采集全部数据进行分析,避免样本不同导致结论不同;基于大数据技术,我们能够接受数据的混杂性,个别数据不准确不会影响整体数据分析; 使用大数据思维,我们更强调数据间的相关性;数据总量变大会导致大量不相关数据增加,大数据具有价值密度低的特点。
C
【例2】 某文本数据集的标签云如图所示,下列说法中,错.误.的是(  )
A. 形成该标签云图像前,需要对文本进行分词处理
B. 对数据集中文本进行分词后可直接创建标签云,无须进行特征提取
C. 标签云无须显示该数据集包含的全部词语
D. 该数据集中,词语“计算机”比“技术”出现的频率低
【解析】 对文本进行分词后还须进行特征提取才能绘制标签云。
B
【例3】 下列关于数据整理的说法,错.误.的是(  )
A. 数据集中缺失的数据可以采用中间值来填充
B. 数据集中的异常数据可能包含重要信息
C. 数据集中的重复数据可进行合并或删除处理
D. 数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
【解析】 本题主要考查数据处理。数据集中包含格式不一致的数据,需要根据后续分析和挖掘的需要进行数据转换。
D
自我检测
1. 下列不.属.于.文本数据处理的主要应用领域的是 (  )
A. 搜索引擎 B. 文本分类
C. 手写输入识别 D. 机器翻译
【解析】 文本数据处理主要应用于搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。
C
2. 分析句子时与词典中的词语进行对比,词典中出现的就划分为词,这种分词方法属于
(  )
A. 基于词典的分词方法
B. 基于统计的分词方法
C. 基于规则的分词方法
D. 以上都对
【解析】 分析句子时与词典中的词语进行对比,词典中出现的就划分为词,这种分词方法是基于词典的分词方法,也称为基于字符匹配的分词方法。
A
3. 某Python程序如下:
import jieba
t=input("请输入需要分词的文本:")
cut_text=jieba.cut(t, ① )
s= ② 
print(s)
程序运行后,输入“中文分词是中文文本信息处理的基础”,输出的结果为[ 中文 , 分词
, 是 , 中文 , 文本 , 信息处理 , 的 , 基础 ],则①②两处的横线上应填入的代码为(  )
A. ①cut_all=False ②",".join(cut text)
B. ①cut_all=True ②",".join(cut _text)
C. ①cut_all=False ②list(cut_text)
D. ①cut_all=True ②list(cut_text)
【解析】 ①由输出的结果可知,分词模式为精确模式,所以cut_all = False,“cut_all = True”表示全模式分词;②以列表的形式输出,所以 s = list(cut_text),““,”. join(cut_text) ”用逗号将分词结果连接成字符串。
C
4. 下列关于大数据的描述,正确的是(  )
A. 学生学籍管理系统中存放着大量的学生数据,这些数据属于大数据
B. 在银行、商场等场所,用手持测温仪测量入场人员的体温数据运用了大数据技术
C. 大数据分析的是抽样数据,而不是全部数据
D. 大数据在给生活带来便利的同时也存在安全隐患,如信息泄露、数据安全等
【解析】 本题主要考查大数据的描述。大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策的资讯。学生学籍管理系统中存放着大量的学生数据,但没有具体数值,所以不符合大数据的定义;在银行、商场等场所,用手持测温仪测量入场人员的体温数据没有运用大数据技术;大数据分析的是全部数据,而不是抽样数据;大数据在给生活带来便利的同时也存在安全隐患,如信息泄露、数据安全等。
D
5. 下列关于大数据的描述,正确的是(  )
A. 大数据是用常规软件工具收集到的数据集合
B. 大数据是由日益普及的网络活动产生的
C. 大数据是大量集中管理的格式统一的数据
D. 大数据是从国际互联网收集的大量数据
【解析】 本题主要考查大数据的描述。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。大数据是由日益普及的网络活动产生的,B正确。
B
6. 采集浙江省内的微博数据进行研究,用不同的颜色表示心情,在区域地图上展示不同地域的人们在不同时间点的情绪变化。该研究所使用的文本数据分析方式为(  )
A. 特征提取 B. 标签云
C. 文本情感分析 D. 词频统计
【解析】 对文本的情绪进行挖掘和分析,并对文本的感情倾向做出分类判断,这属于文本情感分析。
C
7. 人们可通过报纸、电视、手机APP等方式获取天气预报信息。气象中心接收气象卫星和遍布全国的观测站发送的原始数据,对常规天气、灾害性天气等进行预测。某天气预报APP以可视化的方式呈现天气状况,并提示“您所在的街道25分钟后小雨,50分钟后雨
停”等信息。根据阅读材料,下列说法中,错.误.的是(  )
A. 天气预报信息有多种获取方式
B. 观测站采集的数据不存在重复或异常
C. 气象中心预测天气的原始数据是大数据
D. 气温数据可以用Python语言实现可视化
【解析】 观测站采集的数据可能存在数据缺失、数据重复或数据异常等常见问题。
B
8. 电商企业为直观分析不同商品的销售和趋势情况,可以选择的可视化方法为(  )
A. 饼图 B. 直方图
C. 气泡图 D. 柱形和折线结合图
【解析】 柱形图可以反映销售情况,折线图可以反映趋势变化情况。
D
9. 关于数据可视化的基本方法,下列说法中错.误.的是(  )
A. 柱形图可以直观地呈现数据变化过程
B. 散点图可以清晰地呈现数据之间的空间关系
C. 饼图可以直观地呈现各项数据所占的比例
D. 雷达图可以呈现数据之间的差异和联系
【解析】 散点图用于显示2~3个变量之间的关系,或者用于揭示数据的分布趋势。当数据点较多并且需要显示数据集的相似性时,可以使用散点图。
B
10. 下列关于大数据处理的描述,错.误.的是(  )
A. 处理大数据时,一般采用分治思想
B. Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于处理实时数据
C. HDFS是一个高度容错性的系统,适合部署在廉价的机器上,云盘、网盘的底层一般采用HDFS实现
D. MapReduce是一种分布式并行编程模型,主要由Map(映射)和Reduce(归纳)2个函数构成
【解析】 本题主要考查大数据处理。Hadoop 是一个用于大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台。Hadoop适用于静态数据的批处理计算,不适用于处理实时数据。
B
11. 下列不.属.于.大数据应用带来的行业变化的是(  )
A. 电子商务平台精准推送相关产品信息
B. 预测节假日旅游人流量分布及趋势
C. 企业提供的产品和服务更加符合用户需求
D. 机动车限行缓解了交通压力
【解析】 本题主要考查大数据的应用。结合选项可知,机动车限行缓解了交通压力不属于大数据应用带来的行业变化。
D
12. 北京市在共享单车运行一年后,重新调整了公交路线,弥补了部分线路公交站点缺失
的不足,确定了更为利民的交通路线图。这体现了(  )
A. 大数据会制造新的交通障碍 B. 大数据会提供新的决策依据
C. 大数据会带来新的就业需求 D. 大数据会产生新的社会问题
【解析】 本题主要考查大数据的影响。北京市在共享单车运行一年后,重新调整了公交路线,弥补了部分线路的公交站点缺失,确定了更为利民的交通路线。这体现了大数据会提供新的决策依据。
B
13. 下列大数据服务中,运用了交通大数据的是(  )
A. 医疗误诊预警 B. 车道偏离预警
C. 农业灾害预警 D. 气象灾害预警
【解析】 医疗误诊预警主要运用了医疗数据;车道偏离预警运用了交通数据;农业灾害预警运用了农业数据;气象灾害预警运用了气象数据。
B
14. 现代社会,日常生活中的很多应用都离不开大数据的支持。下列选项中,可以不.依.赖.
大数据的是(  )
A. 手机上购物广告的精准推送
B. 某共享单车公司的投放分布决定
C. 在线语音电话
D. 实时地图导航
【解析】 本题主要考查大数据的应用。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。在线语音电话不涉及大数据,C正确。
C
15. 下列属于大数据的应用的是(  )
①电商平台的精准推送    ②病源追踪
③导航最优规划       ④交通管理系统优化红绿灯配时
A. ①② B. ①②③
C. ②③④ D. ①②③④
【解析】 本题主要考查大数据的应用。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。①电商平台的精准推送、②病源追踪、③导航最优规划、④交通管理系统优化红绿灯配时均属于大数据的应用。
D四、 文本数据处理/数据可视化/大数据典型应用
1. 文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。
2. 文本数据处理的一般过程
(1)典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。
(2)中文分词:将连续的字序列按照一定的规范重新组合成词序列的过程,也就是将一个汉字序列切分成一个个单独的词。常见的中文分词方法如下:
①基于词典的分词方法,也称为基于字符匹配的分词方法,即分析句子时与词典中的词语进行对比,词典中出现的就划分为词。常见的分词系统有jieba分词。
import jieba #引入jieba分词模块
text="文本数据处理的过程" #定义文本
seg_list=jieba. cut(text, cut_all=True)
#全模式分词
print("全模式分词:"+"/".join(seg_list))
seg-list=jieba.cut(text)
#默认是精确模式分词
print("默认模式分词:"+"/".join(seg_list))
运行结果:
全模式分词:文本/本数/数据/数据处理/处理/的/过程
默认模式分词:文本/数据处理/的/过程
②基于统计的分词方法,依据上下文中相邻字出现的频率进行统计,同时出现的次数越多就越可能组成一个词。一般与基于词典的分词方法结合使用。
③基于规则的分词方法,让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果。这种分词方法目前还处于试验阶段。
(3)特征提取
①特征词:在中文文本分析中可以采用字、词或短语作为表示文本的特征项。目前,大多数中文文本分析都采用词作为特征项,这种词被称为特征词。通常可直接用分词算法和词频统计得出的结果作为特征词。
②特征提取:一般采用的方式为根据专家的知识挑选有价值的特征,或者用数学建模的方法构造评估函数来自动选取特征。目前大多采用评估函数进行特征提取的方式。
3. 文本数据分析与应用
取得特征词后,对文本的分析就需要根据项目的需求,确定解决问题的路径,选取合适的工具、设计算法以抽取出文本中隐含的价值。
(1)标签云
①标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。
②标签云广泛应用于报纸、杂志等传统媒体和互联网。
(2)文本情感分析
①文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。
②文本情感分析主要应用于网络舆情监控、用户评论分析与决策、信息预测等诸多领域。
4. 数据可视化是将数据以图形、图像等形式表示,直接呈现数据中蕴含的信息的处理过程。
5. 可视化的作用
(1)快捷地观察与追踪数据。利用可视化技术,可以根据处于不断变化中的数据生成实时变化的可视化图表,帮助人们快捷地发现各种数据的动态变化过程。如百度地图提供的实时路况服务。
(2)实时分析数据。利用可视化技术,可以实时将数据转换为图像呈现给用户,帮助用户分析数据的内涵和特征。如利用百度指数分析全国某段时间内搜索关键词“数据可视化”的情况。
(3)增强数据的解释力与吸引力。利用数据图表,直观、动态地呈现新闻、研究报告等内容,可以帮助人们在短时间内了解内容、理解数据背后的含义,同时增强数据的吸引力,提高人们的阅读兴趣。如新闻、研究报告的可视化。
6. 可视化的基本方法
类别 数据间关系的描述 可视化方法
有关时间趋势的可视化 时间序列数据变化的过程或趋势 柱形图、折线图等
有关比例的可视化 各部分的大小及其占总体比例的情况 饼图、环形图等
有关关系的可视化 变量之间的关联性和分布关系 散点图、气泡图等
有关差异的可视化 多种变量的对象与同类之间的差异和联系 雷达图
有关空间关系的可视化 分析和展示与地理数据相关的数据 地图
7. 可视化工具
(1)主要用于数据可视化的工具有大数据魔镜、Gephi、Tableau等。Tableau用于实时可视化分析。
(2)使用Python、R等计算机语言编写程序来实现数据可视化。
(3)可视化工具库,如基于JavaScript的D3. js、Highcharts、Google Charts等,基于 Python的matplotlib等。
①D3. js是运行在JavaScript上的数据可视化开源工具库。
②Highcharts是一个用纯JavaScript编写的、基于HTML5技术的开源图表库。
③Google Charts是为浏览器与移动设备定制的交互式图表开发包,用于在Web上实现数据的可视化。
8. 可视化的典型案例
(1)风、气象、海洋状况的全球地图。
(2)编程语言之间的影响力关系图。
(3)“双十一”全网销售直播图。
(4)航班飞行实时跟踪地图。
(5)微博热词趋势图。
9. 随着大数据在各行业的应用,数据成为核心资产,数据规模以及运用数据的能力成为各行业发展的推动力。目前,大数据广泛应用于金融、交通、环境、医疗、能源、农业等行业,极大地促进了各行业的发展。
10. 智能交通
(1)智能交通整合了物联网、大数据、云计算、人工智能等技术。
(2)交通数据采集:GPS、卡口、视频检测、浮动车、地感线圈等产生的交通流监测数据、视频监控数据、系统数据、服务数据等构成了交通大数据。交通大数据是智能交通中“智能”的基础。
(3)云计算为大数据的分析与应用提供了速度保障;基于深度学习的智能分析算法,为大数据的分析与应用提供了有力的支撑。
(4)智能交通主要通过交通信息服务、交通管理、公共交通、车辆控制、货运管理、电子收费、紧急救援等服务子系统为用户提供服务。
①交通信息服务系统
交通信息服务系统建立在完善的信息采集、处理和传输系统上。
②交通管理系统
交通管理系统主要提供给交通管理者使用,用于检测、控制和管理公路交通,在道路、车辆和驾驶员之间提供通信联系。它与交通信息服务系统共用信息采集、处理和传输系统。
③电子收费系统
电子收费系统通过安装在车辆挡风玻璃上的车载器与收费站电子收费系统车道上的微波天线之间的微波专用短程通信,利用计算机联网技术与银行进行后台结算处理,使车辆通过路桥收费站时不需要停车即可交费。
11. 电子商务
(1)电商数据来源:大型电商企业拥有大量用户数据,同时,在交易、营销、供应链、仓储、配送和售后等环节也产生了大量数据。
(2)电商数据通过电商企业的数据平台,为其电子商务平台上的商户和客户提供精准营销、供应链管理、智能网站等多种数据服务。
①精准营销
精准营销基于用户购买行为的大数据,使用推荐算法深度挖掘出用户的行为偏好,智能地向用户展示符合其兴趣偏好和购买意图的商品。
②供应链管理
在仓储管理中,供应链管理实现了商品自动补货。在物流配送领域,供应链管理为物流人员提供最优配送路径,提高配送速度,提升用户体验。
③智能网站
基于大数据挖掘和分析,网站变得越来越“聪明”。
【例1】 下列关于大数据思维的说法,错误的是( C )
A. 大数据时代,人们可以采集全体数据进行分析,避免样本不同导致的结论不同
B. 基于大数据技术,我们能够接受数据的混杂性,个别数据的不准确不影响整体数据分析
C. 使用大数据思维,我们更强调对事物因果关系的探求,而不仅仅是对数据间相关性的探求
D. 数据总量变大会导致大量不相关的数据增加,大数据具有价值密度低的特点
【解析】 本题主要考查大数据的描述。大数据时代,人们可以采集全部数据进行分析,避免样本不同导致结论不同;基于大数据技术,我们能够接受数据的混杂性,个别数据不准确不会影响整体数据分析; 使用大数据思维,我们更强调数据间的相关性;数据总量变大会导致大量不相关数据增加,大数据具有价值密度低的特点。
【例2】 某文本数据集的标签云如图所示,下列说法中,错误的是( B )
A. 形成该标签云图像前,需要对文本进行分词处理
B. 对数据集中文本进行分词后可直接创建标签云,无须进行特征提取
C. 标签云无须显示该数据集包含的全部词语
D. 该数据集中,词语“计算机”比“技术”出现的频率低
【解析】 对文本进行分词后还须进行特征提取才能绘制标签云。
【例3】 下列关于数据整理的说法,错误的是( D )
A. 数据集中缺失的数据可以采用中间值来填充
B. 数据集中的异常数据可能包含重要信息
C. 数据集中的重复数据可进行合并或删除处理
D. 数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
【解析】 本题主要考查数据处理。数据集中包含格式不一致的数据,需要根据后续分析和挖掘的需要进行数据转换。
1. 下列不属于文本数据处理的主要应用领域的是 ( C )
A. 搜索引擎 B. 文本分类
C. 手写输入识别 D. 机器翻译
【解析】 文本数据处理主要应用于搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。
2. 分析句子时与词典中的词语进行对比,词典中出现的就划分为词,这种分词方法属于( A )
A. 基于词典的分词方法
B. 基于统计的分词方法
C. 基于规则的分词方法
D. 以上都对
【解析】 分析句子时与词典中的词语进行对比,词典中出现的就划分为词,这种分词方法是基于词典的分词方法,也称为基于字符匹配的分词方法。
3. 某Python程序如下:
import jieba
t=input("请输入需要分词的文本:")
cut_text=jieba.cut(t, ① )
s= ② 
print(s)
程序运行后,输入“中文分词是中文文本信息处理的基础”,输出的结果为[ 中文 , 分词 , 是 , 中文 , 文本 , 信息处理 , 的 , 基础 ],则①②两处的横线上应填入的代码为( C )
A. ①cut_all=False ②",".join(cut text)
B. ①cut_all=True ②",".join(cut _text)
C. ①cut_all=False ②list(cut_text)
D. ①cut_all=True ②list(cut_text)
【解析】 ①由输出的结果可知,分词模式为精确模式,所以cut_all = False,“cut_all = True”表示全模式分词;②以列表的形式输出,所以 s = list(cut_text),““,”. join(cut_text) ”用逗号将分词结果连接成字符串。
4. 下列关于大数据的描述,正确的是( D )
A. 学生学籍管理系统中存放着大量的学生数据,这些数据属于大数据
B. 在银行、商场等场所,用手持测温仪测量入场人员的体温数据运用了大数据技术
C. 大数据分析的是抽样数据,而不是全部数据
D. 大数据在给生活带来便利的同时也存在安全隐患,如信息泄露、数据安全等
【解析】 本题主要考查大数据的描述。大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策的资讯。学生学籍管理系统中存放着大量的学生数据,但没有具体数值,所以不符合大数据的定义;在银行、商场等场所,用手持测温仪测量入场人员的体温数据没有运用大数据技术;大数据分析的是全部数据,而不是抽样数据;大数据在给生活带来便利的同时也存在安全隐患,如信息泄露、数据安全等。
5. 下列关于大数据的描述,正确的是( B )
A. 大数据是用常规软件工具收集到的数据集合
B. 大数据是由日益普及的网络活动产生的
C. 大数据是大量集中管理的格式统一的数据
D. 大数据是从国际互联网收集的大量数据
【解析】 本题主要考查大数据的描述。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。大数据是由日益普及的网络活动产生的,B正确。
6. 采集浙江省内的微博数据进行研究,用不同的颜色表示心情,在区域地图上展示不同地域的人们在不同时间点的情绪变化。该研究所使用的文本数据分析方式为( C )
A. 特征提取 B. 标签云
C. 文本情感分析 D. 词频统计
【解析】 对文本的情绪进行挖掘和分析,并对文本的感情倾向做出分类判断,这属于文本情感分析。
7. 人们可通过报纸、电视、手机APP等方式获取天气预报信息。气象中心接收气象卫星和遍布全国的观测站发送的原始数据,对常规天气、灾害性天气等进行预测。某天气预报APP以可视化的方式呈现天气状况,并提示“您所在的街道25分钟后小雨,50分钟后雨停”等信息。根据阅读材料,下列说法中,错误的是( B )
A. 天气预报信息有多种获取方式
B. 观测站采集的数据不存在重复或异常
C. 气象中心预测天气的原始数据是大数据
D. 气温数据可以用Python语言实现可视化
【解析】 观测站采集的数据可能存在数据缺失、数据重复或数据异常等常见
问题。
8. 电商企业为直观分析不同商品的销售和趋势情况,可以选择的可视化方法为( D )
A. 饼图 B. 直方图
C. 气泡图 D. 柱形和折线结合图
【解析】 柱形图可以反映销售情况,折线图可以反映趋势变化情况。
9. 关于数据可视化的基本方法,下列说法中错误的是( B )
A. 柱形图可以直观地呈现数据变化过程
B. 散点图可以清晰地呈现数据之间的空间关系
C. 饼图可以直观地呈现各项数据所占的比例
D. 雷达图可以呈现数据之间的差异和联系
【解析】 散点图用于显示2~3个变量之间的关系,或者用于揭示数据的分布趋势。当数据点较多并且需要显示数据集的相似性时,可以使用散点图。
10. 下列关于大数据处理的描述,错误的是( B )
A. 处理大数据时,一般采用分治思想
B. Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于处理实时数据
C. HDFS是一个高度容错性的系统,适合部署在廉价的机器上,云盘、网盘的底层一般采用HDFS实现
D. MapReduce是一种分布式并行编程模型,主要由Map(映射)和Reduce(归纳)2个函数构成
【解析】 本题主要考查大数据处理。Hadoop 是一个用于大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台。Hadoop适用于静态数据的批处理计算,不适用于处理实时数据。
11. 下列不属于大数据应用带来的行业变化的是( D )
A. 电子商务平台精准推送相关产品信息
B. 预测节假日旅游人流量分布及趋势
C. 企业提供的产品和服务更加符合用户需求
D. 机动车限行缓解了交通压力
【解析】 本题主要考查大数据的应用。结合选项可知,机动车限行缓解了交通压力不属于大数据应用带来的行业变化。
12. 北京市在共享单车运行一年后,重新调整了公交路线,弥补了部分线路公交站点缺失的不足,确定了更为利民的交通路线图。这体现了( B )
A. 大数据会制造新的交通障碍
B. 大数据会提供新的决策依据
C. 大数据会带来新的就业需求
D. 大数据会产生新的社会问题
【解析】 本题主要考查大数据的影响。北京市在共享单车运行一年后,重新调整了公交路线,弥补了部分线路的公交站点缺失,确定了更为利民的交通路线。这体现了大数据会提供新的决策依据。
13. 下列大数据服务中,运用了交通大数据的是( B )
A. 医疗误诊预警 B. 车道偏离预警
C. 农业灾害预警 D. 气象灾害预警
【解析】 医疗误诊预警主要运用了医疗数据;车道偏离预警运用了交通数据;农业灾害预警运用了农业数据;气象灾害预警运用了气象数据。
14. 现代社会,日常生活中的很多应用都离不开大数据的支持。下列选项中,可以不依赖大数据的是( C )
A. 手机上购物广告的精准推送
B. 某共享单车公司的投放分布决定
C. 在线语音电话
D. 实时地图导航
【解析】 本题主要考查大数据的应用。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。在线语音电话不涉及大数据,C正确。
15. 下列属于大数据的应用的是( D )
①电商平台的精准推送    ②病源追踪
③导航最优规划       ④交通管理系统优化红绿灯配时
A. ①② B. ①②③
C. ②③④ D. ①②③④
【解析】 本题主要考查大数据的应用。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值的信息的能力。适用于大数据的技术包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。①电商平台的精准推送、②病源追踪、③导航最优规划、④交通管理系统优化红绿灯配时均属于大数据的应用。

展开更多......

收起↑

资源列表