资源简介 第四节 文本数据处理/数据可视化/大数据典型应用1. 文本数据处理的主要步骤由下列部分组成:①分词 ②文本数据获取 ③规律排列④数据分析 ⑤结果呈现 ⑥特征提取正确的顺序是( C )A. ②①⑥③④⑤B. ②⑤①④⑥C. ②①⑥④⑤D. ①②③⑤④⑥【解析】 典型的文本数据处理过程主要包括分词、特征提取、数据分析、结果呈现等,没有“规律排列”这一步骤。2. 下列选项中,不是常用中文分词算法的是( D )A. 基于字符匹配的分词方法B. 基于统计的分词方法C. 基于规则的分词方法D. 基于人工操作的分词方法【解析】 常用的中文分词算法有基于词典的分词方法(也称作基于字符匹配的分词方法)、基于统计的分词方法、基于规则的分词方法。3. Python中可以实现对中文文本进行分词的模块是( D )A. PandasB. matplotlibC. WordcloudD. jieba【解析】 Python的中文分词模块jieba是基于字典的分词方法。4. 下列关于分词的说法,正确的是( A )A. 分词就是将一个汉字序列切分成一个个单独的词B. 中文分词不涉及复杂的关键词提取方法C. 目前的分词算法已经实现了完全准确的分词D. 常用的中文分词方法只有一种【解析】 英文分词不涉及复杂的关键词提取方法;目前分词算法还不能实现完全准确的分词;常用的中文分词方法有三种。5. 下列关于文本数据处理的说法,正确的是( C )A. 文本数据处理不能应用在自动校对方面B. 英文词语与词语之间有明显的空格,因此不需要分词就可以直接进行数据分析C. 文本数据处理可以处理非结构化的数据D. 用评估函数进行特征提取,不需要基于大量数据【解析】 文本数据处理在自动校对方面有所应用;英文需要先分词再进行数据分析;评估函数大多是基于概率统计设计的,需要大量的数据。6. 文本数据处理是大数据处理的分支之一,下列说法中,错误的是( B )A. 文本数据处理的目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息B. 文本内容是非结构化数据,无须转换就能被计算机处理C. 文本数据处理主要应用在搜索引擎、论文查重、垃圾邮件过滤、自动应答等方面D. 典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等步骤【解析】 文本内容是非结构化数据,要从大量的文本中提取出有用的信息,需要将文本从无结构的原始状态转化为结构化、便于计算机处理的数据。7. 下列选项中,不适合用标签云来呈现的是( D )A. 政府年度工作报告中的关键词B. 《红楼梦》中人物出现的次数C. 《全唐诗》中常用的词语D. 一个班级学生的高考成绩【解析】 标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,并用文字大小代表词语的重要性。政府年度工作报告中的关键词、《红楼梦》中人物出现的次数、《全唐诗》中常用的词语均可以用标签云来呈现,学生的高考成绩不适合用标签云呈现。8. 下列关于数据可视化呈现的说法,正确的是( D )A. 能提升数据分析的效率B. 能丰富视觉效果,增强数据的吸引力C. 能帮助人们更好地理解数据D. 以上都正确【解析】 数据可视化能提升数据分析的效率,增强视觉效果,增强数据的吸引力,帮助人们更好地理解数据的含义。9. 如图所示为文本数据处理分析后生成的标签云图片,下列说法中,错误的是( C )第9题图A. 标签云用词频来表现文本特征B. 该数据集中的词语“拼搏”比“思考”出现的频率低C. 只能制作中文和英文混合的标签云D. “思考”“beautiful”“拼搏”等词是该文本的重点词汇【解析】 标签云用词频来表现文本特征,将关键词按照一定的顺序和规律排列,并用文字大小代表词语的重要性,中文、英文都可以用来做标签云。10. 下列关于数据可视化的描述,错误的是( B )A. 标签云是常用的关键词可视化形式B. 数据可视化只能将数据以图形、图像的形式表示出来C. 数据可视化可以直观地呈现数据中蕴含的信息D. 数据可视化增强了数据的解释力与吸引力【解析】 数据可视化可以将数据以图形、图像、动画等多种形式表示出来。11. 国家统计局利用可视化方式分析我国人口情况,增强了数据的解释力与吸引力。下列说法中,错误的是( C )A. 帮助读者理解数据的含义B. 提高读者的阅读兴趣C. 增加读者的阅读难度D. 减少读者理解内容所耗费的时间【解析】 新闻、研究报告利用可视化方式呈现,可以帮助读者在短时间内了解内容,理解数据背后的含义,降低阅读难度。12. 某公司在全国有六大销售区,下列选项中,可以最清晰地展现各大销售区年度销售额占比情况的图表是( D )A. 地图B. 雷达图C. 折线图D. 饼图【解析】 为了反映各部分占比情况,适合用饼图。13. 某网络公司9月份各项开支中,设备费占27%,公关费占13%,工资占44%,交通费占9%,其他费用占7%。为了用图表直观形象地描述该公司各项开支情况,宜选用( C )A. 散点图B. 雷达图C. 饼图D. 气泡图【解析】 宜选用饼图,可以更直观地描述各项开支的多少及其占总体的比例。14. 在食堂排队买菜时,学生的排队等待时间与其愉悦程度有关联,等待的时间越长,其愉悦程度越低。为了体现这些数据的关系,应采用的图表是( B )A. 饼图B. 散点图C. 柱形图D. 雷达图【解析】 为了体现两个数据之间的关联性,应采用散点图。15. 下列选项中,没有用到数据可视化技术的是( A )A. 在Word中编写读书心得B. 中国天气网提供的临近预报服务C. 百度指数分析全国某段时间内搜索关键词“数据可视化”的情况D. 国家统计局分析我国人口情况【解析】 数据可视化是将数据以图形、图像等形式表示出来,在Word中编写读书心得没有用到数据可视化技术。16. 下列关于智能交通的说法,错误的是( C )A. 智能交通整合了物联网、大数据、云计算、人工智能等技术B. 智能交通对数据进行实时采集、传输和处理C. 智能交通提高了交通效率,但降低了安全性D. 智能交通最终使运输服务和管理智能化【解析】 智能交通提高了交通效率,增强了安全性。17. 电商网站会针对客户的个人喜好和消费能力的统计情况,推荐不同的商品,引导消费,以有针对性地为客户提供个性化服务,这属于大数据应用中的( A )A. 生活服务B. 智慧城市C. 社区管理D. 医疗健康【解析】 本题主要考查大数据的应用。电商网站会根据客户的个人喜好和消费能力,推荐不同的商品,引导消费,有针对性地为客户提供个性化服务,这属于大数据应用中的生活服务。18. 大数据对社会发展起着越来越重要的作用,不仅给生活带来了便利,还可以让决策更精准,但它同时也带来了一些社会问题。下列属于大数据带来的社会问题的是( D )A. 通过城市热力图了解区域人流量,为出行提供参考B. 商家可以通过大数据了解市场和消费者行为情况,从而为进货、生产、库存提供决策依据C. 共享单车产生的大数据让交通部门发现部分线路公交站点的缺失问题,从而确定了新的公交运营线路D. 人脸识别系统中的用户数据信息发生泄露,给大量用户造成了损失【解析】 本题主要考查大数据的影响。通过城市热力图了解区域人流量,为出行提供参考;商家可以通过大数据了解市场和消费者行为情况,从而为进货、生产、库存管理提供决策依据;共享单车产生的大数据让交通部门发现部分线路公交站点的缺失,从而确定了新的公交运营线路图。以上均是大数据的积极作用。人脸识别系统中的用户数据信息发生泄露,给大量用户造成了损失,这是大数据带来的社会问题。19. 下列关于大数据在电子商务方面应用的说法,错误的是( D )A. 电商企业在交易、销售、供应链和仓储等环节产生了大量数据B. 电商平台提供的精准营销服务是基于用户购买行为的大数据C. 电子商务中大数据的价值会随着时间发生变化D. 电子商务中的大数据分析只针对客户【解析】 电子商务中大数据分析不仅要针对客户,还要针对商家。20. 在一些视频网站,用户观影过程中会跳出“猜你喜欢”栏目,推荐某些用户可能会喜欢的商品。下列关于电子商务大数据来源的说法,错误的是( C )A. 大型电商企业拥有大量用户数据B. 在交易、营销环节产生了大量数据C. 在物流配送、售后环节不会产生新的数据D. 在商品仓储环节会产生大量数据,基于大数据的挖掘与分析,网站变得越来越智能【解析】 大型电商企业拥有大量用户数据,在交易、营销、供应链、仓储、配送和售后等环节都会产生大量数据。21. 下列关于大数据在电子商务方面应用的说法,正确的是( C )A. 在供应链管理中,根据商品的销售情况和市场预期数据,依靠领导决策进行补货B. 客户的消费记录不属于大数据C. 大数据在电子商务领域的广泛应用,能帮助用户快速地找到所需商品D. 电子商务网站提供的搜索功能可以帮助用户找到心仪的商品【解析】 依靠领导决策进行商品补货,不是大数据在电子商务方面的应用;客户的消费记录属于大数据;电子商务网站提供的搜索功能不是大数据的应用。22. 某Python程序如下:import jiebastr=“我来到北京清华大学”Is=list(jieba.cut(str, cut_all=False))print(Is)程序运行后,输出的结果是( B )A. “我来到清华大学”B. [“我”,“来到”,“北京”,“清华大学”]C. [“我”,“来到”,“北京”,“清华”,“清华大学”,“华大”,“大学”]D. “我”,“来到”,“北京”,“清华大学”【解析】 jieba.cut方法接受两个输入参数:第一个参数为需要分词的字符串,cut_all参数用来控制是否采用全模式,Is=list(jieba.cut(str,cut_all=False),中cut_all=False采用精确模式,list表示返回列表。23. 《西游记》是中国古典四大名著之一,文本文件“西游记.txt”中有《西游记》的简介。现用Python语言中文分词库jieba对该文件进行分词,统计文件中词语“孙悟空”出现的次数。请在横线上填入合适的代码:① jieba ,② i in s ,③ n=n+1 或 n+=1 。import ① f=open(“西游记. txt”, “r”)txt=f. read()s=list(jieba. cut(txt, cut_all=True))n=0for ② : if i==“孙悟空”: ③ print(“孙悟空出现的次数为:”, n)【解析】 import jieba是导入中文分词模块。列表s存储分词后的结果,利用变量i遍历列表s中的元素,寻找词语“孙悟空”,每找到一个,n的值就增加1。24. 某在线地图提供实时路况服务,利用可视化技术,将不断变化的数据生成实时变化的可视化图表,如将各种拥堵指数转换成红、黄、绿三种颜色,其目的是( B )A. 让用户总结得出某个地区城市是否拥堵的结论B. 让用户快捷地观察数据的动态变化情况C. 与用户交互式地解读数据D. 与其他城市进行比较,得到拥堵指数【解析】 红、黄、绿三种颜色会随着拥堵指数不断地发生变化方便用户跟踪数据。(共27张PPT)第四节 文本数据处理/数据可视化/大数据典型应用信息技术 必修1 数据与计算数据处理与应用第四章必备知识练1. 文本数据处理的主要步骤由下列部分组成:①分词 ②文本数据获取 ③规律排列④数据分析 ⑤结果呈现 ⑥特征提取正确的顺序是( )A. ②①⑥③④⑤ B. ②⑤①④⑥C. ②①⑥④⑤ D. ①②③⑤④⑥【解析】 典型的文本数据处理过程主要包括分词、特征提取、数据分析、结果呈现等,没有“规律排列”这一步骤。C2. 下列选项中,不.是.常用中文分词算法的是( )A. 基于字符匹配的分词方法B. 基于统计的分词方法C. 基于规则的分词方法D. 基于人工操作的分词方法【解析】 常用的中文分词算法有基于词典的分词方法(也称作基于字符匹配的分词方法)、基于统计的分词方法、基于规则的分词方法。D3. Python中可以实现对中文文本进行分词的模块是( )A. pandas B. matplotlibC. wordcloud D. jieba【解析】 Python的中文分词模块jieba是基于字典的分词方法。D4. 下列关于分词的说法,正确的是( )A. 分词就是将一个汉字序列切分成一个个单独的词B. 中文分词不涉及复杂的关键词提取方法C. 目前的分词算法已经实现了完全准确的分词D. 常用的中文分词方法只有一种【解析】 英文分词不涉及复杂的关键词提取方法;目前分词算法还不能实现完全准确的分词;常用的中文分词方法有三种。A5. 下列关于文本数据处理的说法,正确的是( )A. 文本数据处理不能应用在自动校对方面B. 英文词语与词语之间有明显的空格,因此不需要分词就可以直接进行数据分析C. 文本数据处理可以处理非结构化的数据D. 用评估函数进行特征提取,不需要基于大量数据【解析】 文本数据处理在自动校对方面有所应用;英文需要先分词再进行数据分析;评估函数大多是基于概率统计设计的,需要大量的数据。C6. 文本数据处理是大数据处理的分支之一,下列说法中,错.误.的是( )A. 文本数据处理的目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息B. 文本内容是非结构化数据,无须转换就能被计算机处理C. 文本数据处理主要应用在搜索引擎、论文查重、垃圾邮件过滤、自动应答等方面D. 典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等步骤【解析】 文本内容是非结构化数据,要从大量的文本中提取出有用的信息,需要将文本从无结构的原始状态转化为结构化、便于计算机处理的数据。B7. 下列选项中,不.适.合.用标签云来呈现的是( )A. 政府年度工作报告中的关键词B. 《红楼梦》中人物出现的次数C. 《全唐诗》中常用的词语D. 一个班级学生的高考成绩【解析】 标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,并用文字大小代表词语的重要性。政府年度工作报告中的关键词、《红楼梦》中人物出现的次数、《全唐诗》中常用的词语均可以用标签云来呈现,学生的高考成绩不适合用标签云呈现。D8. 下列关于数据可视化呈现的说法,正确的是( )A. 能提升数据分析的效率B. 能丰富视觉效果,增强数据的吸引力C. 能帮助人们更好地理解数据D. 以上都正确【解析】 数据可视化能提升数据分析的效率,增强视觉效果,增强数据的吸引力,帮助人们更好地理解数据的含义。D9. 如图所示为文本数据处理分析后生成的标签云图片,下列说法中,错.误.的是( )A. 标签云用词频来表现文本特征B. 该数据集中的词语“拼搏”比“思考”出现的频率低C. 只能制作中文和英文混合的标签云D. “思考”“beautiful”“拼搏”等词是该文本的重点词汇【解析】 标签云用词频来表现文本特征,将关键词按照一定的顺序和规律排列,并用文字大小代表词语的重要性,中文、英文都可以用来做标签云。C10. 下列关于数据可视化的描述,错.误.的是( )A. 标签云是常用的关键词可视化形式B. 数据可视化只能将数据以图形、图像的形式表示出来C. 数据可视化可以直观地呈现数据中蕴含的信息D. 数据可视化增强了数据的解释力与吸引力【解析】 数据可视化可以将数据以图形、图像、动画等多种形式表示出来。B11. 国家统计局利用可视化方式分析我国人口情况,增强了数据的解释力与吸引力。下列说法中,错.误.的是( )A. 帮助读者理解数据的含义B. 提高读者的阅读兴趣C. 增加读者的阅读难度D. 减少读者理解内容所耗费的时间【解析】 新闻、研究报告利用可视化方式呈现,可以帮助读者在短时间内了解内容,理解数据背后的含义,降低阅读难度。C12. 某公司在全国有六大销售区,下列选项中,可以最清晰地展现各大销售区年度销售额占比情况的图表是( )A. 地图 B. 雷达图C. 折线图 D. 饼图【解析】 为了反映各部分占比情况,适合用饼图。D13. 某网络公司9月份各项开支中,设备费占27%,公关费占13%,工资占44%,交通费占9%,其他费用占7%。为了用图表直观形象地描述该公司各项开支情况,宜选用( )A. 散点图 B. 雷达图C. 饼图 D. 气泡图【解析】 宜选用饼图,可以更直观地描述各项开支的多少及其占总体的比例。C14. 在食堂排队买菜时,学生的排队等待时间与其愉悦程度有关联,等待的时间越长,其愉悦程度越低。为了体现这些数据的关系,应采用的图表是( )A. 饼图 B. 散点图C. 柱形图 D. 雷达图【解析】 为了体现两个数据之间的关联性,应采用散点图。B15. 下列选项中,没.有.用到数据可视化技术的是( )A. 在Word中编写读书心得B. 中国天气网提供的临近预报服务C. 百度指数分析全国某段时间内搜索关键词“数据可视化”的情况D. 国家统计局分析我国人口情况【解析】 数据可视化是将数据以图形、图像等形式表示出来,在Word中编写读书心得没有用到数据可视化技术。A16. 下列关于智能交通的说法,错.误.的是( )A. 智能交通整合了物联网、大数据、云计算、人工智能等技术B. 智能交通对数据进行实时采集、传输和处理C. 智能交通提高了交通效率,但降低了安全性D. 智能交通最终使运输服务和管理智能化【解析】 智能交通提高了交通效率,增强了安全性。C17. 电商网站会针对客户的个人喜好和消费能力的统计情况,推荐不同的商品,引导消费,以有针对性地为客户提供个性化服务,这属于大数据应用中的( )A. 生活服务 B. 智慧城市C. 社区管理 D. 医疗健康【解析】 本题主要考查大数据的应用。电商网站会根据客户的个人喜好和消费能力,推荐不同的商品,引导消费,有针对性地为客户提供个性化服务,这属于大数据应用中的生活服务。A18. 大数据对社会发展起着越来越重要的作用,不仅给生活带来了便利,还可以让决策更精准,但它同时也带来了一些社会问题。下列属于大数据带来的社会问题的是( )A. 通过城市热力图了解区域人流量,为出行提供参考B. 商家可以通过大数据了解市场和消费者行为情况,从而为进货、生产、库存提供决策依据C. 共享单车产生的大数据让交通部门发现部分线路公交站点的缺失问题,从而确定了新的公交运营线路D. 人脸识别系统中的用户数据信息发生泄露,给大量用户造成了损失【解析】 本题主要考查大数据的影响。通过城市热力图了解区域人流量,为出行提供参考;商家可以通过大数据了解市场和消费者行为情况,从而为进货、生产、库存管理提供决策依据;共享单车产生的大数据让交通部门发现部分线路公交站点的缺失,从而确定了新的公交运营线路图。以上均是大数据的积极作用。人脸识别系统中的用户数据信息发生泄露,给大量用户造成了损失,这是大数据带来的社会问题。D19. 下列关于大数据在电子商务方面应用的说法,错.误.的是( )A. 电商企业在交易、销售、供应链和仓储等环节产生了大量数据B. 电商平台提供的精准营销服务是基于用户购买行为的大数据C. 电子商务中大数据的价值会随着时间发生变化D. 电子商务中的大数据分析只针对客户【解析】 电子商务中大数据分析不仅要针对客户,还要针对商家。D20. 在一些视频网站,用户观影过程中会跳出“猜你喜欢”栏目,推荐某些用户可能会喜欢的商品。下列关于电子商务大数据来源的说法,错.误.的是( )A. 大型电商企业拥有大量用户数据B. 在交易、营销环节产生了大量数据C. 在物流配送、售后环节不会产生新的数据D. 在商品仓储环节会产生大量数据,基于大数据的挖掘与分析,网站变得越来越智能【解析】 大型电商企业拥有大量用户数据,在交易、营销、供应链、仓储、配送和售后等环节都会产生大量数据。C21. 下列关于大数据在电子商务方面应用的说法,正确的是( )A. 在供应链管理中,根据商品的销售情况和市场预期数据,依靠领导决策进行补货B. 客户的消费记录不属于大数据C. 大数据在电子商务领域的广泛应用,能帮助用户快速地找到所需商品D. 电子商务网站提供的搜索功能可以帮助用户找到心仪的商品【解析】 依靠领导决策进行商品补货,不是大数据在电子商务方面的应用;客户的消费记录属于大数据;电子商务网站提供的搜索功能不是大数据的应用。C关键能力练22. 某Python程序如下:import jiebastr=“我来到北京清华大学”Is=list(jieba.cut(str, cut_all=False))print(Is)程序运行后,输出的结果是( )A. “我来到清华大学”B. [“我”,“来到”,“北京”,“清华大学”]C. [“我”,“来到”,“北京”,“清华”,“清华大学”,“华大”,“大学”]D. “我”,“来到”,“北京”,“清华大学”【解析】 jieba.cut方法接受两个输入参数:第一个参数为需要分词的字符串,cut_all参数用来控制是否采用全模式,Is=list(jieba.cut(str,cut_all=False) ,中cut_all=False采用精确模式,list表示返回列表。B23. 《西游记》是中国古典四大名著之一,文本文件“西游记.txt”中有《西游记》的简介。现用Python语言中文分词库jieba对该文件进行分词,统计文件中词语“孙悟空”出现的次数。请在横线上填入合适的代码:①__________,②__________,③_______________________。 import ① f=open(“西游记. txt”, “r”)txt=f. read()s=list(jieba. cut(txt, cut_all=True))n=0for ② : if i==“孙悟空”: ③ print(“孙悟空出现的次数为:”, n)【解析】 import jieba是导入中文分词模块。列表s存储分词后的结果,利用变量i遍历列表s中的元素,寻找词语“孙悟空”,每找到一个,n的值就增加1。jiebai in sn=n+1 或 n+=124. 某在线地图提供实时路况服务,利用可视化技术,将不断变化的数据生成实时变化的可视化图表,如将各种拥堵指数转换成红、黄、绿三种颜色,其目的是( )A. 让用户总结得出某个地区城市是否拥堵的结论B. 让用户快捷地观察数据的动态变化情况C. 与用户交互式地解读数据D. 与其他城市进行比较,得到拥堵指数【解析】 红、黄、绿三种颜色会随着拥堵指数不断地发生变化方便用户跟踪数据。B 展开更多...... 收起↑ 资源列表 第四节 文本数据处理 数据可视化 大数据典型应用.docx 第四节 文本数据处理 数据可视化 大数据典型应用.pptx