资源简介 第3章 数据处理与应用 单元卷一、选择题1.为了保证计算机系统中的数据安全,下列操作不可取的是( )A.数据定期备份 B.建立磁盘阵列 C.建立容灾系统 D.格式化硬盘2.全班同学将填写好的睡眠情况调查问卷交给小明同学。小明同学将数据录入Excel后,下一步要做的工作是( )A.收集数据 B.确定数据需求C.分析数据 D.撰写分析报告3.数据分类说法正确的是( )A.对数据进行预处理,发现和处理缺失值,异常数据、绘制直方图,观察数据分布的特征,求最大值、最小值、极差等描述性统计量。B.分析发现存在于大量数据之间的关联性和相关性,从而描述一个事物的共同规律和模式。C.是一种探索性的分析。不必事先给出一个分类标准,而是让其自动分类。D.是数据分析中最基本的方法。先基于样本数据构建分类器,然后进行预测。4.从信息安全角度看,以下选项中比较适合作为密码的是( )A.12345678 B.PASWORD C.PX965M#H D.aaaaaaaa5.一般情况下,下列相同长度的密码中安全级别最高的是( )A.大小写字母+数字+特殊符号 B.姓名缩写+生日C.英语单词+数字 D.姓名缩写+手机号码6.学校组织一次社会实践活动,参观当地的“敬老院”,要求同学们自己带相关设备,将实践的所见、所闻、所想形成一个报告,进行一次比赛,请选择你认为应该带的设备是( )。A.扫描仪、照相机、摄像机、计算机B.照相机、摄像机、打印机、录音设备C.扫描仪、照相机、摄像机、计算机D.照相机、摄像机、录音设备7.全班同学将填写好的睡眠情况调查问卷交给小明同学。小明同学将数据录入Excel,数据的收集方式是( )A.纸质问卷调查 B.实地考察C.面对面访谈 D.网络收集8.半结构化数据包括( )A.Excel表格B.银行账户上的消费记录C.检查身体后得到的体检报告D.HTML文档9.下面几种采集信息的过程中,依次需要用到的工具是( )。①自然界的景象转化成数字图片输入到计算机;②书本中的插图转化成数字图片输入到计算机;③制作配乐诗朗诵,把朗诵的声音保存到电脑;A.数码相机 绘图仪 耳机 B.数码摄像机 扫描仪 耳机C.数码相机 绘图仪 麦克风 D.数码相机 扫描仪 麦克风10.下列选项中,不是数据保护方法的是( )A.数据压缩 B.数据备份C.数据加密 D.安装杀毒软件和防火墙11.下列关于词云说法错误的是( )。A.词云是目前常用的关键词可视化形式B.用词云可视化文本数据可以帮助人们快速地了解文本的内容和特征信息C.词云通常使用字体的大小和颜色表示关键词的重要程度或出现频次D.在词云中,字越大表示该关键词使用频率就越低12.设置一个安全性高的密码是防止个人信息泄露的重要手段。下列设置密码的方式中安全性最高的是( )。A.使用字母、数字和符号的组合 B.使用自己的手机号码C.使用自己的生日 D.使用自己姓名的汉语拼音13.下列选项中,可用来采集互联网数据的工具是( )A.网络爬虫 B.电子表格软件 C.Wi-Fi监控摄像头 D.思维导图工具14.图为某一时期全国各省份的国民生产总值(GDP)累计值统计图(来源于国家统计局网站),左下角的不同颜色代表着不同等级的数值区间。这样的数据可视化表达形式为( )A.词云图 B.饼图 C.柱状图 D.数据地图15.因疫情防控需要,学校要求学生家长及时上报体温、行程等数据,汇总后上报上级防控部门,采集上述数据最为高效的方法是( )A.填写在线收集表 B.填写纸质表格C.发送电子邮件 D.打电话上报二、填空题16.常见的数据计算有数值数据、 、日期/时间数据、逻辑数据。17.为了更好地了解某地的水质情况,科研人员采集了该地各监测点当天的水质数据。数据中包含了各监测点的水质类别、水温(℃)、pH、溶解氧(mg/L)、高锰酸盐指数(mg/L)。通过数字化学习,小申了解到水质类别从高到低分为1-5类,级别最高(质量最好)为1,级别最低(质量最差)为5。小申把整理后的数据存储于“T4_2.csv”文件中。如图所示,他写程序对这些数据进行分析,在水质类别为3的记录中,找出水温的最大值。请将程序填写完整,可以点击图标进入开发环境,数据文件与程序位于同一文件夹目录,本题提供的环境仅用作算法验证。import pandas as pd import numpy as np df=pd.read_csv('T4_2.csv',encoding='ANSI') mydf=df[(____① ==3)] temp=np.max(mydf['水温']) print(temp)18.词云是对文本数据进行分析处理后的可视化形式。某同学采集微信好友签名制作了如图所示的词云。观察词云图,分析并写出至少三个出现频率较高的词语 。19.为了更好地了解某地的水质情况,科研人员采集了该地各监测点当天的水质数据。数据中包含了各监测点的水质类别、水温(℃)、pH、溶解氧(mg/L)、高锰酸盐指数(mg/L)。通过数字化学习,小申了解到水质类别从高到低分为1-5类,级别最高(质量最好)为1,级别最低(质量最差)为5。小申了解到水温、pH、溶解氧、高锰酸盐等指标都会影响水质类别,他选择了溶解氧进行重点分析。分析如图所示的“各监测点水质类别和溶解氧分布”可视化图形,说出溶解氧指数最高的监测点的水质类别为 。请学习数字化资源中的“地表水环境质量标准”,尝试归纳水质类别和溶解氧之间的相关关系 。20.图结构中的每个顶点( )与其他顶点有边相连,数据元素之间是( )的关系。三、判断题21.数据以文件或数据库的形式永久存储在外存储器中。( )22.数据可视化是指以图形、图像和动画等方式更加直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等。( )23.为确保数据安全,可定期将数据从D:盘备份到E:盘。( )24.舞蹈《唐宫夜宴》由郑州歌舞剧院舞蹈编导陈琳创作,14名女舞蹈演员,用婀娜多姿、秀逸韵致的舞姿将大唐盛世的传统文化形象完美的呈现在舞台上,让观众在欣赏“鬓云欲度香腮雪,衣香袂影是盛唐”的别样丰腴身韵审美风姿的同时,感受中华厚重的历史和文化。其精致诙谐的舞蹈编排、雍容大气的高科技特效,乃至于圆润讨喜的“唐宫少女”形象,均获得了文化学者、文博爱好者以及舞蹈观众们的好评。结合材料,完成判断。在寻找创作《唐宫夜宴》素材的过程中,陈琳游览河南博物院并被唐乐舞俑所吸引,并使用数码照相机拍摄以便随时观看研究,数码照相机属于信息加工工具。( )25.为了保证数据的安全,可能的做法是把数据上传到腾讯云。( )四、操作题26.李老师收集了高三年级某次考试语数外成绩,并保存在scores.xlsx中,数据表如图a所示:李老师用Python编写了一个程序,对数据进行分析处理,输出总分大于等于260分的学生信息,并直观显示英语前三名的分数情况,生成了如图b所示的图表。Python程序代码如下,请在划线处填上合适的代码:import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #使图形中的中文编码正常显示df=pd.read_excel("scores. xlsx" )df["总分"] = # 计算总分列数据#下行代码:输出总分大于等于260分的学生信息print( df [ ] )g=df.groupby("班级",as_index=False)print(g.英语.mean())df1=df.sort_values("英语”, )plt.title("英语成绩前三名分数情况")x=df1[0:3].姓名y=df1[0:3].英语plt.bar(x,y)plt.legend()plt.27.小郑在网上搜集整理出了“足球世界杯历史进球前50名”的数据,存储在文件“进球.xlsx”中,部分界面如图a所示。图a小郑利用Python对该数据进行如下分析:(1)统计出各个国家(地区)的进球总数,输出进球总数最多的前5名,如图b 所示。具体程序如下,划线处应填入的代码是 (单选,填字母)。A.①count②ascending=FalseB.①sum()②ascending=FalseC.①count()②ascending=FalseD.①sum()②ascending=Trueimport pandas as pddfl=pd.read_excel("进球.xlsx")df2=dfl.groupby(" 国 家 ( 地 区 ) " ,as_index=False).① df2=df2.drop("出场次数",axis=1)df3=df2.sort_values("进球个数",② ).head(5)print(df3)图b(2)统计各国家(地区)的球员人数,计算球员人数最多的国家(地区)的球员的场均进球并绘制柱形图,如图c所示。部分Pythom程序如下,请在划线处填入合适的代码。import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']country={}for i in dfl["国家(地区)"] : =统计各国家(地区)的球员人数 if i not in country country[i]=1 else:①cmax=0country_max=[ ]for i in country: #计算球员人数最多的国家(地区)及对应人数 if country[i]>cmax cmax=country[i] country_max=idf4=dfl[dfl["国家(地区)]==country_max]df4=df4.reset_index(drop=True)#重置索引cijq=[]for i in range(② ): #计算“场均进球”js=df4[”进球个数”][i]/df4[”出场次数”"][i]js=round(js,2)cijq.append(js)③ =cijq #增加“场均进球”列plt.barh(df4[”姓名”],df4["场均进球"],label="场均进球")plt.xlim(0.1.2)plt.legend()plt.show()图c(3)由图c可知,球员人数最多的国家(地区)的球员的场均进球超过0.6的球员共 位。五、简答题28.智能手环能够实时记录用户的运动数据和生理数据,其实,智能手环还包含了用户更多的隐私数据,如行踪等,那么请你说一说应该如何保护这些数据?29.结合现实生活中的体验,谈一下数据分析的意义。30.以下数据为1945年—2015年间登陆我国的台风数据记录。按数据流计算,尝试使用数据分析的方法,建立模型推测下一次台风登陆我国的地点及时间,并阐述你的理由。图1图2图331.改革开放以来,中国经济发展取得令人瞩目的成就,但是中国各省发展差异大。如历年各省的国内生产总值(GDP)和人口数据,我们可以发现经济发展和人口数据的变化规律。请采集有关数据,并进行数据分析,通过数据分析发现数据中的一些规律。参考答案1.D2.C3.D4.C5.A6.D7.A8.D9.D10.A11.D12.A13.A14.D15.A16.文本数据17.df["水质类别"]18.祖国 努力 爱 富强 分享等19.1 溶解氧越高,水质类别质量越好。20.都可以 多对多21.正确22.正确23.错误24.错误25.√26.df["语文"]+ df["数学"]+ df["英语"] df.总分>=260 ascending=False show()27.B country[i]+=1 或country[i]=country[i]+1cmax df4.loc[:,"场均进球"] 528.从信息安全意识和相关设置等方面考虑,答案不唯一。29.结合现实生活中的体验,数据分析的意义有:比如可以分析的自己的购物行为习惯,学习习惯,时间管理等。30.下一次台风登陆我国的广东,2016年7月上旬(根据出现频率的推断)31.根据历年各省的国内生产总值(GDP)和人口数据,采用关联分析法推得随着时间的增长,经济和人口成正比增长,但经济增长较快,人口增长缓慢。 展开更多...... 收起↑ 资源预览