资源简介 数据管理与分析 综合练习2023—2024学年粤教版(2019)高中信息技术选修3一、选择题1.数据库表中,一列称为一个( )A.信息 B.数据 C.记录 D.字段2.某员工工资表中包含工号、姓名、工资、职称等字段,查找工资在3000元以上并且职称为“工程师”的记录,其逻辑表达式为( )A.工资>3000 OR 职称=工程师 B.工资>3000 AND 职称="工程师"C.工资>"3000" AND 职称="工程师" D.工资>3000 AND 职称=工程师3.下列关于数据分析报告的表述正确的是( )A.数据分析要基于可靠的数据源B.数据分析报告就是数据分析流程工作汇报C.基于相同的数据一定能得到完全相同的分析结果D.数据分析报告只宜对大数据进行分析4.在现代信息系统中,数据库占有重要的地位,信息系统中的数据往往会保存在数据库中,Access就是常用的数据库管理系统之一。下列关于Access数据库,说法不正确的是( )A.Access数据库是一种关系型数据库B.Access数据库的单个数据表中允许创建多个主键C.Access数据库可以存储视频等多媒体数据的超链接D.Access数据库的扩展名有.mdb和.accdb5.观察数据分布特征,统计中位数等,属于数据分析中的( )A.特征探索 B.关联分析 C.聚类分折 D.数据清洗6.在学校的社团管理系统注册帐号时,成功提交个人信息后,社团管理系统的数据库进行的操作是( )A.新增记录 B.删除记录 C.查询记录 D.修改记录7.将多个数据进行比较,从而揭示这些数据所代表的事物的发展变化情况和规律的分析方法为( )A.现状分析 B.原因分析 C.预测分析 D.对比分析8.下列不属于大数据分析的是( )A.特征探索 B.关联分析 C.聚类与分类 D.海量分析9.通常不能用来集成项目研究成果的是( )A.项目分析报告 B.记事本 C.幻灯片 D.视频10.下列关于数据来源的叙述中,不正确的是( )A.针对具体信息的获取,直接数据和间接数据一定是相同的B.按照获取数据的渠道,可以将数据分为直接数据和间接数据C.统计调查或科学实验得到的数据一般称为直接数据或一手数据D.查阅资料获得的数据或他人对原始数据处理过的数据,一般称为间接数据或二手数据11.通过访问国家统计局网站,可以查阅相关数据报告,下列关于撰写数据分析报告说法不正确的是( )A.不能采用专业术语,篇幅较长 B.内容客观,分析准确C.呈现数据分析的过程、结论和建议 D.引用资料要加注释12.关于SQL语言描述正确的是( )A.SQL语言可以自动实现关系数据库的规范化 B.SQL语言无法对数据库对象进行删除操作C.SQL语句不可以嵌入到高级语言程序中 D.SQL语言是关系数据库的标准语言13.在SQL语言中,更新数据表里的数据使用的命令是( )A.UPDATE B.DROP C.ALTER D.SELECT14.以下关于数据管理的说法,正确的是( )A.数据处理的速度主要取决于计算机硬件设备,软件技术影响不大B.使用电子表格Excel是当前最合理的处理数据的方法和技术C.在计算机中,所有的数据都是非结构化D.数据安全不仅是保障数据不损坏,也要考虑数据被入侵偷窃的情况15.下列关于电子邮件的描述中,错误的是( )A.电子邮箱一般具有定时发送、自动回复等功能B.邮件中的超大附件没有文件大小的限制C.为了安全不要使用与用户名相同的邮箱密码D.同一封邮件可以同时发送给多个收件人16.小张采集了运动会的报名数据录入到Excel文件,每位同学最多参加两个项目,部分界面如下图所示。他先使用Excel软件整理数据,存储为“运动会报名.xlsx”文件后,编写Python程序完成后续处理。小张编写了如下程序,实现输出跳高人数最多的3个班级的功能。import pandas as pddf=pd.read_excel("运动会报名.xlsx")g=df.groupby("班级").跳高. ①df1=pd.DataFrame({"班级":g.index,"跳高人数":g.values})df2=df1.sort_values("跳高人数", ② )print(df2. ③ )划线处的代码应填( )A.①count() ②ascending=False ③tail(3)B.①sum() ②ascending=True ③head(3)C.①count() ②ascending=True ③tail(3)D.①sum() ②ascending=False ③head(3)17.某中学食堂部署了一套刷脸支付系统,学生在食堂消费并通过刷脸支付后,系统可根据累积的消费数据分析每个学生的口味及最喜爱的菜品,食堂据此来改进服务。为获取上述分析结果,系统采用的关键技术是( )A.数据挖掘 B.虚拟现实 C.智能代理 D.数据压缩18.某学校引进了一个在线智慧教学平台,经过若干学期的线上教学实践积累了学习资源、教学互动、学情信息等大量教学数据。为了不断提高线上教学质量,在线智慧教学平台可根据当前积累的教学数据,采用( )技术来估计学生的学习效果,并生成综合的改进方案,完善线上教学方法。( )A.数据存储与加密 B.数据索引与排序C.数据分析与预测 D.数据共享与保护19.某调查机构准备做一份关于《在校学生视力情况数据分析报告》,下列说法正确的是( )A.学生视力情况分析的目的与背景在报告中可以忽略B.该报告中涉及的数据呈现方式必须用图表C.该报告报告重点呈现数据分析的过程,可以没有结论D.该报告要重点呈现数据分析过程、结论和建议20.小申将一个月内每天的书籍销售量绘制了箱形图,以下可以用于数据分析报告的是( )A.有两天的销售量非常高B.这个月中销售量最大的一天,值在[300,400]之间C.这个月的书籍销售量中位数在100左右D.这个月中每天的销售量差异不大二、填空题21.Photoshop是数字图像处理软件,其众多的绘图工具可以有效地进行图片编辑工作。请为下列图标选择对应的工具名称(填字母即可)。A.移动工具 B.裁切工具 C.磁性套索工具 D.文字工具 E.橡皮擦工具 F.油漆桶工具22.在ACCESS中,如果文本数据的字段大小设置为8,那么该字段最多可以存放( )个汉字。每一行称为一个( ),每一列称为一个( )。23.如下图所示,小申收集了2000-2018年某地的台风数据。台风等级分为5级:热带风暴、强热带风暴、台风、强台风、超强台风,分别对应表中的A级、B级、C级、D级、E级。year A级 B级 C级 D级 E级2000 6 2 9 3 32001 6 1 12 5 22002 5 4 4 12 12003 2 5 5 6 32004 7 3 6 11 22004 7 3 6 11 22005 3 6 2 9 3… … … … … …小申在撰写数据分析报告时,绘制了“2000-2018年之间台风总数数量”的箱形图,请帮助小申进行分析。24.在数据挖掘中 旨在发现哪些行为或现象总是一起发生。25.在数据挖掘中通过观测大量数据后得出规则建立类别模式,将数据根据属性分门别类加以定义,这种处理问题的类型叫作 。三、判断题26.数据分析的目的是提取有用信息,并形成结论或观点,从而指导决策。( )27.(必修)在计算机中,一般将静态的图分为图形和图像。 ( )28.对重要数据进行操作,可直接修改原始文件,并及时保存。( )29.数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价等。( )30.(必修)数据库管理系统是用来建立、运用和维护数据库系统的,它随数据库系统的不同而不同。( )四、操作题31.北斗系统古有北斗七星辨明方向,今有北斗卫星定位九州。我国自主建设、独立运行的全球卫星导航系统——北斗卫星导航系统,将为全球用户提供全天候、全天时、高精度的定位、导航和授时服务。(1)北斗卫星导航系统是一个庞大的信息系统。作为信息系统,一般具有输入、 、 、输出和 等功能。A、计算 B、决策 C、处理 D、存储 E、控制 F、规划(2)北斗系统具有短信通讯功能,现需传送120个汉字的讯息(一个汉字需要16位二进制存储),则存储这些汉字至少需要 个字节。(3)使用北斗卫星导航系统的某导航软件,通过分析多种渠道采集的数据,挖掘出有价值的信息,可为用户出行提供实时的路况信息和最优路线推荐,这种服务主要采用了( )技术。A、大数据 B、物联网 C、云计算 D、语音识别(4)手机导航是使用( )来获取用户位置信息。A、定位器 B、重力传感器 C、二维码 D、超声波传感器(5)在数据处理过程中,需要运用一定的分析方法进行整理分析,挖掘出内在的结构和规律,从而提取有价值的、有意义的数据。对比分析是将两个或两个以上的数据进行比较,分析他们的差异,从而揭示这些数据所代表的事物的发展变化情况和规律。聚类分析能够从样本数据出发,自动进行数据分类。如图是某城市公共交通运营里程的分析结果,这是运用了 分析方法。32.小明下载了本校某次联考数据“kscj.csv”,每位学生均有6科成绩,数据无缺失。采用pandas模块读入数据,如图a所示(注意:本题图a、b、c中,均仅呈现前6条记录)。现对本次考试进行数据分析,请阅读程序,回答下列问题。图a图b(1)根据读入数据,创建格式如图b所示的DataFrame,各学科和总分列的初值均为“0”。请为 处选择合适代码选项(多选,填字母)。A.df[i]=0 B.df[cName[i]]=0C.df.insert(i,cName[i],0) D.df.insert(i+3,cName[i],0)importpandasaspd; importnumpyasnpdfs=pd.read_csv("kscj.csv", encoding="GBK")dfs=dfs.sort_values("学号",ascending=True)df=dfs.drop_duplicates(subset=['学号'],keep="first", ignore_index=True)#学号相同行仅保留首行df=df.drop(["学科","得分"],axis=1)#删除“学科”和“得分”列cName=["语文","数学","英语","物理","化学","生物","政治","历史","地理","技术","总分"]df.insert(1,"班级",df["学号"]//100) #参数:第1个列位置索引(0开始编号),第2个列标题,第3个列值foriinrange(11):#添加各学科列和总分列______(2)将dfs中的学科得分转存到df中对应学科,并计算总分。请为划线处填写合适代码。for i in df.index:idx=df.at[i,"学号"]student= #dfs中筛选出学号为idx的6条相关记录for si in student.index:course=student.at[si,"学科"]df.at[i,course]=student.at[si,"得分"]df.at[i,"总分"]=图c图d(3)求出各科和总分的班级平均分,如图c所示。请为 处选择合适代码选项(单选,填字母)。A.groupby("班级",as_index=False).mean()B.groupby("班级",as_index=True).count()C.groupby("班级",as_index=False).sum()df=df.replace(0,np.nan)#np.nan表示空值,df中数据“0”用空值替换df=df.______df=df.drop("学号",axis=1)print(df)(4)绘制各班总分平均分对比图,如图d所示。请为划线处填写合适代码。importmatplotlib.pyplotaspltplt.bar(df.班级, )plt.title("班级总分平均分对比图")plt.show()33.某校高三年级开展体质健康测试,数据存储在Excel文件中,部分数据如图a所示。图a请回答下列问题:(1)定义finenum函数,功能为:读取各班级的总分等级,返回等级为“优秀”的个数。函数代码如下,划线处应填入的代码为 (单选,填字母)。A.df.总分等级="优秀"B.df[df.总分等级=="优秀"]C.df[df[总分等级]="优秀"]D.pd[pd.总分等级=="优秀"]import pandas as pddef finenum(df): df1= return dfl.groupby("班级编号").count()(2)将数据整理后存储在“health.xls”文件中,编写Python程序,统计各班体测优秀率,并绘制图表,如图b所示。图b部分Python程序如下,请在划线处填入合适的代码。import matplotlib.pyplot as pltdf=pd.read _excel("health.xls")data=finenum(df)y=[0]*16classnum=[33,37,35,34,37,47,44,35,32,33,45,41,46,38,43,45]#各班级人数i=0while ① : y[i]=② i=i+1x= ③plt.plot(x,y,color="c")#设置绘图参数,显示如图b所示线形图,代码略(3)若该校要表彰体测优秀率最高的班级为“体能之班”,由图b可知,需要表彰的班级是 班。34.为了完善某学校食堂管理、持续提高食堂服务质量,让全校师生更加精神饱满地开展工作、学习,对学校食堂进行了一些调查,调查项目共5项(具体内容略)。学校后勤管理谢老师收集了12个班级的调查结果,分别存储在“dy01.csv”、“dy02.csv”、…、“dy12.csv”等12个文件中(如图a所示),每个文件部分界面如图b所示。 图a 图b现需要分析12个班级学生对这5个问题的选“A”情况。谢老师用Python的pandas模块编写了以下代码,实现相关问题的解决。请回答下列问题。(1)定义了fun_A()函数实现了统计某个班级5个问题的选“A”的人数情况。Python程序代码如下,请在划线处填入合适代码。import pandas as pddef fun_A(file):df=pd. read_csv(file)A_list=[]for i in df. columns[1:]:j=0c=0while jif :c+=1j+=1A_list. append(c)return A_list(2)调用上述函数,处理12个班级每个问题的选“A”的总人数,Python程序代码如下,请在划线处填入合适代码。ans_list=[]s="010203040506070809101112"for i in range(0, len (s) -1, 2):filename="dy"+ ① +"~. csv"res=fun_A(filename)ans_list. append(res)x=["问题1","问题2",“问题3","问题4","问题5"]y=[0,0,0,0,0]for i in range (5):s=0 #每个问题选A的人数for j in range (12): ②y[i]=s(3)经上述处理后,接着以图的形式汇报结果(如图c所示),Python程序代码如下,请回答下列问题。import matplotlib. py plot as pltplt. rcParams['font. sans-serif’] =[’SimHei’] #图表显示中文字体plt. title ("每个问题选A的总人数")plt. legend ()plt. show()加框处代码合适的是 (单选,填字母)A.plt. bar (x, y) B.plt. bar (x, y, label=’A选项’)C. plt. plot (x, y) D.plt. plot (x, y, label=’A选项’)(4)调查数据的有效问卷共550份,从图c中可以观察出有 (填数字)个问题的选“A”总人数低于60%。每个问题选A的总人数图c35.小明收集了某2所学校的选课情况,对应科目值为1表示选课,为空表示未选。部分文件如图a所示。图a为统计分析各个学校的各个科目选课的情况,编写Python程序。请回答下列问题:(1)数据整理。已知前3列数据均没有缺失,每个学生选课数量应该为3,小明想要查看是否有学生的选课数量不为3,若有则输出该学生的学生编号。实现代码如下,请在划线处填入合适的代码。import pandas as pddf1=pd.read_excel("1.xlsx")df2=df1.T #将df1行列转置后的结果赋值给df2flag=Truefor i in df2.columns:if ① .count()!=6: s=df2.at["学生编号",i] print("编号为",s,"的学生选课科目数量不为3!") ②if flag:print("学生选课科目数量均为3!")(2)若存在学生选课数量不为3的,则该数据存在的数据问题是 (单选,填字母:A.数据重复B.异常数据C.逻辑错误)(3)数据计算和可视化。小明将上述数据整理后,计算两所学校各个科目选课人数占学校总人数的比例,绘制如图b所示散点图进行比较,部分Python程序如下,请在划线处填入合适的代码。图bg=dfl.groupby("学校名称").count()km=["物理","化学","生物","政治","历史","地理","技术"]zb=[]for i in g.index:for j in g.columns[2:]:a=g.at[i,j]/g.at[i,"姓名"]*100plt.scatter(km,zb,label=i+"各科选课占比")zb=[]plt.title("两所中学各科目选课占比比较")plt. legend();plt. show()(4)由图可知选课比例最接近的科目是 (选填:物理/化学/生物/政治/历史/地理/技术)。五、简答题36.自新型冠状病毒变为乙类乙管以来,全国文化和旅游行业在强劲复苏的基础上,乘势而上,跑出发展“加速度”。全国各地持续出台利好政策,积极推动文化和旅游加速复苏和深度融合发展。随着旅游业的复苏,全国铁路、航空运输客运量如表所示。其中,人公里是运输计算客运量的单位,表示运送旅客人数与运送距离的乘积。(数据来源于国家数据统计局 http://www.stats./)(亿人公里) 2022年10月 2022年11月 2022年12月 2023年1月 2023年2月铁路旅客周转量 436.36 277.25 400.31 1031.29 1107.39民航旅客周转量 240.9 200.66 307.85 641.19 697.16(1)你认为表格中的数据可靠吗?为什么?(2)为呈现数据分析的结果,某同学编写了如下所示代码。请问此程序绘制出了什么类型的图表?此类图表的优势是什么?import matplotlib.pyplot as plt x=["22-10","22-11","22-12","23-1","23-2"] y=[240.9,200.66,307.85,641.19,697.16] plt.plot(x,y) plt.show()(3)常用的数据分析方法有对比分析法、平均分析法和结构分析法。问题(2)中同学的分析使用了何种数据分析方法并阐述选择该分析方法理由。参考答案:1.D2.B3.A4.B5.A6.A7.D8.D9.B10.A11.A12.D13.A14.D15.B16.D17.A18.C19.D20.BC21. D F E B C A22. 4 记录 字段23.大部分年份的台风总数数量处于22.5~25.0,存在异常年份的台风总数数量小于15.024.关联规则(或相关性分组)25.决策树26.正确27.正确28.错误29.正确30.正确31. C D E 240 A A 对比32. BD dfs[dfs["学号"]==idx] df.at[i,"总分"]+ student.at[si,"得分"] A df.总分 或 df["总分"]33. B i<16 data.总分[i+1]/classnum[i]或data["总分"][i+1]/classnum[i]或其它等价答案 [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16] 534. df[i][j]=="A" s[i:i+2] s=s+ans_list[i][j] 或 s+=ans_list[i][j] B 235. df2[i] flag=False C zb.append(a) 物理36.(1)我认为表格中的数据比较可靠,因为数据来源于官网。(2)此程序绘制出了折线图,此类图表的优势是易看出变化趋势。(3)对比分析法,选择这种分析方法理由阐述清即可。 展开更多...... 收起↑ 资源预览