资源简介 (共29张PPT)第四章 数据处理与应用验收卷(四) 数据处理与应用(考试时间40分钟;满分50分)一、选择题(本大题共8小题,每小题2分,共16分,在每小题给出的四个选项中,只有一个符合题目要求,多选、少选、不选均不得分)1.下列关于大数据处理的说法,正确的是( )A.对动态数据无法进行可视化表示B.在中文文本分析中采用短语或段落作为表示文本的特征项C.大数据数据类型多,无法分析全体数据,只能分析抽样数据D.Hadoop面向大规模的批量处理,适用于处理静态数据,不适用于流数据DB2.某大型购物网站收集了用户浏览网站的数据用于广告个性化实时推荐,下列处理方式中合理的是 ( )A.应当使用统计分析软件进行数据分析B.应当选用针对流数据的实时计算C.应当选用针对图结构数据的图计算D.应当选用针对静态数据的批处理计算解析 本题考查大数据的相关知识。用户浏览网站的数据,属于流数据,是时时刻刻在变化的,故某大型购物网站收集了用户浏览网站的数据用于广告个性化实时推荐时,应当选用针对流数据的实时计算。AA. print(df.groupby ("性别",as_index=False).mean()) 成绩性别女 93.5男 95.0B. print(df[df["成绩"]>97]) 姓名 性别 成绩2 小温 女 984 小杭 男 99C. print(df.sort_values("成绩")) 姓名 性别 成绩1 小浙 男 893 小华 女 890 小嘉 男 972 小温 女 984 小杭 男 99D. print(df.drop(2)) 姓名 性别 成绩0 小嘉 男 971 小浙 男 893 小华 女 894 小杭 男 99D4.数据文件“data.csv”中包含“A”“B”“C”3列1000行数据,下列Python程序段用于实现对象df1中数据按“B”列降序排序,程序中划线处应填写的语句是 ( )import pandas as pddf=pd.read_csv('data.csv') A.df1=df.sort_values('B')B.df=df1.sort_values('B')C.df1=df.sort_values('B',ascending=True)D.df1=df.sort_values('B',ascending=False)解析 本题考查Pandas数据结构,采用sort_values方法对参数中列进行排序,ascending省略或为True为升序。D5.数据文件“data.csv”中储存了浙江省各地苹果的零售价格数据,数据包含“日期”“地区”“品名”“价格”等6列200000行,处理该文件中数据的Python程序段如下︰import pandas as pddf=pd.read_csv('data.csv')df1=df.groupby('地区').价格.mean()关于该程序段,下列说法正确的是( )A.DataFrame对象df中仅存储了文件“data.csv”中的“价格”列数据B.对象df1中数据以“地区”为主要关键字﹑“价格”为次要关键字排序C.读取文件“data.csv”中的数据,计算全部“价格”数据的平均值D.读取文件“data.csv”中的数据,计算各地区“价格”数据的平均值解析 本题考查Pandas数据结构。A选项对象df存储了数据表中所有信息,因此包含"日期"等信息。B选项对象df1并没有进行排序,而是按地区进行分组,并统计各个地区的平均价格。D6.下列关于中文分词方法的描述中,属于基于统计的分词方法的是 ( )A.让计算机模拟人的理解方式,根据大量的资料和规则进行学习,然后进行分词B.在分析句子时,与词典上的词语进行对比,词典中出现的就划分为词C.依据词语与词语之间的分隔符号进行分词D.依据上下文中相邻字出现的频率统计,同时出现的次数越高组成一个词的概率就越高解析 基于统计的分词方法是依据上下文中相邻字出现的频率统计,同时出现的次数越高越可能组成一个词,因此答案为D。BA.标签云是文本可视化的一种方式B.数据可视化只能将数据以静态图形图像等形式表示C.数据可视化能直观的呈现数据,容易发现数据中蕴含的信息D.数据可视化增强了数据的解释力与吸引力解析 数据可视化是将数据以图形图像等形式表示,可以是以静态图形图像呈现,也可以具有交互性的动态形式呈现,因此,错误的是B。BA.大数据价值密度低,“提纯”大数据可以让其发挥更大的价值B.高速公路中实时产生的车流量数据属于静态数据C.词频统计是文本数据处理中特征提取的一种方法D.经过处理后的大数据,利用可视化技术,有助于快捷观察与追踪数据解析 高速公路中实时产生的车流量数据是不间断地、持续到达的,属于流数据。二、非选择题(本大题共4小题,共34分)9.小明设计了一手环,实现对体温的连续监控,4名志愿者的体温检测情况(部分数据隐藏,数据保存在“data.xls”中)如图所示:(1)小明需对图所示的数据进行整理,下列说法正确的是 。(多选,填字母) A.数据整理就是要删除不正确的数据B.E81单元格的数据存在数据异常C.“班级”列数据格式不一致,应将数据进行格式转换D.第4行和第5行存在数据重复,应删除其中一行E.第4行和第5行存在数据重复,应将数据合并(注:全部选对的得2 分,选对但不全的得1 分,不选或有选错的得0 分)(2)对第4和第5行数据处理后,用Python对表格数据进行处理,程序代码如下所示,请在划线处填入正确的语句。import pandas as pdimport matplotlib.pyplot as pltdf=pd.read_excel('data.xls')df=① #删除“班级”列数据后处理 for i in range(len(df)): #将体温列不正常的数据去除 if ② >42: #一般人体体温不超过42度 df=df.drop(i)df1=df.groupby(③ ,as_index=False) #统计每个人这段时间的平均体温df1=round(df1.体温.mean(),2)#并保留两位小数print(df1)答案 (1)BCE (2)①df.drop('班级',axis=1) ②df.at[i,'体温'] ③'姓名'10.某学校为规范引导学生合理消费,统计各班的一卡通消费数据。小张收集了2022学年第二学期第6周食堂消费数据保存在文件“student06.xlsx”中,部分界面如图a所示。他利用Python程序从消费数据中找出全校单次消费金额最高的记录,并统计学校各班级数据,最后以图表的形式呈现小卖部消费前五的班级如图b所示。实现上述功能的Python程序如下,请在划线处填入合适的代码。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']df=pd.read_excel("student06.xlsx")#找出全校单次消费金额最高的记录max_xf=0for i in df.index: if ① : max_xf=df.at[i,"消费金额"] max_bj_name=df.at[i,"班级"] max_stu_name=df.at[i,"姓名"]print(max_bj_name,"的同学",② ,"单次消费最高。") #以图表的形式呈现小卖部消费前五的班级,如图 b 所示。df1=df[③ ] #筛选出小卖部的数据 df1=df1.groupby("班级",as_index=True).sum()df1=df1.sort_values(④ ).head(5) x=⑤ y=df1.消费金额plt.bar(x,y)plt.title("第 6 周小卖部消费前五的班级")plt.show()答案 ①df.at[i,"消费金额"]>max_xf或df.at[i,"消费金额"]>=max_xf ②max_stu_name③df["消费类型"]=="小卖部"或df.消费类型=="小卖部"④"消费金额",ascending=False ⑤df1.index11.小林收集了2000年-2022年浙江省的GDP数据,并存储于“info.csv”文件,部分数据如图a所示。为统计分析近20多年来浙江省的经济情况,编写Python程序。请回答下列问题。(1)定义js函数,功能为:计算每年GDP的同比增长率(=(本年度GDP-上一年GDP)/上一年GDP*100)。函数代码如下,请在划线处填入合适的代码。def js(df): for i in range(1,len(df)): m= df.at[i,'RATE'] =round(m/df['GDP'][i-1]*100,2) return df(2)统计2000年-2022年期间浙江省GDP增长率在8%及以上的最长持续时间(若有多个长度相同的最大值,输出最新的时间段),并绘制线形图,部分Python程序如下,请在划线处填入合适的代码。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']df=pd.read_csv('info.csv',encoding='gbk')df=js(df)t=8k=maxk=pos=0for i in range(len(df)): if ① : k+=1 else: if k>=maxk: maxk=k ② k=0 df2=df[pos:pos+maxk]x=③ y=df2['RATE']plt.plot(x,y) #绘制线形图#设置绘图参数,显示如图b所示线形图,代码略(3)由图b可知,GDP增长率最高的年份是 年。 答案 (1)①df.at[i,'GDP']-df.at[i-1,'GDP'] (2)① df.at[i,'RATE']>=t ②pos = i – k③df2['YEAR'] (3)200312.某校区举行优秀学员的评比。教务处统计了本校区的相关数据并存储于“cj.xlsx”文件中,学生数据按照班级先后次序存储,如 1 班之后是 2 班学生数据。文件部分内容如图 a 所示。为分析本次评比的结果情况,编写 Python 程序。请回答下列问题:(1)读取“cj.xlsx”文件,为每个学生补充班级名称(1 班到 4 班),班级人数存储在列表 num 中。请在划线①②③处填入合适的代码。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['KaiTi','SimHei']num=[29,31,30,32] #存储 4 个班级的人数df=pd.read_excel("① ") k=0② for i in df.index: if i==end: ③ end+=num[k] df.at[i,"班级"]=str(k+1)+ "班"(2)优秀学员的评比规则为:学业分数不低于 80 分,德育等级为 A。统计每个班级优秀学员人数,并绘制图表显示,如图 b 所示,部分 Python 程序如下。请在划线处填入合适的代码。dfs=df[df["学业分数"]>=80]dfs=① dfg=dfg=dfg.rename(columns={"学业分数":"人数"})#将"学业分数"重命名为"人数"plt.bar(dfg["班级"],② ) plt.title("班级优秀人员对比图")plt.xlabel("班级")plt.ylabel("人数");plt.show() (3)加框处应填入的代码是 。(单选,填字母) A.dfs.groupby("班级",as_index=False).学业分数.count()B.dfs.groupby("班级",as_index=False).学业分数.sum()C.dfs.groupby("班级",as_index=True).学业分数.count()D.dfs.groupby("班级",as_index=True).学业分数.sum()答案 (1)①cj.xlsx ②end=num[0] 或 end=num[k] ③k=k+1 (2)① dfs[dfs["德育等级"]=="A"] 或 dfs[dfs.德育等级=="A"] ②dfg["人数"]或 dfg.人数 (3)A验收卷(四) 数据处理与应用(考试时间40分钟;满分50分)一、选择题(本大题共8小题,每小题2分,共16分,在每小题给出的四个选项中,只有一个符合题目要求,多选、少选、不选均不得分)1.下列关于大数据处理的说法,正确的是 ( )A.对动态数据无法进行可视化表示B.在中文文本分析中采用短语或段落作为表示文本的特征项C.大数据数据类型多,无法分析全体数据,只能分析抽样数据D.Hadoop面向大规模的批量处理,适用于处理静态数据,不适用于流数据答案 D2.某大型购物网站收集了用户浏览网站的数据用于广告个性化实时推荐,下列处理方式中合理的是 ( )A.应当使用统计分析软件进行数据分析B.应当选用针对流数据的实时计算C.应当选用针对图结构数据的图计算D.应当选用针对静态数据的批处理计算答案 B解析 本题考查大数据的相关知识。用户浏览网站的数据,属于流数据,是时时刻刻在变化的,故某大型购物网站收集了用户浏览网站的数据用于广告个性化实时推荐时,应当选用针对流数据的实时计算。3.有如下 Python 程序段:import pandas as pddata=[["小嘉","男",97],["小浙","男",89],["小温","女",98],["小华","女",89],["小杭","男",99]]df=pd.DataFrame(data,columns=["姓名","性别","成绩"])下列选项左侧语句与右侧输出结果不一致的是 ( )A. print(df.groupby("性别",as_index=False).mean()) 成绩性别女 93.5男 95.0B. print(df[df["成绩"]>97]) 姓名 性别 成绩2 小温 女 984 小杭 男 99C. print(df.sort_values("成绩")) 姓名 性别 成绩1 小浙 男 893 小华 女 890 小嘉 男 972 小温 女 984 小杭 男 99D. print(df.drop(2)) 姓名 性别 成绩0 小嘉 男 971 小浙 男 893 小华 女 894 小杭 男 99答案 A4.数据文件“data.csv”中包含“A”“B”“C”3列1000行数据,下列Python程序段用于实现对象df1中数据按“B”列降序排序,程序中划线处应填写的语句是 ( )import pandas as pddf=pd.read_csv('data.csv') A.df1=df.sort_values('B')B.df=df1.sort_values('B')C.df1=df.sort_values('B',ascending=True)D.df1=df.sort_values('B',ascending=False)答案 D解析 本题考查Pandas数据结构,采用sort_values方法对参数中列进行排序,ascending省略或为True为升序。5.数据文件“data.csv”中储存了浙江省各地苹果的零售价格数据,数据包含“日期”“地区”“品名”“价格”等6列200000行,处理该文件中数据的Python程序段如下︰import pandas as pddf=pd.read_csv('data.csv')df1=df.groupby('地区').价格.mean()关于该程序段,下列说法正确的是 ( )A.DataFrame对象df中仅存储了文件“data.csv”中的“价格”列数据B.对象df1中数据以“地区”为主要关键字﹑“价格”为次要关键字排序C.读取文件“data.csv”中的数据,计算全部“价格”数据的平均值D.读取文件“data.csv”中的数据,计算各地区“价格”数据的平均值答案 D解析 本题考查Pandas数据结构。A选项对象df存储了数据表中所有信息,因此包含"日期"等信息。B选项对象df1并没有进行排序,而是按地区进行分组,并统计各个地区的平均价格。6.下列关于中文分词方法的描述中,属于基于统计的分词方法的是 ( )A.让计算机模拟人的理解方式,根据大量的资料和规则进行学习,然后进行分词B.在分析句子时,与词典上的词语进行对比,词典中出现的就划分为词C.依据词语与词语之间的分隔符号进行分词D.依据上下文中相邻字出现的频率统计,同时出现的次数越高组成一个词的概率就越高答案 D解析 基于统计的分词方法是依据上下文中相邻字出现的频率统计,同时出现的次数越高越可能组成一个词,因此答案为D。7.下列关于数据可视化的描述中,错误的是 ( )A.标签云是文本可视化的一种方式B.数据可视化只能将数据以静态图形图像等形式表示C.数据可视化能直观的呈现数据,容易发现数据中蕴含的信息D.数据可视化增强了数据的解释力与吸引力答案 B解析 数据可视化是将数据以图形图像等形式表示,可以是以静态图形图像呈现,也可以具有交互性的动态形式呈现,因此,错误的是B。8.下列关于大数据与大数据处理的说法,不正确的是 ( )A.大数据价值密度低,“提纯”大数据可以让其发挥更大的价值B.高速公路中实时产生的车流量数据属于静态数据C.词频统计是文本数据处理中特征提取的一种方法D.经过处理后的大数据,利用可视化技术,有助于快捷观察与追踪数据答案 B解析 高速公路中实时产生的车流量数据是不间断地、持续到达的,属于流数据。二、非选择题(本大题共4小题,共34分)9.小明设计了一手环,实现对体温的连续监控,4名志愿者的体温检测情况(部分数据隐藏,数据保存在“data.xls”中)如图所示:(1)小明需对图所示的数据进行整理,下列说法正确的是 。(多选,填字母) A.数据整理就是要删除不正确的数据B.E81单元格的数据存在数据异常C.“班级”列数据格式不一致,应将数据进行格式转换D.第4行和第5行存在数据重复,应删除其中一行E.第4行和第5行存在数据重复,应将数据合并(注:全部选对的得2 分,选对但不全的得1 分,不选或有选错的得0 分)(2)对第4和第5行数据处理后,用Python对表格数据进行处理,程序代码如下所示,请在划线处填入正确的语句。import pandas as pdimport matplotlib.pyplot as pltdf=pd.read_excel('data.xls')df=① #删除“班级”列数据后处理 for i in range(len(df)): #将体温列不正常的数据去除 if ② >42: #一般人体体温不超过42度 df=df.drop(i)df1=df.groupby(③ ,as_index=False) #统计每个人这段时间的平均体温df1=round(df1.体温.mean(),2)#并保留两位小数print(df1)答案 (1)BCE (2)①df.drop('班级',axis=1) ②df.at[i,'体温'] ③'姓名'10.某学校为规范引导学生合理消费,统计各班的一卡通消费数据。小张收集了2022学年第二学期第6周食堂消费数据保存在文件“student06.xlsx”中,部分界面如图a所示。他利用Python程序从消费数据中找出全校单次消费金额最高的记录,并统计学校各班级数据,最后以图表的形式呈现小卖部消费前五的班级如图b所示。实现上述功能的Python程序如下,请在划线处填入合适的代码。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']df=pd.read_excel("student06.xlsx")#找出全校单次消费金额最高的记录max_xf=0for i in df.index: if ① : max_xf=df.at[i,"消费金额"] max_bj_name=df.at[i,"班级"] max_stu_name=df.at[i,"姓名"]print(max_bj_name,"的同学",② ,"单次消费最高。") #以图表的形式呈现小卖部消费前五的班级,如图 b 所示。df1=df[③ ] #筛选出小卖部的数据 df1=df1.groupby("班级",as_index=True).sum()df1=df1.sort_values(④ ).head(5) x=⑤ y=df1.消费金额plt.bar(x,y)plt.title("第 6 周小卖部消费前五的班级")plt.show()答案 ①df.at[i,"消费金额"]>max_xf或df.at[i,"消费金额"]>=max_xf ②max_stu_name③df["消费类型"]=="小卖部"或df.消费类型=="小卖部"④"消费金额",ascending=False ⑤df1.index11.小林收集了2000年-2022年浙江省的GDP数据,并存储于“info.csv”文件,部分数据如图a所示。为统计分析近20多年来浙江省的经济情况,编写Python程序。请回答下列问题。(1)定义js函数,功能为:计算每年GDP的同比增长率(=(本年度GDP-上一年GDP)/上一年GDP*100)。函数代码如下,请在划线处填入合适的代码。def js(df): for i in range(1,len(df)): m= df.at[i,'RATE'] =round(m/df['GDP'][i-1]*100,2) return df(2)统计2000年-2022年期间浙江省GDP增长率在8%及以上的最长持续时间(若有多个长度相同的最大值,输出最新的时间段),并绘制线形图,部分Python程序如下,请在划线处填入合适的代码。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']df=pd.read_csv('info.csv',encoding='gbk')df=js(df)t=8k=maxk=pos=0for i in range(len(df)): if ① : k+=1 else: if k>=maxk: maxk=k ② k=0 df2=df[pos:pos+maxk]x=③ y=df2['RATE']plt.plot(x,y) #绘制线形图#设置绘图参数,显示如图b所示线形图,代码略(3)由图b可知,GDP增长率最高的年份是 年。 答案 (1)①df.at[i,'GDP']-df.at[i-1,'GDP'] (2)① df.at[i,'RATE']>=t ②pos = i – k③df2['YEAR'] (3)200312.某校区举行优秀学员的评比。教务处统计了本校区的相关数据并存储于“cj.xlsx”文件中,学生数据按照班级先后次序存储,如 1 班之后是 2 班学生数据。文件部分内容如图 a 所示。为分析本次评比的结果情况,编写 Python 程序。请回答下列问题:(1)读取“cj.xlsx”文件,为每个学生补充班级名称(1 班到 4 班),班级人数存储在列表 num 中。请在划线①②③处填入合适的代码。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['KaiTi','SimHei']num=[29,31,30,32] #存储 4 个班级的人数df=pd.read_excel("① ") k=0② for i in df.index: if i==end: ③ end+=num[k] df.at[i,"班级"]=str(k+1)+ "班"(2)优秀学员的评比规则为:学业分数不低于 80 分,德育等级为 A。统计每个班级优秀学员人数,并绘制图表显示,如图 b 所示,部分 Python 程序如下。请在划线处填入合适的代码。dfs=df[df["学业分数"]>=80]dfs=① dfg=dfg=dfg.rename(columns={"学业分数":"人数"})#将"学业分数"重命名为"人数"plt.bar(dfg["班级"],② ) plt.title("班级优秀人员对比图")plt.xlabel("班级")plt.ylabel("人数");plt.show()(3)加框处应填入的代码是 。(单选,填字母) A.dfs.groupby("班级",as_index=False).学业分数.count()B.dfs.groupby("班级",as_index=False).学业分数.sum()C.dfs.groupby("班级",as_index=True).学业分数.count()D.dfs.groupby("班级",as_index=True).学业分数.sum()答案 (1)①cj.xlsx ②end=num[0] 或 end=num[k] ③k=k+1 (2)① dfs[dfs["德育等级"]=="A"] 或 dfs[dfs.德育等级=="A"] ②dfg["人数"]或 dfg.人数 (3)A验收卷(四) 数据处理与应用(考试时间40分钟;满分50分)一、选择题(本大题共8小题,每小题2分,共16分,在每小题给出的四个选项中,只有一个符合题目要求,多选、少选、不选均不得分)1.下列关于大数据处理的说法,正确的是 ( )A.对动态数据无法进行可视化表示B.在中文文本分析中采用短语或段落作为表示文本的特征项C.大数据数据类型多,无法分析全体数据,只能分析抽样数据D.Hadoop面向大规模的批量处理,适用于处理静态数据,不适用于流数据2.某大型购物网站收集了用户浏览网站的数据用于广告个性化实时推荐,下列处理方式中合理的是 ( )A.应当使用统计分析软件进行数据分析B.应当选用针对流数据的实时计算C.应当选用针对图结构数据的图计算D.应当选用针对静态数据的批处理计算3.有如下 Python 程序段:import pandas as pddata=[["小嘉","男",97],["小浙","男",89],["小温","女",98],["小华","女",89],["小杭","男",99]]df=pd.DataFrame(data,columns=["姓名","性别","成绩"])下列选项左侧语句与右侧输出结果不一致的是 ( )A. print(df.groupby("性别",as_index=False).mean()) 成绩性别女 93.5男 95.0B. print(df[df["成绩"]>97]) 姓名 性别 成绩2 小温 女 984 小杭 男 99C. print(df.sort_values("成绩")) 姓名 性别 成绩1 小浙 男 893 小华 女 890 小嘉 男 972 小温 女 984 小杭 男 99D. print(df.drop(2)) 姓名 性别 成绩0 小嘉 男 971 小浙 男 893 小华 女 894 小杭 男 994.数据文件“data.csv”中包含“A”“B”“C”3列1000行数据,下列Python程序段用于实现对象df1中数据按“B”列降序排序,程序中划线处应填写的语句是( )import pandas as pddf=pd.read_csv('data.csv') A.df1=df.sort_values('B')B.df=df1.sort_values('B')C.df1=df.sort_values('B',ascending=True)D.df1=df.sort_values('B',ascending=False)5.数据文件“data.csv”中储存了浙江省各地苹果的零售价格数据,数据包含“日期”“地区”“品名”“价格”等6列200000行,处理该文件中数据的Python程序段如下︰import pandas as pddf=pd.read_csv('data.csv')df1=df.groupby('地区').价格.mean()关于该程序段,下列说法正确的是 ( )A.DataFrame对象df中仅存储了文件“data.csv”中的“价格”列数据B.对象df1中数据以“地区”为主要关键字﹑“价格”为次要关键字排序C.读取文件“data.csv”中的数据,计算全部“价格”数据的平均值D.读取文件“data.csv”中的数据,计算各地区“价格”数据的平均值6.下列关于中文分词方法的描述中,属于基于统计的分词方法的是( )A.让计算机模拟人的理解方式,根据大量的资料和规则进行学习,然后进行分词B.在分析句子时,与词典上的词语进行对比,词典中出现的就划分为词C.依据词语与词语之间的分隔符号进行分词D.依据上下文中相邻字出现的频率统计,同时出现的次数越高组成一个词的概率就越高7.下列关于数据可视化的描述中,错误的是 ( )A.标签云是文本可视化的一种方式B.数据可视化只能将数据以静态图形图像等形式表示C.数据可视化能直观的呈现数据,容易发现数据中蕴含的信息D.数据可视化增强了数据的解释力与吸引力8.下列关于大数据与大数据处理的说法,不正确的是( )A.大数据价值密度低,“提纯”大数据可以让其发挥更大的价值B.高速公路中实时产生的车流量数据属于静态数据C.词频统计是文本数据处理中特征提取的一种方法D.经过处理后的大数据,利用可视化技术,有助于快捷观察与追踪数据二、非选择题(本大题共4小题,共34分)9.小明设计了一手环,实现对体温的连续监控,4名志愿者的体温检测情况(部分数据隐藏,数据保存在“data.xls”中)如图所示:(1)小明需对图所示的数据进行整理,下列说法正确的是 。(多选,填字母) A.数据整理就是要删除不正确的数据B.E81单元格的数据存在数据异常C.“班级”列数据格式不一致,应将数据进行格式转换D.第4行和第5行存在数据重复,应删除其中一行E.第4行和第5行存在数据重复,应将数据合并(注:全部选对的得2 分,选对但不全的得1 分,不选或有选错的得0 分)(2)对第4和第5行数据处理后,用Python对表格数据进行处理,程序代码如下所示,请在划线处填入正确的语句。import pandas as pdimport matplotlib.pyplot as pltdf=pd.read_excel('data.xls')df=① #删除“班级”列数据后处理 for i in range(len(df)): #将体温列不正常的数据去除 if ② >42: #一般人体体温不超过42度 df=df.drop(i)df1=df.groupby(③ ,as_index=False) #统计每个人这段时间的平均体温df1=round(df1.体温.mean(),2)#并保留两位小数print(df1)10.某学校为规范引导学生合理消费,统计各班的一卡通消费数据。小张收集了2022学年第二学期第6周食堂消费数据保存在文件“student06.xlsx”中,部分界面如图a所示。他利用Python程序从消费数据中找出全校单次消费金额最高的记录,并统计学校各班级数据,最后以图表的形式呈现小卖部消费前五的班级如图b所示。实现上述功能的Python程序如下,请在划线处填入合适的代码。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']df=pd.read_excel("student06.xlsx")#找出全校单次消费金额最高的记录max_xf=0for i in df.index: if ① : max_xf=df.at[i,"消费金额"] max_bj_name=df.at[i,"班级"] max_stu_name=df.at[i,"姓名"]print(max_bj_name,"的同学",② ,"单次消费最高。") #以图表的形式呈现小卖部消费前五的班级,如图 b 所示。df1=df[③ ] #筛选出小卖部的数据 df1=df1.groupby("班级",as_index=True).sum()df1=df1.sort_values(④ ).head(5) x=⑤ y=df1.消费金额plt.bar(x,y)plt.title("第 6 周小卖部消费前五的班级")plt.show()11.小林收集了2000年-2022年浙江省的GDP数据,并存储于“info.csv”文件,部分数据如图a所示。为统计分析近20多年来浙江省的经济情况,编写Python程序。请回答下列问题。(1)定义js函数,功能为:计算每年GDP的同比增长率(=(本年度GDP-上一年GDP)/上一年GDP*100)。函数代码如下,请在划线处填入合适的代码。def js(df): for i in range(1,len(df)): m= df.at[i,'RATE'] =round(m/df['GDP'][i-1]*100,2) return df(2)统计2000年-2022年期间浙江省GDP增长率在8%及以上的最长持续时间(若有多个长度相同的最大值,输出最新的时间段),并绘制线形图,部分Python程序如下,请在划线处填入合适的代码。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']df=pd.read_csv('info.csv',encoding='gbk')df=js(df)t=8k=maxk=pos=0for i in range(len(df)): if ① : k+=1 else: if k>=maxk: maxk=k ② k=0 df2=df[pos:pos+maxk]x=③ y=df2['RATE']plt.plot(x,y) #绘制线形图#设置绘图参数,显示如图b所示线形图,代码略(3)由图b可知,GDP增长率最高的年份是 年。 12.某校区举行优秀学员的评比。教务处统计了本校区的相关数据并存储于“cj.xlsx”文件中,学生数据按照班级先后次序存储,如 1 班之后是 2 班学生数据。文件部分内容如图 a 所示。为分析本次评比的结果情况,编写 Python 程序。请回答下列问题:(1)读取“cj.xlsx”文件,为每个学生补充班级名称(1 班到 4 班),班级人数存储在列表 num 中。请在划线①②③处填入合适的代码。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['KaiTi','SimHei']num=[29,31,30,32] #存储 4 个班级的人数df=pd.read_excel("① ") k=0② for i in df.index: if i==end: ③ end+=num[k] df.at[i,"班级"]=str(k+1)+ "班"(2)优秀学员的评比规则为:学业分数不低于 80 分,德育等级为 A。统计每个班级优秀学员人数,并绘制图表显示,如图 b 所示,部分 Python 程序如下,请在划线处填入合适的代码。dfs=df[df["学业分数"]>=80]dfs=① dfg= dfg=dfg.rename(columns={"学业分数":"人数"})#将"学业分数"重命名为"人数"plt.bar(dfg["班级"],② ) plt.title("班级优秀人员对比图")plt.xlabel("班级")plt.ylabel("人数");plt.show()(3)加框处应填入的代码是 。(单选,填字母) A.dfs.groupby("班级",as_index=False).学业分数.count()B.dfs.groupby("班级",as_index=False).学业分数.sum()C.dfs.groupby("班级",as_index=True).学业分数.count()D.dfs.groupby("班级",as_index=True).学业分数.sum() 展开更多...... 收起↑ 资源列表 验收卷(四) 数据处理与应用 课件(共29张ppt)浙教版(2019)必修1.pptx 验收卷(四) 数据处理与应用(含答案)浙教版(2019)必修1.doc 验收卷(四) 数据处理与应用(学生版)浙教版(2019)必修1.doc