资源简介 第三章 数据处理与应用 章节练习一、选择题1.如图所示的词云图中,反映出某川菜餐厅遭到差评的最大问题是( )A.脏 B.不新鲜 C.服务差 D.难吃2.在分类过程中,能够从样本数据出发, 自动进行分类的数据分析方法是( )A.聚类分析 B.建立模型 C.模型评价 D.关联分析3.数据分析报告不仅是对整个数据处理过程的总结与展示,更能为决策提供参考,下列关于数据分析报告的基本结构说法错误的是( )A.数据分析报告的开篇内容是分析研究背景、目的和思路等B.数据分析报告的正文部分主要是包括具体的分析过程和结果C.数据分析报告的结尾部分包括结论、建议及附录D.数据分析报告通常包括开篇、正文、结尾和交流四个部分4.数据分析的过程不包括( )A.根据分析直接得出相应的结论B.根据分析的目标提出假设C.选择恰当的分析方法进行分析D.验证假设是否正确5.数据处理的一般过程是( )A.采集—整理—可视化表达-分析 B.采集—整理—分析-可视化表达C.采集—可视化表达—整理-分析 D.采集—分析—整理—可视化表达6.单元学习完成后,小明同学为了梳理其中的概念,最适合使用的可视化工具是( )A.思维导图 B.图表 C.词云 D.热力图7.在大数据时代,复杂繁多且不同类型的数据大量出现,数据可视化的应用价值越来越明显,下列关于数据可视化的描述不正确的是( )A.数据可视化便于人们对数据的理解B.数据可视化借助于图形化手段,清晰地传达与沟通信息C.Python语言不能实现数据可视化D.数据可视化呈现的方法有多种,不同的类数据类型要挑选合适的呈现方式8.下列选项中,不是数据分析作用的是( )A.预测事物的未来走向B.了解事物的现状C.方便数据的获取D.剖析事物的发展历程9.下列关于数据管理与安全的说法不正确的是( )A.数据的完整性可采用MD5校验方法来验证B.借助云计算与大数据等技术,能提高数据管理水平C.数据安全就是保障数据不被损坏D.为防止系统停止工作时造成数据丢失,可通过容灾系统来解决10.下列选项中,可用来采集互联网数据的工具是( )A.网络爬虫 B.电子表格软件 C.Wi-Fi监控摄像头 D.思维导图工具11.采集的大数据中,常见的数据问题主要是( )①数据缺失 ②数据重复 ③数据量大 ④数据异常A.②③④ B.①③④ C.①②④ D.①②③12.下列做法中,不能有效保障数据安全的是( )A.定期备份数据 B.泄漏他人隐私数据C.进行数据加密 D.不随意连接陌生Wi-Fi13.下列关于图表用途的叙述,正确的是( )A.柱形图适用于表现数据大小关系 B.条形图适用于描述数据之间的变化趋势C.折线图适用于描述数据的比例关系 D.饼图适用于描述数据之间的大小关系14.关于散点图,下列说法正确的是( )A.可呈现变量的频数分布B.可表示两种特征间的相关关系C.可描述变量的变化趋势D.可直观表述出各指标的位置15.题图所示是李琳上学期的成绩,求平均分并做对比后,她选择等级考的科目为物理化学和历史三科,用到的数据分析法是( )时间 物理 化学 生物 政治 历史 地理月考1 80 76 63 66 92 56月考2 82 78 70 69 96 67月考3 86 85 67 71 88 60月考4 89 87 73 65 95 63平均分 84.3 81.5 68.3 67.8 92.8 61.5A.对比分析法、结构分析法 B.结构分析法、平均分析法C.平均分析法、对比分析法 D.图表分析法、结构分析法二、填空题16.K-平均算法属于( )分析方法。17.如下图所示,小申收集了2000-2018年某地的台风数据。台风等级分为5级:热带风暴、强热带风暴、台风、强台风、超强台风,分别对应表中的A级、B级、C级、D级、E级。year A级 B级 C级 D级 E级2000 6 2 9 3 32001 6 1 12 5 22002 5 4 4 12 12003 2 5 5 6 32004 7 3 6 11 22004 7 3 6 11 22005 3 6 2 9 3… … … … … …小申在撰写数据分析报告时,绘制了“2000-2018年之间台风总数数量”的箱形图,请帮助小申进行分析。18.数据可视化表达的呈现方式有很多,小明把高中同学“大学所在城市”数据,生成一个词云图,根据词云图可以知道,小明同学去 城市上大学的最多。19.请列举出五个数据可视化表达的常见图表名称 。20.词云是对文本数据进行分析处理后的可视化形式。某同学采集微信好友签名制作了如图所示的词云。观察词云图,分析并写出至少三个出现频率较高的词语 。三、判断题21.思维导图、演示文稿、搜索引擎等工具,均属于数字化可视化表达工具。( )22.数据可视化表达的工具包含 Seabom 、Bokeh 等。( )23.做好数据备份和数据加密,就不用担心数据安全问题,数据一定会万无一失。( )24.数据分析中采取调查问卷,问题设计越多,得到的信息越多。( )25.WPS表格、数据库、Python、Photoshop等都是常见的数据分析工具。( )四、操作题26.为了完善某学校食堂管理、持续提高食堂服务质量,让全校师生更加精神饱满地开展工作、学习,对学校食堂进行了一些调查,调查项目共5项(具体内容略)。学校后勤管理谢老师收集了12个班级的调查结果,分别存储在“dy01.csv”、“dy02.csv”、…、“dy12.csv”等12个文件中(如图a所示),每个文件部分界面如图b所示。 图a 图b现需要分析12个班级学生对这5个问题的选“A”情况。谢老师用Python的pandas模块编写了以下代码,实现相关问题的解决。请回答下列问题。(1)定义了fun_A()函数实现了统计某个班级5个问题的选“A”的人数情况。Python程序代码如下,请在划线处填入合适代码。import pandas as pddef fun_A(file):df=pd. read_csv(file)A_list=[]for i in df. columns[1:]:j=0c=0while jif :c+=1j+=1A_list. append(c)return A_list(2)调用上述函数,处理12个班级每个问题的选“A”的总人数,Python程序代码如下,请在划线处填入合适代码。ans_list=[]s="010203040506070809101112"for i in range(0, len (s) -1, 2):filename="dy"+ ① +"~. csv"res=fun_A(filename)ans_list. append(res)x=["问题1","问题2",“问题3","问题4","问题5"]y=[0,0,0,0,0]for i in range (5):s=0 #每个问题选A的人数for j in range (12): ②y[i]=s(3)经上述处理后,接着以图的形式汇报结果(如图c所示),Python程序代码如下,请回答下列问题。import matplotlib. py plot as pltplt. rcParams['font. sans-serif’] =[’SimHei’] #图表显示中文字体plt. title ("每个问题选A的总人数")plt. legend ()plt. show()加框处代码合适的是 (单选,填字母)A.plt. bar (x, y) B.plt. bar (x, y, label=’A选项’)C. plt. plot (x, y) D.plt. plot (x, y, label=’A选项’)(4)调查数据的有效问卷共550份,从图c中可以观察出有 (填数字)个问题的选“A”总人数低于60%。每个问题选A的总人数图c27.某地高中的技术选考数据,保存在“jsxk.xls”文件中,如图a所示。图a 图b请回答下列问题:(1)统计各学校技术选考人数占本校总人数的比例,找出占比最高的前5所学校并绘制柱形图,如图b所示。部分Python程序如下,请在划线处填写合适的代码。import pandas a spdimport matplotlib.py plot as plt#图表支持中文字体显示,代码略df=pd.read_excel("jsx k.xls",dtype={'学校代码':'string'}) #学校代码列为字符串df1=df. groupby(" ",as_index=False)0.count() #按学校统计人数df 1=df1. rename(columns={'姓名':'学生总数'}) #重命名列df1['技术比例'] =round( /df1['学生总数']*100,2)dfl=dfl. sort_values('技术比例',ascending=False).head(5)plt.title('技术选考比例前5的学校')plt.bar( )plt. show()(2)在本问题的解决中,为了探究函数groupby(),某同学编写了自定义函数zdygroupby(),其功能为统计各校技术选考总人数,并以字典的形式返回。函数代码如下,请在划线处填写合适的代码。(注:代码中1st为二维列表,列表中每个元素包含3个数据项,格式如[['201901','顾筱扬',NaN],['201901','俞凯睿',1.0],['201901',陈丹祺',1.0]……])def zdygroupby(1st):dic={}for row in lst:if row[2] ==1:if :dic[row[0] ] = 1else:dic[row[0] ] += 128.某校学生期末考试成绩利用Excel处理,数据存储在“cj.xlsx”文件中,部分数据如图a所示,张三老师利用该数据展开了数据的统计分析与可视化呈现。图a请回到下列问题:(1)导入模块,创建DataFrame对象,计算每个学生总分列,则①划线处,填入的语句是 (单选,填字母)A.df['总分']=df.count(axis=0) B.df['总分']=df.count(axis=1)C. df['总分']=df.sum(axis=0) D.df['总分']=df.sum(axis=1)import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #显示中文字符,字体为黑体df=pd.read_excel("cj.xlsx")df=df.drop("考号",axis=1) #删除考号一列①________(2)在df对象中显示出总分成绩大于等于300的学生,正确的语句是 (单选,填字母)A.print(df[df.总分>=300]) B.print(df.总分>=300)C.print(df[df>=300]) D.print(df[300:])(3)按照班级分组计算各班总分平均分,从大到小显示总分平均分最高的前三个班级,在划线处填入合适代码。df1=df.groupby("班级",as_index=False).mean()df2=df1.sort_values("总分",ascending= ) s=df2.head(3)print(s)(4)利用matplotlib.pyplot绘制柱状图,如图b所示,在划线处填入合适代码。图bplt.figure()plt.bar (( )) plt.title("总分平均分最高的三个班级")plt.ylim(180,300) #设置 y 坐标轴的刻度plt.show()29.李老师收集了高三年级某次考试语数外成绩,并保存在scores.xlsx中,数据表如图a所示:李老师用Python编写了一个程序,对数据进行分析处理,输出总分大于等于260分的学生信息,并直观显示英语前三名的分数情况,生成了如图b所示的图表。Python程序代码如下,请在划线处填上合适的代码:import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #使图形中的中文编码正常显示df=pd.read_excel("scores. xlsx" )df["总分"] = # 计算总分列数据#下行代码:输出总分大于等于260分的学生信息print( df [ ] )g=df.groupby("班级",as_index=False)print(g.英语.mean())df1=df.sort_values("英语”, )plt.title("英语成绩前三名分数情况")x=df1[0:3].姓名y=df1[0:3].英语plt.bar(x,y)plt.legend()plt.30.项目:探究高一各学科相关性分析【项目情境】在信息化浪潮的推动下,互联网技术不断发展,云计算、移动互联网、大数据和人工智能等新兴技术崭露头角。使用数据挖掘相关技术对中学教学活动中产生的数据进行收集与处理,获取有利于教学的相关信息,也是推进智慧教育的举措之一。在教学过程中,学科考试成绩能够在一定程度反映学生的认知发展水平,某校对高一年级学生的成绩进行数据处理,分析各学科之间的关联度找出优势学科,对教学及学生选科有重要的参考价值。【项目综述】概述项目目的、方法和过程。根据要求,回答问题。(1)数据分析需要使用恰当的方法和工具,对数据进行各种分析。我们可以通过 寻找数据之间的关联性或相关性,可以通过 在分类标准未知的情况下进行数据自动分类,可以根据分类准则通过 对未知数据进行预测。(选填:数据分类、关联分析、聚类分析)(2)本项目主要通过模拟大数据采集与分析方法,采用 (选填:数据分析关联分析、聚类分类)的方法进行数据分析,试图分析高一年级学生各学科之间的关联度,找出两到三门优势学科,作为指导教学及学生选科的重要参考依据。(3)确定需要收集的数据为历年高-年级期中期末的各学科成绩,在数据收集、发布、传播、共享时,为保护学生的隐私应采用 (选填:数据精度处理、人工干扰、匿名处理、访问控制)等技术手段。(4)选用Python语言作为数据分析工具,需要通过调用诸如标准模块、自定义模块以及第三方扩展库的支持,从而高效的完成数据采集处理分析、可视化。数据分析步骤有①数据呈现②数据分类/关联分析/聚类分析③数据采集④分析报告⑤数据预处理,正确的顺序是 。(写出序号即可)【项目实施】(一)数据采集与预处理图1为记录历年高中各科成绩的部分文件,图2为获取所有高一成绩并写入指定文件“高一考试成绩总.xlsx”的部分程序代码。图3为获取的高一考试成绩的部分数据内容。根据要求,回答问题。 图1 图2 图3(5)观察图2,该程序用 结构嵌套 结构(选填:顺序、选择、循环)描述算法,实现从若干个xlsx文件中筛选出高一成绩并保存为数据文件,其中在Python语言中表示判断数据大小关系的运算符“==”表示 (选填:不等于、等于)。补充程序代码中缺失的语句,应在下划线处填写 。(6)对采集的数据进行有效存储,以便对数据进行分析和使用。海量的数据几乎包含一切形式的结构化、半结构化以及非结构化的数据。网络中的音视频图片、地理位置、网络日志等数据属于 数据,如图133-3,“高一考试成绩_总.xlsx”中的数据属于 数据。(选填:结构化、非结构化)(7)在数据分析之前,需要运用 方法(选填:特征探索关联分析、聚类分析、数据分类)对数据进行预处理,发现和处理缺失值以保证数据的完整,还需要对异常数据进行清理,分析是否有冗余数据等。观察图3,“201”属于 数据,虚线部分属于 数据(选填:缺失值、异常值、冗余值),应当删除数据所在 (选填:行、列)。(8)观察图33-3表格的数据,在收集数据的过程中,你认为哪些数据可以不采集?为什么?(二)数据分析与可视化运用Python语言编程进行数据分析与可视化表达,分析部分结果如图4、5。根据要求,回答问题。 图4 图5(9)观察图4,该校学生地理、物理、生物同时优秀的概率最 ,政治、物理、化学同时优秀的概率较低。(10)为便于理解数据之间的关系,使用数据可视化工具可以图表形式直观呈现。如折线图可以表示关于 的分析、散点图可以表示关于 的分析、数据地图可以表示关于 的分析(选填;逻辑关系空间关系、趋势)。如图5所示选用 图将数据分析可视化呈现。(11)下列关于数据可视化的描述中,正确的是 (多选)A.可视化也可以将数据以地图动画等形式表示B.可视化可以有效提升数据分析的效率C.可视化可以让人们快速抓住要点信息D.可视化可以帮助人们发现数据背后的价值(三)分析报告在数据分析中,使用数据可视化工具可以直观的呈现数据之间的关系,寻找数据之间的内在规律,最终实现数据的应用。(12)观察图5,说说你从图中发现了什么?挖掘出哪些信息 ?(13)结合自己的学习和生活,谈一谈数据的重要性。(100字左右)参考答案:1.B2.A3.D4.A5.B6.A7.C8.A9.C10.A11.C12.B13.A14.B15.C16.聚类17.大部分年份的台风总数数量处于22.5~25.0,存在异常年份的台风总数数量小于15.018.北京19.饼图、条形图、折线图、散点图、雷达图、词云图、热力图等。20.祖国 努力 爱 富强 分享等21.错误22.正确23.错误24.错误25.错误26.df[i][j]=="A" s[i:i+2] s=s+ans_list[i][j] 或 s+=ans_list[i][j] B 227.学校代码 df1[‘技术’] df1.学校代码,df1.技术比例 row[0] not in dic或not row[0] in dic return dic28.D A False s.班级,s.总分 或 s['班级'],s['总分']29.df["语文"]+ df["数学"]+ df["英语"] df.总分>=260 ascending=False show()30.关联分析 聚类分析 数据分类 关联分析 匿名处理 ③⑤②①④ 循环 选择或分支 等于 ”高一” 非结构化 结构化 特征探索 异常值 缺失值 行 姓名和班级数据可以不采集,原因是这两列数据不影响数据分析结果,而且涉及个人隐私。 高 趋势 逻辑关系 空间关系 柱形(状) ABCD 由图5可知,后三项均包含物理科目,所在的组合优秀率均比较高,可挖掘出该班学生物理科目均比较优秀。 略 展开更多...... 收起↑ 资源预览