资源简介 第 3 章 数据处理与应用3.3 数据分析与可视化教学设计教学背景信息科技是现代科学技术领域的重要部分,主要研究以数字形式表达的信息及其应用中的科学原理、思维方法、处理过程和工程实现。当代高速发展的信息科技对全球经济、社会和文化发展起着越来越重要的作用。义务教育信息科技课程具有基础性、实践性和综合性,为高中阶段信息技术课程的学习奠定基础。信息科技课程旨在培养科学精神和科技伦理,提升自主可控意识,培育社会主义核心价值观,树立总体国家安全观,提升数字素养与技能。教材分析本节课的教学内容选自人教/地图出版社第 3 章 数据处理与应用 3.3 数据分析与可视化,信息技术的发展与普及为我们创造了一个全新的数字化生活环境。它们在给我们带来生活便利的同时,也在逐渐地改变着我们的生活方式。南水北调工程是我国继三峡工程之后,又一个重大水利工程。南水北调工程的主要目的,是将长江流域的水资源科学合理地调配到我国华北和西北部分省市,解决当地水资源短缺问题。2014 年 12 月 12 日,南水北调中线工程正式通水,开始发挥其巨大的经济效益和社会效益。南水北调工程建设得益于我国强大的科技与工程实力,其中包括信息技术的大量应用。不仅每日采集大量数据,同时还要对庞杂的数据进行存储、筛选、加工和分析,以确保整个工程的安全与高效。可以说,没有巨量的科学数据和强大的科技实力做支撑,修建这样一个浩大的工程是难以想象的。同学们,在信息社会中,大量数据的产生和积累,为人们提供了认识这个世界的新方式,但也对人们驾驭数据的能力提出了新挑战。如何利用信息技术有效处理数据,发现并利用其中的价值,已成为信息社会生存的一项基本能力。在本章的学习中,我们将借助信息技术手段采集、分析和可视化数据,通过“用水分析助决策”项目活动,掌握数据处理和应用的基本方法。学情分析此节课针对的对象是高一年级的学生,学生对信息技术的关键技术以及信息技术对生活与学习的影响有一定的了解,但对所学内容只是体验性和经验性的认识。依据解决问题的需要,设计和描述简单算法;利用程序设计语言实现简单算法,解决实际问题。教学目标1.掌握常用的数据分析方法,能根据需要选择恰当的方法进行数据分析。2.了解数据可视化的形式,能选用合适的工具进行数据可视化表达与呈现。3.通过项目研究,感受数据分析和可视化表达对日常生活的影响。教学重点与难点1.数据分析的作用和数据分析常用的四种方法。2.数据可视化的概念、作用、表现形式等。教学方法与教学手段案例分析法、讲授法、任务驱动法。教学过程问题导入提出问题,引发思考:体验探索你能读懂这些数据吗为了解近年来我国水资源状况,访问国家统计局政府网站获得如图3.3.1 所示的数据和图表。思考:1. 利用该网站数据可视化功能,调整水资源数据指标和数据呈现方式,进一步分析不同类型图表所表达信息的异同。2. 根据自己的需求,浏览网站栏目,了解相应的数据,并分析其中蕴含的信息。数据分析采集了所需要的数据,并对数据进行了组织和整理后,为了获得有价值的信息,还需要对数据做进一步的分析。数据分析指用适当的计算方法与工具对收集来的数据进行处理,提取有用信息,形成结论从而支持决策。数据分析的作用数据分析广泛应用于社会各个领域,发挥着日益重要的作用。数据分析可以让我们了解事物的现状、剖析其发展历程和预测未来走向。1. 了解事物的现状通过数据分析,可以帮助我们更好地认识所调研事物的目前状况。例如,通过分析游客人数变化、旅游花费等数据,如图 3.3.2 (参见教材P106)所示,能够了解旅游业当前整体的发展状况,帮助旅游业经营者有针对性地调整经营策略,制订发展方案。2. 剖析事物的发展历程通过数据分析,可以剖析事物的发展历程,了解事物的过去,揭示某些现象产生的原因。例如,分析全国 27 个主要城市近 50 年来月平均降水量和降水天数,再对比相关城市航班正常率的数据,可以发现航班正常率的走向与月降水量和天数呈相反方向变化的趋势。对航空公司、空中交通管理措施和天气等各方面大量历史数据的分析研究,可以帮助管理者找到影响航班正常运行的干扰因素,从而选择最佳的应对措施。3. 预测事物的未来走向通过数据分析,可以预测事物未来可能会发生什么,推断未来的发展趋势,并为制订相应的目标及策略提供依据。目前,利用数据分析进行预测已经应用于各个领域,包括体育赛事预测、用户行为预测、能源消耗预测、交通行为预测和人体健康预测等。例如,通过各个家庭安装的智能电表,对电力的使用状况进行监控,检测出用电模式,从而对用电需求做出预测。数据分析的基本方法从统计应用上讲,数据分析可以分为描述性数据分析、探索性数据分析和验证性数据分析。其中,描述性数据分析侧重于对数据的各种特征进行分析,对变量之间的关系进行估计和描述;探索性数据分析主要用于在数据之中发现新的特征;验证性数据分析侧重于验证已有假设的真伪。常用的数据分析方法有对比分析法、平均分析法和结构分析法等。1. 对比分析法对比分析法也叫比较分析法,是将两个或两个以上的数据进行比较,分析它们的差异,揭示出这些数据所反映的事物规律的方法,是一种常用的分析方法。对比分析法通常用于从数量上展示和说明研究对象规模大小、水平高低、速度快慢及各种关系是否协调等。例如,在商品生产中,已完成商品数量与目标数量的差距对比,本月生产的数量与上月生产数量的对比,同公司各部门间的对比等都是对比分析法的典型应用。对比分析法分为横向和纵向对比两大类。任务完成量与目标量的对比,部门之间、地区之间的对比都是横向对比,而不同时期的比较则为典型的纵向对比。例如,图 3.3.3(参见教材P107)中的全国水资源开发利用综合对比属于横向对比,图 3.3.4 (参见教材P107)中的 2016 年中国创新能力指数数据与上年数据的对比即是纵向对比。2. 平均分析法平均分析法是运用计算平均数的方法来反映总体在一定时间、地点等条件下某一数量特征的一般水平。平均指标中最常用的是算术平均数,如平均身高、平均工资和平均降水量等。图 3.3.5 (参见教材P108)展示了我国 2012—2016 年国内旅游人均消费情况。平均分析法多用于比较同类现象在不同地区、不同行业、不同类型单位等之间的差异程度,分析现象之间的依存关系,进行数量上的推算;也可以对某一现象在不同时间的水平进行比较,以说明现象的发展规律及趋势。3. 结构分析法结构分析法也称构成分析法,是将各个部分与总体进行对比,是分析事物内部的结构和部分与整体之间关系的方法。结构分析法的基本表现形式就是计算结构指标。结构指标即各个部分相对于总体所占的百分比,因此总体中各结构指标的总和等于 100 %。图 3.3.6 (参见教材P108)为某网站的用户使用不同无线网络访问该网站的次数统计情况。可以看出使用 4G 网络访问该网站的占 63.19 %,使用 WiFi 的占 28.08 %,使用3G 网络的占 8.73 %。图中清楚地反映出各部分在总体中所占的百分比。上述几种基本的数据分析方法分别适用不同的情况,在实际应用中,需要根据具体问题合理选取并综合运用。体验数据分析确定了数据分析方法后,我们还需要借助合适的工具才能更快捷地进行数据分析。计算机普及前,数据分析主要依靠人工方式完成。随着计算机的广泛应用,涌现出很多功能强大的数据分析工具,例如电子表格软件、在线数据分析平台和程序设计语言编写的程序等。1. 用电子表格软件进行数据分析电子表格软件可对数据进行格式编辑、统计计算和图表处理等。在电子表格软件中,通常用若干工作表存储数据。图 3.3.7 (参见教材P109)就是使用电子表格软件处理数据的示意图。2. 用在线数据分析平台进行数据分析随着数据规模越来越大,应用范围越来越广,分析数据和挖掘数据价值的需求也越来越多,许多在线数据分析平台应运而生。这些平台集成了多种分析功能,提供了简单易用的交互界面,使得多种数据分析需求得以实现。使用在线数据分析平台分析全国供水情况登录国家统计局网站,查找全国供水数据,体验在线数据分析平台分析数据的过程和方法。1. 注册账号并登录,熟悉国家统计局网站在线数据分析平台的使用方式;2. 查找全国供水数据,根据平台的提示,尝试完成在线数据分析,查看并保存分析结果;3. 分析该平台的数据分析功能,有哪些优缺点。数据分析除了可以对数值型数据进行统计和描述以外,还可以对文本、图像等数据进行分析。常用的文本分析有字词频率统计、语句分词、句法分析、分类分析和情感分析等。例如,对一段描述南水北调工程的文字进行文本分析后,得到的结果如图 3.3.8(参见教材P109)所示。阅读拓展政府数据网站在互联网浪潮的推动下,政府机构向信息化、网络化和智能化转变已成为一种趋势。中央和各级政府机构高度重视信息公开和数据发布,并在其官方网络平台为大众提供数据服务。例如,中华人民共和国国家统计局专门设立了国家数据网站,用于发布我国各级各类统计数据,如图 3.3.9 (参见教材P110)所示。国家数据网站不仅提供数据的下载,还可以对数据进行在线处理,如编辑、计算和生成图表等。3. 使用编程工具进行数据分析除了使用现成的工具分析数据,也可以根据需要编写程序进行数据分析。例如,可以使用 Python 语言编写程序对公共交通运营数据进行分析,找出不同线路的发展特点,针对线路的历史成本,分析线路发展的基本规律,从而找出有用的信息;还可以编写程序分析海量用户行为数据,从而了解用户的真实需求,为用户建立独有的行为档案,提供个性化服务。例 1:编写程序统计分析南水北调中线工程各地区水资源情况。问题:分析南水北调中线工程各地区水资源数据,有助于了解我国水资源的分布情况。将采集并整理后的中线工程各地区水资源数据保存为“07-16nsbd.csv”文件,如图3.3.10 (参见教材P110)所示。编写程序,计算中线工程各地区 2007—2016 年水资源总量的平均值,并将结果保存到 CSV 文件中。(1)分析问题已 知 条件:已有中线工程各地区水资源数据文件“07-16nsbd.csv”,其中包含了2007—2016 年相关地区水资源数据。求解目标:统计计算中线工程各地区 2007—2016 年水资源总量的平均值,将统计结果保存为 CSV 文件“nsbd_avg.csv”,并显示中线工程各地区十年来的平均水资源总量。已知与未知的关系:可以根据中线工程各地区水资源数据文件“07-16nsbd.csv”中的2007—2016 年水资源数据,计算出各地区这十年水资源总量的平均值。(2)规划问题求解流程首先导入用到的库,读入“07-16nsbd.csv”文件中的全部数据,然后统计各地区十年水资源总量的平均值,生成一个数据表,并将统计结果写入 CSV 文件。(3)编程实现与调试进行编程实现,程序示例如下: (4)保存文件,调试运行程序程序运行结果如图 3.3.11 (参见教材P111)所示。通过以上统计分析,用数据展现了我国部分地区水资源的实际情况:南方地区湖北省水资源较为丰富,而北京市、河北省等北方地区水资源相对匮乏。因此,政府实施南水北调工程意义重大,有助于优化我国水资源配置,缓解北方地区水资源短缺局面,促进经济和社会的可持续发展。实践活动编写程序计算京津地区人均水资源量中国水资源短缺,且时空分布不均,南方水多,北方水少。例如,黄淮海流域水资源严重短缺,人均水资源量约为全国平均水平的 21%。请利用前面收集到的全国各地区水资源数据,计算京津地区人均水资源量是全国平均水平的百分之几。1. 分析问题,写出已知条件和求解目标。2. 设计算法并编程实现。3. 依据水资源数据,从某个角度分析实施南水北调工程的必要性。技术支持DataFrame 的方法DataFrame 具有一组常用的汇总和统计方法,包括计数、求和、求平均值等相关计算。1. pandas.DataFrame.count格式:pandas.DataFrame.count( )用于返回 DataFrame 的个数。默认按列统计非空数据的个数,axis=1 表示按行统计非空数据的个数。2. pandas.DataFrame.sum格式:pandas.DataFrame.sum( )用于返回所有列的和。 axis=1 表示对各行的数据计算和。3. pandas.DataFrame.mean格式:pandas.DataFrame.mean( )用于返回所有列的平均值。 axis=1 表示对各行的数据计算平均值。上述方法的具体应用举例如下:import pandas as pdvalues = [[38.8, 38.2], [27.2, 25.7]]areas = ["北京", "天津"]years = ["2016", "2015"]df = pd.DataFrame(values, areas, years)print ("DataFrame中的数据为:", "\n", df, "\n")df1 = df.sum()print("按列求和结果为:", "\n", df1)该程序将计算 DataFrame 各列的和,运行结果如图 3.3.12 (参见教材P113)所示。若添加 axis=1,将程序倒数第二行修改为 df1 = df.sum(axis = 1),最后一行中的“按列求和”修改为“按行求和”,程序将计算 DataFrame 各行的和,运行结果如图 3.3.13 (参见教材P113)所示。数据可视化数据可视化是以图形、图像和动画等方式直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等,便于人们更好地理解数据。可视化的作用体现在多个方面,如观察事物变化的趋势、揭示想法和关系、总结或汇聚数据、形成论点或意见等。例如,国家统计局网站中以可视化的形式呈现的全国交通运输状况,如图 3.3.14 (参见教材P113)所示。其中,各柱形的高低呈现了各年的货物运输总量情况,折线点的变化反映出运输量增长速度在几年内的变化趋势。数据可视化的形式数据可视化的形式丰富多样,常见的有图表、词云等。例如,图 3.3.15 (参见教材P114)形象地展示了某公交线路的路线及客流情况。图中的蓝色线条显示了公交车行进的路线,右侧的柱形图显示了各站点乘车的人数,折线图显示出客流随时间的变化情况。实践活动了解数据可视化了解各种数据可视化形式,体验数据可视化效果和魅力。1. 访问国家统计局网站,了解数据可视化在国家数据统计分析领域的应用,如图 3.3.16(参见教材P114) 所示,体验数据可视化效果。2. 上网查找数据可视化的网站,熟悉各种数据可视化形式。3. 举例说明数据可视化效果,填入表 3.3.1 中。表 3.3.1 数据可视化效果可视化形式 示例 包含的信息 图表 词云 ...4. 分析上述数据可视化效果可以使用什么工具来实现。数据可视化的实现数据可视化帮助人们形象地获取其中的信息。我们可以使用多种形式对数据进行可视化。1. 用图表将数据可视化图表是数据处理中常用的数据可视化形式之一。常用的图表包括折线图、柱形图、饼图、散点图和雷达图等。各种图表呈现数据的形式各有特点,应该根据实际需要选择不同的图表进行数据呈现。折线图:折线图可显示随时间而变化的连续数据,常用于分析相等时间间隔下数据的发展趋势。图 3.3.17 (参见教材P115)呈现了 2017 年 2 月—2018 年 1 月鲜果类居民消费价格的变化趋势。柱形图:通常用于显示一定范围内数据的变化情况或用于各项数据的比较。例如,图 3.3.18 (参见教材P116)可以对比 2012—2016 年全国研究生招生人数。饼图:用于显示各部分数据在总数据中的大小和比例关系。例如,图 3.3.19 (参见教材P116)呈现了2016 年全国各类用水总量在用水总量中所占的比例。散点图:用于表示若干数据系列中各数值之间的关系,以便判断两个变量之间是否存在某种关联。适用于三维数据集,但其中只有两维需要比较。图 3.3.20 展现了 4 种产品每月销售量数据之间的关系。雷达图:用来比较每个数据相对中心的数值变化,适用于多维数据的呈现,且每个维度可以排序。例如,图 3.3.21 (参见教材P117)显示了用户 1 和用户 2 在购买频率、购买商品种类等 5 个维度上的情况。使用 Python 语言可以灵活地制作出以上图表,绘制时可以使用 Matplotlib 库。该库是提供数据绘图功能的第三方扩展库,其 pyplot 子库主要用于实现各种数据图表的绘制。绘图时可使用 import matplotlib.pyplot as plt 语句导入该库,在后续的代码中,则用plt 代替pyplot。例如,使用 pyplot 子库中的画图函数 plot(x,y) 可以绘制折线图,程序如下:该程序运行的效果如图 3.3.22 (参见教材P117)所示。若将 plot(x, y) 修改为 plot(x, y, "o"),则可绘制出散点图(函数中的 "o" 表示的是点形标记符),程序运行效果如图 3.3.23 (参见教材P118)所示。使用 pyplot 子库我们还可以绘制其他图表,也可以为图表添加需要的文字,比如标题、横纵坐标轴的文字说明等。例 2:编写程序用图表可视化呈现南水北调中线工程各地区水资源总量数据。问题:前面,我们已经计算出中线工程各地区水资源总量的 10 年平均值,为便于直观地对比分析中线工程各地区水资源情况,需编写程序绘制适当的图表进行呈现。(1)分析问题已有需要进行可视化的水资源数据,即供水区湖北省数据,受水区河南省、河北省、北京市和天津市数据,需制作图表呈现数据。为了便于对比各区域数据,选择用柱形图呈现。(2)规划问题求解流程首先导入绘制图表需要用到的 Matplotlib 库,然后从“nsbd_avg.csv”文件中读取数据,再绘制图表,设置图表标题和横、纵坐标轴,最后显示出柱形图。(3)编程实现与调试(4)保存文件,调试运行程序程序运行结果如图 3.3.24 (参见教材P119)所示。通过对比图 3.3.24 中的柱形图,能够直观地看到供水区湖北省水资源远远多于受水区各省市。使用类似的方法,我们可以选择适当的图表可视化南水北调工程的各种数据。技术支持pyplot 子库中的函数利用 pyplot 子库中的函数可以创建图表、绘图区域、画线和添加标签等。表 3.3.2 列出了 pyplot 子库中绘制图表常用的部分函数。2. 用词云将数据可视化日常生活中需要处理大量的文本数据,如新闻、邮件、报告等。面对日益加快的工作节奏,人们需要更高效的文本阅读和分析方法。文本可视化通过丰富的图形或图像,以易于理解和接受的方式揭示文本中的信息,因而得到广泛应用。词云是目前常用的关键词可视化形式,它能直接抽取文本中的关键词,并将其按照一定顺序和规律整齐美观地呈现在屏幕上。关键词是从文本的文字描述中提取的语义单元,可反映出文本内容的重点。用词云可视化文本数据可以帮助人们快速地了解文本的内容和特征等信息。词云通常使用字体的大小和颜色表示关键词的重要程度或出现频次。图 3.3.26 是为50 首唐诗制作的词云,字越大表示该关键词使用频率越高。从图中可以看出,50 首唐诗中使用频率比较高的词有长安、门前、子夜等。例 3:编写程序制作词云。问题:《2021 年中国水资源公报》中从水资源量、蓄水动态和水资源开发利用等方面全面描述了我国 2021 年水资源的整体情况。编写程序对《2021 年中国水资源公报》中的文字进行词频分析,并生成词云。(1)分析问题已知条件:已有水资源公报文本文件“2021 年中国水资源公报 .txt”,制作词云需要用到 PIL、NumPy、wordcloud、jieba 和 Matplotlib 等第三方扩展库;求解目标:为“2021 年中国水资源公报 .txt”文件制作词云;已知与未知的关系:利用第三方扩展库可以对已有的文本文件进行分词,生成并绘制词云。(2)规划问题求解流程首先导入用于制作词云的第三方扩展库,再读入报告的文本文件,然后进行分词,随后配置制作词云的各项参数,如字体、背景色和词云形状等,最后生成词云图片。(3)编程实现与调试进行编程实现,程序示例如下(参见教材P122)(4)保存文件,调试运行程序制作完成的词云效果示意如图 3.3.27 (参见教材P122)所示。课后作业1. 现有 5 名篮球队员的比赛数据,如表 3.3.5 所示。试分析比较他们在各项能力上的差异。思考:哪种图表形式适合呈现队员的数据,比较他们在各个能力维度上的强弱。板书设计第 3 章 数据处理与应用3.3 数据分析与可视化1.数据分析2.数据可视化普通高中教科书信息技术 必 修 1 数据与计算编著人民教育出版衬课程教材研究所信息技术课程教材研究开发中心中国地图出版社教材出版分社总 主 编 :祝智庭 樊 磊副总主编 :高淑印 郭 芳 李 锋本册主编 :李 锋 高淑印编写人员 :程建娜 刘姝弘 夏燕萍 王 岚 史弘文 展开更多...... 收起↑ 资源预览