3.2 数据采集与整理 教学设计 2023—2024学年人教_中图版(2019)高中信息技术必修1

资源下载
  1. 二一教育资源

3.2 数据采集与整理 教学设计 2023—2024学年人教_中图版(2019)高中信息技术必修1

资源简介

第 3 章 数据处理与应用
3.2 数据采集与整理
教学设计
教学背景
信息科技是现代科学技术领域的重要部分,主要研究以数字形式表达的信息及其应用中的科学原理、思维方法、处理过程和工程实现。当代高速发展的信息科技对全球经济、社会和文化发展起着越来越重要的作用。
义务教育信息科技课程具有基础性、实践性和综合性,为高中阶段信息技术课程的学习奠定基础。信息科技课程旨在培养科学精神和科技伦理,提升自主可控意识,培育社会主义核心价值观,树立总体国家安全观,提升数字素养与技能。
教材分析
本节课的教学内容选自人教/地图出版社第 3 章 数据处理与应用 3.2 数据采集与整理,信息技术的发展与普及为我们创造了一个全新的数字化生活环境。它们在给我们带来生活便利的同时,也在逐渐地改变着我们的生活方式。
南水北调工程是我国继三峡工程之后,又一个重大水利工程。南水北调工程的主要目的,是将长江流域的水资源科学合理地调配到我国华北和西北部分省市,解决当地水资源短缺问题。2014 年 12 月 12 日,南水北调中线工程正式通水,开始发挥其巨大的经济效益和社会效益。南水北调工程建设得益于我国强大的科技与工程实力,其中包括信息技术的大量应用。不仅每日采集大量数据,同时还要对庞杂的数据进行存储、筛选、加工和分析,以确保整个工程的安全与高效。可以说,没有巨量的科学数据和强大的科技实力做支撑,修建这样一个浩大的工程是难以想象的。
同学们,在信息社会中,大量数据的产生和积累,为人们提供了认识这个世界的新方式,但也对人们驾驭数据的能力提出了新挑战。如何利用信息技术有效处理数据,发现并利用其中的价值,已成为信息社会生存的一项基本能力。
在本章的学习中,我们将借助信息技术手段采集、分析和可视化数据,通过“用水分析助决策”项目活动,掌握数据处理和应用的基本方法。
学情分析
此节课针对的对象是高一年级的学生,学生对信息技术的关键技术以及信息技术对生活与学习的影响有一定的了解,但对所学内容只是体验性和经验性的认识。依据解决问题的需要,设计和描述简单算法;利用程序设计语言实现简单算法,解决实际问题。
教学目标
1.掌握数据采集和整理的基本方法,能根据需求选择适当的工具采集与整理数据。
2.应用恰当的方法保护数据,理解对数据进行保护的重要意义,增强数据安全意识。
教学重点与难点
理解和掌握数据整理的目的和方法。
教学方法与教学手段
案例分析法、讲授法、任务驱动法。
教学过程
问题导入
提出问题,引发思考:
体验探索
你能找到这些数据吗
参照黄河流域水资源数据汇总表(2014—2016 年),见表 3.2.1(参见教材P91),收集并填写其他流域(如长江流域、珠江流域、松花江流域等)的水资源数据汇总表,见表 3.2.2(参见教材P91)。
思考:
获取上述数据,可采用哪些方法,怎样才能确保数据的准确性?
数据采集
数据采集,即根据需求采用适当的方法和工具获取所需要的数据。例如,采集交通出行数据用以预测交通情况,采集全国不同流域水资源数据用以分析水资源分布状况等。根据需求获取数据,为进行数据分析及获取有价值的信息奠定基础。
那么,在实际应用中,如何采集所需要的数据呢?通常,数据采集的主要环节包括明确数据需求,确定数据来源,选择采集方法和实施数据采集。通俗地说,就是找什么,去哪儿找,怎么找。
明确数据需求
为提高数据采集的针对性,采集数据前要明确数据需求。可以从需要分析的问题、研究的内容、期望达成的目标等方面来考虑,然后列出需要采集的数据目录。
思考活动
确定“研究我国水资源分布情况”的数据需求
黄淮海流域是我国水资源承载能力与经济社会发展矛盾最为突出的地区,为缓解该流域日益严重的水资源短缺问题,促进经济发展和社会进步,在深入研究和科学分析的基础上,政府做出实施南水北调工程的重大决策。
其中,分析各地区水资源总量、人均水资源量等水资源数据,是掌握我国水资源分布情况必不可少的研究之一。
思考:
阅读以上材料,思考研究我国水资源分布情况需要获取哪些方面数据,并用思维导图呈现。
确定数据来源
在信息社会,数据来源途径广泛,社会调查、公众媒体、科学实验与实践活动等都可以提供大量数据。伴随着互联网的快速发展,政府机构的官方网络平台已成为获取权威数据的重要渠道。此外,物联网和社交网络中也拥有巨量数据。例如,在利用物联网实现的智能家居系统中,涉及温度、湿度、空气中挥发性有机化合物等多种数据。庞大的社交网络用户每天通过即时通信、微博、微信等社交应用,不断地产生出文字、图像、视频等各类数据。
通常,数据来源越可靠,收集渠道越多,就越容易收集到真实有效的数据。因此,在明确数据需求后,为了更好地应用数据解决问题,就需要在众多的数据来源中根据实际情况恰当地选择。例如,“用水分析助决策”项目活动所需要采集的数据,既可以通过查找图书、报刊等文献资料获取,也可以请教水资源方面的专家,还可以通过访问中华人民共和国国家统计局(以下简称国家统计局)和中国南水北调工程等网站获取水资源的数据。
选择采集方法
确定数据需求和数据来源后,应选择恰当的方法采集数据。信息技术为高效精准地采集数据创造了便利的条件,应用传感器和网络等是当前数据采集的重要方法。
1. 传感器采集数据
传感器是一种检测装置,能感受到被测量的信息,并能将信息按一定规律转换成电信号或其他所需形式的信息输出。常用的传感器有温度传感器、压力传感器、红外传感器、距离传感器和声音传感器等,如图 3.2.1 (参见教材P93)所示。
当今,传感器和网络的结合创设出智能化生活环境。例如,楼宇中安装的智能水表就是利用传感器和无线网络自动采集用户用水量数据。图 3.2.2(参见教材P93) 展示的是一个远程智能抄表系统。抄表人员只需操作相应软件,即可了解用户的用水情况,实现远程检测。
传感器不仅应用在日常生活中,而且在工业生产中也应用广泛。例如,自动化工厂中的设备借助各种传感器采集的数据,监测和控制生产中的各项参数,保障生产的正常运转。
传感器是物联网中的一种重要设备。在物联网中,通过传感设备,按约定的协议,将相关物体与网络连接,进行信息采集和通信,实现智能化识别、定位、跟踪、监控和管理。物联网是国家新兴战略性产业,已经在很多行业得到了广泛应用。
例如,南水北调工程中就大量应用了物联网技术,其监测数据越来越多地来自于水位计、流量计、水质监测设备、位移传感器和工程安全传感器等各种物联网传感器。在南水北调东线山东段 94 个闸泵站 / 监测点实时运行时,每隔一段时间采集一次水位、水情、水质、流量、闸门开度和基础运行状态的基础数据,每天大概 50 万条、1 GB 容量的监测数据。这就要求其技术架构能够充分应对“庞大的数据实时收集,大规模存储,实现快速数据查询、历史数据挖掘和分析评估,为水量调度和综合会商提供充分的信息支持服务”等需求。
物联网传感器获取的监测数据通过自动化控制设备或直接连接网络实现定时的数据采集、信息转换和信息上传。
实践活动
体验手机传感器的数据采集
智能手机内置了多种传感器,通过手机应用软件可以读取相关传感器的数据,实现相应的功能。例如,重力传感器使手机能够自动在横竖屏间切换,温度传感器可用于监测手机发热情况,指纹传感器可用来识别身份等。图 3.2.3 (参见教材P94)呈现的即为手机中的传感器采集的数据。
体验智能手机中的传感器应用,举例说出手机中还采用了哪些传感器来采集数据?采集到的数据帮助手机实现了哪些功能?
2. 网络获取数据
随着移动互联网的日益普及和数字化媒体的迅速崛起,网络成为人们快捷获取数据的重要渠道。目前,使用网络爬虫采集互联网上的数据成为获取网络信息的一种有效方式。网络爬虫,是按照一定的规则,自动抓取互联网内容的程序。网络爬虫的主要功能是自动采集其可以访问到的网页内容,这种技术已被广泛用于搜索引擎或其他类似网站。
搜索引擎是一种能为用户提供检索服务,并将检索结果呈现给用户的系统。网络爬虫是搜索引擎的重要组成部分。图 3.2.4 (参见教材P95)展示了搜索引擎的一般工作原理:网络爬虫通过网络链接进入网站,采集网站页面内容,采集到的内容经过处理后得到的索引结果被存放到搜索引擎的索引库中,当用户发起搜索请求时,搜索引擎检索索引库后,将结果返回给用户,从而实现快速检索。
海量数据蕴藏在成千上万的网页中。为便捷地获取这些数据,人们开发了用于采集数据的软件和在线平台。在现代社会中,熟练掌握通过网络获取工具采集数据的方法,是十分重要的。
在线问卷是通过网络采集数据的另一种方式。这种方式通过在线调查问卷网站完成问卷的设计、发放、回收和分析等工作。例如,通过“高中生信息安全问卷”调查,可以了解学生对信息安全知识的掌握情况;通过“家庭用水情况问卷”调查,可以了解一般家庭用水和节水情况等。
实践活动
通过网络获取水资源数据
1.在前面的思考活动中,我们已经确定了“研究我国水资源分布情况”需要获取的数据,利用搜索引擎搜索我国不同地区水资源数据,并记录获取数据的网址。
分析提供水资源数据的网站可信度如何?网站发布的数据是否真实准确?试说明理由。
2.权威机构是获取数据的可靠渠道。例如,水利部网站就提供历年水利方面的多种统计公报,如《2018 中国水旱灾害公报》(图 3.2.5)(参见教材P96),这些公报多以 PDF 文件的形式呈现。
试使用教学资源平台的网络爬虫程序 mwr_crawler.py,获取水利部网站每年发布的“中国水旱灾害公报”,记录爬取下来的文件数量和时间,并了解其设计思路。
技术支持
使用网络爬虫采集数据
水利部网站会定期发布“中国水旱灾害公报”,如图 3.2.6 (参见教材P96)所示。如果想用人工单击网络链接,逐一下载的方式获取多年来公报中提到的数据,将非常费时费力,而使用网络爬虫就能较轻松地采集。
网络爬虫功能强大,可以满足多种数据采集需求。例如,使用网络爬虫获取高考选考科目数据,帮助学生选择修习课程;获取运动员比赛数据,帮助教练了解和分析运动员优势及问题;获取电商平台用户对商品的评价数据,帮助买家了解商品的口碑等。
根据需求编写爬虫程序可以帮助我们更灵活准确、方便快捷地获取各种数据。前面使用的网络爬虫程序 mwr_crawler.py,主要利用 Python 的Requests 库,实现从网页中提取数据。程序运行后,历年的公报文件将被自动下载到本地存储为 PDF 文件,如图 3.2.7(参见教材P97) 所示。
网络爬虫已经成为数据采集的一种重要方式,得到日益广泛的应用及发展,但并不是所有数据都可以随意爬取和使用。《中华人民共和国网络安全法》及最新刑事司法解释规定“非法提供”和“非法获取”公民个人信息构成犯罪的都可以入刑。因此,在采集数据时,我们必须遵守相关法律法规,负责任地合理使用网络爬虫。
数据整理
数据整理的目的是对数据进行校验和标准化。采集到的数据可能是非标准化的、不完整或重复的。通常,将这样的数据形象地称作“脏数据”。而用于分析的数据必须保证数据质量,即保证数据的完整性、统一性和准确性。其中,完整性指数据不能有缺失;统一性要求数据符合统一的标准;准确性要求数据不能有错误。
数据整理就是通过去重、补漏和勘误等方法,删除重复数据、补全缺失数据和校正错误数据,并对数据进行统一性和标准化处理,以确保数据是相关和准确的,从而将“脏数据”变为“清洁数据”。
采集到的数据可以保存为不同的文件,如 CSV 文件等。其中,CSV 文件将数据表格存储为纯文本,每一行代表一条数据,每条数据包含了一个或由逗号分隔的多个值。整理数据可以使用现成的软件或平台,也可以通过编写程序实现。Python 语言丰富的标准模块和扩展库提供了许多高效灵活的函数,可以帮助我们较好地进行数据整理。
实践活动
编写程序删除用水量数据中的重复值
登录教学资源平台,找到“yongshui.csv”文件。由于录入数据时操作失误,导致该文件中多个省市的用水数据被重复输入。
用 Python 语言编写程序找到这些重复的数据,并删除。
技术支持
Python 数据分析库 pandas
用 Python 语言进行数据分析,通常要用到数据分析库 pandas。pandas 属于 Python 的第三方扩展库,它提供了许多高效易用的数据分析工具和适合科学计算的数据结构,使得处理更加简洁,同时在处理速度上也做了不少优化。
pandas 中的 DataFrame 是一种类似二维表格的数据结构,它由行和列组织数据,并具有行标签和列标签。如下程序展示了 DataFrame 的基本使用方法,运行该程序将创建一个 DataFrame,并输出其全部数据及其指定行和列的数据。
调用 pandas 库可实现数据查找、删除、排序和索引等功能,pandas 库部分功能说明如表 3.2.3 (参见教材P100)所示。
为了更好地使用数据,整理后的数据可存储在本地或云存储空间。云存储是一种新兴的网络存储技术,它将网络中大量不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能。使用者可通过联网设备连接到云存储空间方便地存取数据。
数据安全
从健康数据到智慧交通,再到用水决策,进而到智能交互,数据正深刻地影响着大众生活及国家建设的方方面面。数据已经成为一种重要的资源,保护数据安全显得日益重要。
为此,我国在 2021 年公布并实施了《中华人民共和国数据安全法》,不但落实了总体国家安全观的要求,也标志着我国在数据安全领域有法可依,为各行业数据安全提供监管依据。
思考活动
我们的网上数据是否安全
网络的使用已经非常普遍,我们经常在网上学习、购物、交流、娱乐......不少互联网平台会记录用户使用其平台的情况,比如学习网站记录学生学习的课程、学习时长;购物平台记录用户购买的商品、消费的金额;聊天软件记录用户与他人聊天的频率,聊天的话题,等等。
思考:
1. 我们的网上行为数据可能存储在哪里?如果这些数据被泄露可能会带来哪些风险和问题?
2. 小组同学讨论,通过哪些措施可以使我们的网络行为数据更安全?
中国互联网络信息中心发布的第 50 次《中国互联网络发展状况统计报告》显示,截至 2022 年 6 月,我国网民所遭遇的网络安全事件中,个人数据安全问题占了很大比重。据统计,21.8% 的网民遭遇过个人信息泄露事件,6.9% 的网民遭遇过账号密码被盗事件。国家计算机网络应急技术处理协调中心发布的《2020 年中国互联网网络安全报告》指出,2020 年我国境内约有 10 万个网站的数据被篡改,严重影响了正常的工作秩序和社会秩序。
由于数据安全面临的风险有日益加剧的趋势,因此,我们要具备一定的数据保护能力,提高数据安全意识,做好数据安全保障。
数据安全的威胁
数据安全的威胁来自很多方面,既有人为因素,也有非人为因素。其中,主要的威胁包括计算机病毒、黑客攻击、数据存储介质损坏和个人失误等。
计算机病毒能影响计算机软件、硬件的正常运行,破坏数据的正确与完整,甚至导致系统崩溃,对数据安全的威胁很大。一个名称为“勒索”的计算机病毒于 2017 年席卷全球 100 多个国家,很多高校、企业和政府机构的计算机遭受严重攻击,很多计算机被感染,给众多的计算机用户造成了严重损失。
黑客攻击主要表现为入侵他人计算机系统、扰乱系统运行、盗窃系统保密信息和破坏目标系统等。2015 年,某国知名大型医保企业信息系统被黑客攻破,超过 8 000 万名客户的详细信息被泄露,其中包括姓名、地址、就业信息、社保号码等敏感信息。
数据存储介质的损坏包括物理损坏、设备故障等。
个人失误也会给数据安全带来威胁。例如,口令设置过于简单易破解,将个人账号随意转借他人等行为都将给数据安全造成威胁。
除了上述威胁以外,非法数据交易也严重威胁着数据安全。例如,某电商员工因其涉嫌盗取并贩卖 50 多亿条个人信息而被捕。
移动互联网的数据安全问题同样很严重。图 3.2.10 (参见教材P101)是国家计算机网络应急技术处理协调中心发布的 2010—2020 年移动互联网恶意程序新增数量的走势。从图中可以看到,近年来恶意程序的数量激增,数据安全形势已非常严峻
数据保护的方法
多方面的数据威胁给数据安全带来了极大风险。因此,学习和掌握保护数据的方法,能更好地保障数据的安全。数据安全有两方面的含义,即数据防护的安全和数据本身的安全。我们可以从这两方面入手对数据进行保护。数据防护的安全主要是采用存储手段保证数据的安全,如数据备份;数据本身的安全可采用加密的方式对数据进行保护。
1. 数据备份
数据备份是将需要备份的数据从应用主机的硬盘或磁盘阵列复制到其他的存储介质或不同位置存储空间的过程,其目的是在设备发生故障或发生其他威胁数据安全的灾害后,利用备份进行恢复,从而达到保护数据的目的。数据备份常见的方法有可移动存储设备备份和网络备份等。
云存储将数据存储在网络上的服务器中,是网络备份的一种重要方式,如图 3.2.11 (参见教材P102)所示。云存储具有成本低、管理方便和可扩展性高等优势,但也存在安全性不足等缺点。
数据加密
数据加密是使用特定算法把敏感的明文数据变换成难以识别的密文数据。数据加密是保护数据传输安全的实用方法,也是保护数据存储安全的有效方法。实际应用中,为防止数据泄露,可以为数据文件设置密码,加密系统利用设定的密码将整个文件进行加密处理。这样没有正确的密码就无法打开文件查看内容。
此外,为保护数据安全,在使用各种信息设备时,应具有数据安全意识,注意以下几方面 :
连接可信的无线网络;
合理配置智能终端的数据采集功能,保护个人隐私数据;
连接其他设备时,认真阅读操作提示和安全事项。
数据保护意义重大,不仅要保障个人数据安全,更应保障国家数据安全。国家大数据发展战略提出了切实保障国家数据安全和完善数据产权保护制度的要求,强调要加强关键信息基础设施安全保护,强化国家关键数据资源保护能力
阅读拓展
量子保密通信
2017 年世界首条量子保密通信干线——“京沪干线”正式开通,“京沪干线”与“墨子号”量子科学实验卫星的完美对接,打通了天地一体化广域量子通信的链路。利用“墨子号”在中国和奥地利之间实现洲际量子密钥分发,并利用共享密钥实现加密数据传输和视频通信,标志着“墨子号”已具备实现洲际量子保密通信的能力,如图 3.2.12 (参见教材P103)所示。
量子通信是迄今唯一被严格证明的一种无条件安全通信方式,可以有效解决信息安全方面的问题。我国将建立完整的量子通信产业链和下一代国家主权信息安全生态系统,最终构建基于量子通信安全保障的量子互联网。
项目实施
采集并整理南水北调相关数据
一、项目活动
1. 根据调查“我国水资源分布情况”的数据需求确定的数据目录,选择合适的方法采集有关数据。
例如,采集北京市水资源数据,可访问北京市水务局网站,下载北京市各年水资源公报。
2. 将收集到的数据按照内容进行分类,填写数据采集记录表 3.2.4。
表 3.2.4 数据采集记录表
序号 数据内容 采集方法 数据来源
1 北京市水资源公报 网络获取 北京市水务局
2

3. 整理并保存数据。
各组整理采集到的数据,如处理异常数据、删除重复数据等,并将数据保存为 CSV 格式文件。
二、项目检查
采集整理水资源相关数据,保存为 CSV 文件。
课后作业
1.搜索引擎通常提供高级搜索指令,帮助使用者更有效地进行检索。上网学习搜索引擎使用技巧,了解在指定的网站内进行检索的指令,并使用该指令检索数据。例如,搜索有关南水北调中线工程的内容。
2.小明同学非常喜欢打篮球,经常登录体育网站了解球队、球员及赛事情况。学校研究性学习课程布置了研究任务,小明选择中国男篮作为研究课题,需要收集中国男篮相关数据,如球员的身体素质情况、球员特长、场上位置及表现等数据。试使用一款网络爬虫软件或某个平台帮助小明采集球员数据,整理并保存数据。
3.在信息技术课上,学生通过签到系统记录出勤情况,但是经常有学生重复签到,导致签到记录中的学生数据出现重复,学生签到记录如表 3.2.5 (参见教材P104)所示。试使用 Python 语言编写程序删除签到记录中的重复数据。
4.小明同学准备参加一门网络课程的学习,但是在注册账号时,系统提示密码安全强度低。试分析安全强度低的原因,并说明小明应如何重新设计密码,写出设计方案和依据。
5. 某些压缩软件不仅具有压缩文件的功能,还可以用密码对文件加密。查找并下载一款带加密功能的压缩软件,试用文件加密功能,并了解其加密原理,写出使用心得。
板书设计
第 3 章 数据处理与应用
3.2 数据采集与整理
1.数据采集
2.数据整理
3.数据安全
普通高中教科书
信息技术 必 修 1 数据与计算
编著
人民教育出版衬课程教材研究所信息技术课程教材研究开发中心
中国地图出版社教材出版分社
总 主 编 :祝智庭 樊 磊
副总主编 :高淑印 郭 芳 李 锋
本册主编 :李 锋 高淑印
编写人员 :程建娜 刘姝弘 夏燕萍 王 岚 史弘文

展开更多......

收起↑

资源预览