资源简介 (共22张PPT)3.2数据采集与整理学习目标:通过应用实例,掌握数据采集和整理的基本方法,能够根据任务需求,选择适当的采集工具和方法。了解网络爬虫的功能和工作原理。了解数据安全面临的威胁和进行数据保护的意义及方法,增强数据安全意识,学会数据备份和用数字化工具对文件和数据进行保护。南水北调中线工程.mp4思考:我国确定南水北调这一伟大工程的依据是什么?实践1:明确数据需求利用互联网查找我国水资源分布的图文资料,回答下列问题:我国水资源最缺乏的地区是哪里?水资源压力最大的哪里?为什么呢?实践2:确定数据来源黄河流域水资源数据汇总表项目2014年2015年2016年水资源总量/108m3653.7541.0601.8供水总量/108m3387.5395.5390.4用水总量/108m3387.5395.5390.4数据来源水利部网站水利部网站水利部网站各小组参照上表,查询其他流域的水资源情况,并填写下页表格:()流域水资源数据汇总表项目2014年2015年2016年水资源总量/108m3供水总量/108m3用水总量/108m3数据来源填写表格提交至教师机,展示结果:体验探究:如何既准确又快速地得到这些数据?网络爬虫自主学习:http://www.jleduyun.cn/index.php?r=center/person/blog/view&id=5281799传感器红外传感器.mp4调查问卷体验交流:手机中采用了哪些传感器来采集数据?手机中的传感器1.mp4手机中的传感器2.mp4实践3:数据采集获取2007-2016年全国各地区用水量数据,保存为CSV文件。实践4:数据整理编写程序检测用水量为负值的数据问题:采集到的全国各地区2007-2016年用水量数据,存储为"yongshui.csv"文件,如图所示。采集的数据由于误输入,传输错误等可能存在问题。例如,河北省2013年用水量中的-191.29和-219.99两个值,不属于正常用水量,需要检测出所有类似的异常数据,并提示用户对数据进行检查和修改。(1)分析问题已知条件:“yonghui.csv”文件中保存了各地区2007-2016年用水总量,如果其中的数据为负值,则认为数据异常;求解目标:检测出异常数据,提醒用户核对;已知与未知的关系:可通过检测每个用水量数据是否为负值,发现异常的数据。(2)规划问题求解流程首先读人CSV文件中的全部数据:经观察发现,从第3行开始,每行的第4列之后是各年用水量数据,因此从第4列开始逐行依次检查每个数据,判断其值是否为负值:如果为负值,则提示“数据异常,请核对!”pandas简介:pandas?是Python的一个数据分析库。最初是被作为金融数据分析工具而开发出来的,它提供了许多高效易用的数据分析工具和适合科学计算的数据结构,使得处理更加简洁,同时在处理速度上也做了不少优化。调用pandas库可实现数据查找、删除、排序和索引等功能。TimeSeries:以时间为索引的Series。pandas数据结构:Series:一维数组,与Numpy中的一维数组类似,与Python中的基本数据结构list也很相近。它能保存不同数据类型的数据,包括字符串、布尔值和数字等。DataFrame:二维表格型数据结构,可以将DataFrame理解为Series的容器。Panel:三维数组,可以理解为DataFrame的容器。DataFrame数据结构:本课主要是针对DataFrame数据结构的学习与使用。DataFrame是Python的pandas库中的一种数据结构,它类似Excel,是一种二维表。DataFrame的单元格可以存放数值、字符串等,这和Excel表很像。同时,DataFrame可以设置列名columns与行名index,可以通过位置获取数据,也可以通过列名和行名定位。importpandasaspddf=pd.read_CSV(“yongshui.csv”,encoding=“gbk”,header=1)foriinrange(3,len(df.columns)):current_col=df.columns[i]display_cols.=[“地区”,current_col]error_data=df.loc[df[current_col]<0,display_cols]error_rows_count,_=error_data.shapeiferror_rows_count>0:print(error_data,”数据异常,请核对!")print("\n")(3)编程实现与调试思考活动:1.我们的网上数据是否安全?2.我们的网上行为数据可能存储在哪里?如果这些数据被泄露可能会带来哪些风险和问题?3.通过哪些措施可以使我们的网络行为数据更安全?数据保护的方法数据防护的安全:主要是采用存储手段保证数据的安全,如数据备份:可移动存储设备备份和网络备份数据本身的安全:可采用加密的方式对数据进行保护:压缩文件时设置密码数据安全1.搜索引擎通常提供高级搜索指令,帮助使用者更有效地进行检索。上网学习搜索引擎使用技巧2.小明同学准备参加一门网络课程的学习,但是在注册账号时,系统提示密码安全强度低。试分析安全强度低的原因,并说明小明应如何重新设计密码。3.在桌面上新建一个文件夹,试着压缩这个文件夹,压缩时设置好密码。上网搜索其加密原理作业:(装订线)课题3.2数据采集与整理课型新授课课时安排2教学过程(授课教师:授课班级:)教学目标通过应用实例,掌握数据采集和整理的基本方法,能够根据任务需求,选择适当的采集工具和方法。了解数据安全面临的威胁和进行数据保护的意义及方法,增强数据安全意识,学会数据备份和用数字化工具对文件和数据进行保护。一、情景引入:1.播放宣传短片《南水北调中线工程》.mp4学生思考:我国确定南水北调这一伟大工程的依据是什么?二、新知探究:1.实践学习:实践1:明确数据需求利用互联网查找我国水资源分布的图文资料,回答下列问题:我国水资源最缺乏的地区是哪里?水资源压力最大的哪里?为什么呢?实践2:确定数据来源各小组参照上表,查询其他流域的水资源情况,并填写下页表格:()流域水资源数据汇总表项目2014年2015年2016年水资源总量/108m3供水总量/108m3用水总量/108m3数据来源体验探究:如何既准确又快速地得到这些数据?(1).网络爬虫播放《网络爬虫》.mp4自主学习:访问老师的空间,理解网络爬虫的原理网址:http://www.jleduyun.cn/index.php?r=center/person/blog/view&id=5281799教师讲授网络爬虫的原理,加深学生的理解。(2).传感器(温度传感器、压力传感器、红外传感器、距离传感器等)演示红外传感器.mp4,学生上网了解其他几种传感器(3).调查问卷(问卷星)体验交流:手机中采用了哪些传感器来采集数据?观看视频:手机中的传感器1.mp4、手机中的传感器2.mp4实践3:数据采集获取2007-2016年全国各地区用水量数据,保存为CSV文件。教师运用云课堂演示,然后由学生实际操作。教学难点教学重点重点:数据采集的基本方法、数据保护的方法难点:了解网络爬虫的功能和工作原理、根据需求选择恰当的方法保护数据。教学方法任务驱动、分组探究法、讨论法、云课堂演示等板书设计3.2数据采集与整理确定数据需求→.确定数据来源→选择采集方法→实施数据采集(社会调查、公众媒体、科学实验……)传感器和网络网络爬虫、在线问卷(问卷星)教学反思继续以“南水北调”为情境引出本节课题并贯穿本节内容,学生易于接受,通过实践探索让学生体验数据采集和数据处理的过程,学生对使用爬虫程序获取数据比较陌生,需要重点讲解。可以让学生绘制思维导图来总结本节课的内容,这样能让学生对数据安全有更深刻的认识,能够更好的增强数据安全意识。实践4:数据整理编写程序检测用水量为负值的数据(1).分析问题已知条件:“yonghui.csv”文件中保存了各地区2007-2016年用水总量,如果其中的数据为负值,则认为数据异常;求解目标:检测出异常数据,提醒用户核对;已知与未知的关系:可通过检测每个用水量数据是否为负值,发现异常的数据。(2).规划问题求解流程首先读人CSV文件中的全部数据:经观察发现,从第3行开始,每行的第4列之后是各年用水量数据,因此从第4列开始逐行依次检查每个数据,判断其值是否为负值:如果为负值,则提示“数据异常,请核对!”(3).编程实现与调试import?pandas?as?pddf?=?pd.read_CSV(“yongshui.csv”,?encoding=”gbk”,?header=1)for?i?in?range(3,?len(df.?columns)):current_col?=?df.columns[i]display_cols?.=?[“地区”,current_col]error_data=df.loc[df[current_col]?0,?display_cols]error_rows_count,_?=?error_data.?shapeif?error_rows_count>?0:print(error_data,?”数据异常,请核对!?")print("\n")学生在Python中运行并调试成功即可。思考活动:1.我们的网上数据是否安全?2.我们的网上行为数据可能存储在哪里?如果这些数据被泄露可能会带来哪些风险和问题?3.通过哪些措施可以使我们的网络行为数据更安全?教师讲授:(1)数据安全的威胁:计算机病毒、黑客攻击、数据存储介质损坏和个人失误等多方面。(2)数据保护的方法数据防护的安全:主要是采用存储手段保证数据的安全,如数据备份:可移动存储设备备份和网络备份数据本身的安全:可采用加密的方式对数据进行保护:压缩文件时设置密码三、课堂小结教师和学生共同总结本节知识内容。四、作业:?1.上网学习搜索引擎使用技巧?2.小明同学准备参加一门网络课程的学习,但是在注册账号时,系统提示密码安全强度低。试分析安全强度低的原因,并说明小明应如何重新设计密码。教师详解:1.Pandas简介:?是Python的一个数据分析库。最初是被作为金融数据分析工具而开发出来的,它提供了许多高效易用的数据分析工具和适合科学计算的数据结构,使得处理更加简洁,同时在处理速度上也做了不少优化。调用pandas库可实现数据查找、删除、排序和索引等功能。2.pandas数据结构:Series:一维数组,与Numpy中的一维数组类似,与Python中的基本数据结构list也很相近。它能保存不同数据类型的数据,包括字符串、布尔值和数字等。DataFrame:二维表格型数据结构,可以将DataFrame理解为Series的容器。TimeSeries:以时间为索引的Series。Panel:三维数组,可以理解为DataFrame的容器。DataFrame数据结构:DataFrame是Python的pandas库中的一种数据结构,它类似Excel,是一种二维表。DataFrame的单元格可以存放数值、字符串等,这和Excel表很像。同时,DataFrame可以设置列名columns与行名index,可以通过位置获取数据,也可以通过列名和行名定位。?3.在桌面上新建一个文件夹,试着压缩这个文件夹,压缩时设置好密码。上网搜索其加密原理 展开更多...... 收起↑ 资源列表 3.2 数据采集与整理-人教中图版(2019)高中信息技术必修一教案.docx 3.2 数据采集与整理-人教中图版(2019)高中信息技术必修一课件.pptx 南水北调中线工程.mp4 手机中的传感器1.mp4 手机中的传感器2.mp4 红外传感器.mp4 网络爬虫.mp4