资源简介 课程基本信息课题数据采集教科书书名:信息技术必修1数据与计算出版社:人民教育出版社&中国地图出版社出版日期:2019年6月教学目标教学目标:了解数据采集的三个环节。掌握数据采集通过网络和传感器采集数据的基本方法,根据需求选择恰当的采集方法采集数据。理解搜索引擎和爬虫采集数据的基本原理、通过实践活动体验爬虫采集数据的过程。了解网络爬虫的基本安全规则。教学重点:数据采集的两种基本方法。教学难点:使用网络爬虫采集数据的过程和原理。教学过程时间教学环节主要师生活动1分钟22分钟2分钟引入讲授新知课堂小结1、课堂回顾教师:回顾数据处理的一般过程。新知识学习2.1数据采集概念教师:在数据处理过程中,数据采集是第一步。那么什么叫做数据采集?数据采集是指根据需求采用恰当的方法和工具获取所需要的数据。那么数据采集有哪些方法和工具?这就是本节课我们要学习的内容。2.2课堂活动1——体验采集【体验采集】教师:数据采集理解很简单,那我们来一起实践一下吧!各位同学,如果老师问你现在的精确位置是什么?你需要采集什么数据才能解答这个问题呢?我想大家都猜出来了,那我们可以获取下自身所在的经纬度啊。教师:第一步,我们确定了自己需要的数据是经纬度。那么,去那儿找到当前自己位置的经纬度呢?请大家思考一下。我想同学们一定有了自己的答案。我们可以通过手机导航软件、或者一些其他的手机APP来获取自己的卫星定位,也就知道对应的经纬度数据了。教师:第二步,我们确定了去哪儿获取经纬度数据——也就是手机中的一些APP。那么,第三步,这些APP是怎样获取到经纬度数据的呢?请大家猜一猜。我想许多同学都猜到了,手机有卫星定位啊。没错,手机中的定位传感器可以从卫星获取到当前我们手机的经纬度数据,从而确定我们的精确位置。教师:下面,请同学们一起体验一下采集自己所在位置的经纬度。请大家在应用市场寻找一个有定位功能的APP。例如,豆豆指南针。通过这类APP软件,采集到自己的位置经纬度,填写在任务单中任务1的表格里。请大家暂停视频,开始完成。学生:下载APP,体验采集经纬度的过程。填写任务单。【明确采集经历的环节】教师:各位同学,你的精确位置,通过刚才的活动,都获取到了吧?让我们一起回顾一下这个活动,我们第一步明确了数据需求——经纬度,然后确定了数据来源——手机APP,最后选择了采集方法——手机定位传感器获取到的定位数据。这个过程就是数据采集的主要环节。2.3传感器采集教师:刚才我们一直在说定位传感器,那么什么是传感器呢?传感器是能检测、采集物理世界的各种信息,并将信息转换为电信号形式表示的数据采集设备。2.3.1课堂活动2——生活中的传感器教师:我们生活中有很多设备通过传感器采集数据。比如话筒——采集声音信息,小度音箱——采集语音指令和人交互,智能手环——采集心跳、运动步数等数据,智能门锁——能够采集开门人的指纹或者采集门禁卡的信息。那么生活中还有哪些设备是通过传感器来采集数据的呢?请大家想一想,暂停视频,完成任务单中任务2的表格。将你观察到的物品名称写下来吧!学生:完成任务单-任务2。教师:在刚才的活动中,我相信很多同学都写了手机。没错,手机中内置了丰富的传感器,所以我们才可以通过导航确定位置、通过摇一摇来网络社交、通过指纹识别或人脸识别保护手机中的隐私。教师:那么手机中具体包含了哪些传感器?还有哪些常见的功能是通过传感器实现的?我们一起通过一个短片了解下。【播放视频】2.3.2课堂活动3——手机中的传感器教师:刚才,视频中提到了好几种传感器和手机的功能。原来手机很多方便的功能都是通过传感器来实现的。下面,请同学们阅读任务单中的阅读材料,了解一下手机中各种传感器的功能吧!请暂停视频,开始阅读吧!学生:阅读阅读材料,了解手机中传感器的功能。教师:通过刚才的阅读材料,我们对手机中的传感器有哪些功能有了基本的了解。那么请大家打开手机,观察并思考一下,手机中的游戏或者APP,有哪些功能通过传感器实现的?这些传感器采集了什么数据实现了这些功能?请大家好好想一想,然后填写在任务单-任务3的表格中。现在请大家暂停视频,开始填表吧。学生:完成任务单-任务3。2.4网络采集方法——搜索引擎教师:传感器帮助手机实现了很多丰富的功能。如果我想了解北京现在的天气情况来确定自己的出行计划,那么手机能帮我吗?手机有什么传感器可以直接获取天气情况吗?貌似不可以啊。那么大家想一想,我们怎么解决这个问题呢?没错,大家一定想到了——利用搜索引擎搜一下天气预报,或者查看一下手机里的天气预报APP。教师:搜索引擎是一种通过网络采集数据的方式。也是我们惯常使用的工具。那么搜索引擎是怎样找到这么多信息的呢?它背后的原理是怎样的?教师:搜索引擎是在浩瀚网络数据中查找数据的重要方式。搜索引擎是怎样帮我们查到这些数据的?它的工作原理是什么?我们一起来了解一下。教师:搜索引擎其实是一种叫做SPIDER,也就是蜘蛛爬虫的程序。互联网的网页信息通过超级链接相互连接的,有点像一张互相连接的大型蜘蛛网。搜索引擎会在互联网上通过超级链接爬取能够访问的所有网页信息。然后将这些网页信息进行关键词的识别、缓存,最后生成自己的索引,存到索引库。当用户在搜索栏键入自己的搜索关键词时,搜索引擎程序会访问自己的索引库,按照一定的标准检索出结果,并将结果呈现给用户。教师:所以,搜索引擎对数据的处理过程是爬取数据、缓存数据、检索查询、呈现结果。这类搜索引擎爬虫能够爬取各式各样的网页内容,将包含关键词的结果呈现给用户。这种所有网页都可以爬取的爬虫程序,也叫作通用爬虫。教师:搜索引擎给出的检索结果通常非常多。在众多的结果中,我们应当怎样选择才能获取到最权威、最准确可信的数据呢?比如这里这个需求,分析北京市空气污染指数在2015-2020年的变化情况。需要我们获取这个时间段的空气质量数据。在中华人民共和国生态环境部和一个个人搭建的天气历史数据网站都可以找到。那么你会选择哪一个网站的数据呢?我相信同学们一定会选择官方的数据来源。更权威、更可靠的数据来源可以确保数据的真实性、可靠性。2.5网络采集——爬虫(聚焦爬虫)教师:回到我们的问题中来,如果我们想了解北京的天气情况来确定出行,手机能帮到我们吗?我们刚才提到了可以通过手机APP来获取天气预报。那么手机APP中的天气数据是从哪里来的呢?其实,一般网站、手机APP中的天气信息,都是从气象局发布数据的网站爬取的。这种从特定网站抓取特定内容的爬虫,叫做聚焦爬虫。教师:爬虫也是通过网络采集数据的方法之一。聚焦爬虫采集数据的步骤通常第一步分析网页(也就是找到数据所在的网页,分析网页特点,找到数据在网页中的位置),第二步,抓取网页(将包含数据的网页内容爬取下来),第三步,过滤数据(从网页的众多数据中筛选出目标数据),第四步,保存数据(将目标数据保存下来,以便使用)2.5.1课堂活动4——体验爬虫程序教师:下面,我们一起来体验下利用爬虫程序在中国天气网爬取本地最近天气预报的数据,并将采集的数据保存为一个CSV文件的整个过程。教师:首先,请大家下载资源包中的抓取天气.py文件,开始运行程序。运行结束,程序所在目录会生成抓取到的数据文件weather.csv。这里默认城市是北京市。请大家暂停视频,开始尝试吧!学生:下载代码、运行程序,体验爬取过程和结果。教师:大家应该都看到运行结果啦!可是这段程序是怎么实现爬取数据的呢?我们一起把过程完整地梳理一遍吧!第一步,我们要分析网页,打开中国天气网北京市7天天气情况的网页,我们可以看到要抓取的内容。教师:如果按下F12键,通过浏览器的调试模式查看网页源码,我们会发现我们需要的数据都对应在html的不同标签里,而且存在一定规律,比如13日的数据和14日的数据所在标签是相同的。那么我们只要找到这些html的标签,就可以取到其中的数据内容了。教师:在分析好页面之后,就该抓取网页了。我们看一下代码中的自定义函数get_content函数。这个函数实现的功能就是对参数url指定的网页地址进行访问,把访问到的html内容完全抓取下来。教师:数据抓好之后,下一步就是过滤数据了。我们看代码中的自定义函数get_data就是把参数给的内容进行过滤,筛选出来留下指定标签容器里的数据。教师:数据筛选好之后,我们就要保存数据了。请看代码中的自定义函数write_data,这个函数实现了将参数data中的内容保存到指定名称的文件里,也就是name参数指定的文件名。教师:最后我们就要把几步的过程挨个执行了。在程序的主函数部分,我们看到url变量指定了北京市最近7天的天气预报网页地址。下面是分别调用三个函数的过程。请大家在中国天气网找到你所在城市或地区的7天天气情况的网页地址,将其赋值给url,尝试抓取你指定城市或地区的天气数据。下面,请大家暂停视频,开始尝试吧!教师:刚才老师讲解的代码中,频繁提到了自定义函数。大家还记得什么是函数吗?请参考必修一教科书的60页,复习关于函数的内容。其实函数就是一段逻辑相对独立、功能相对单一的代码块。需要的时候,通过函数名和参数来调用,不需要重复编写。这样提高了代码的可重用性。通常代码有0个或n个参数,返回0个或n个结果。比如右侧的代码示例。我们通过关键词def定义了一个函数add,并且add函数有2个参数,就是两个被加数,函数体内定义了这个函数的功能代码,也就是将两个被加数求和后返回。使用自定义函数和使用原生函数的方法是一样的,我相信大家很熟悉。2.5.2课堂活动5——体验爬虫软件教师:通过刚才的体验活动,可能有的同学感到爬虫程序写起来好复杂。的确,爬虫的门槛较高,自行编写需要一定的编程基础。那么是否有更方便的爬取工具呢?的确有。那就是可视化的爬虫软件,比如市面上常见的搜集客、八爪鱼、后羿采集器等。他们都可以通过鼠标点击、建立爬取规则,对包含规律的网页数据进行采集,然后以文件形式保存。教师:下面我们通过后羿采集器来一起体验下快速方便的爬取过程。2019年流浪地球这部电影很火热。那么大家的评价如何?我们可以通过影视评价来做出初步的判断。请大家参考学习资料中的操作流程,在豆瓣电影网站找到流浪地球的影评页面,利用后羿采集器采集100条影评信息,并保存为xls文件。现在,请暂停视频,开始尝试吧!学生:阅读后羿采集器的使用说明,采集数据。2.5.3爬虫使用规范教师:通过刚才的两个活动,大家尝试了两种爬虫。爬虫使用起来很方便,可以帮助我们快速从互联网山获取大量数据,这是否意味着我们可以随意通过爬虫爬取想要的数据呢?答案是NO。教师:使用爬虫,我们需要遵守robots.txt协议,比如豆瓣电影的根目录下会存放这个该网站的协议内容。我们打开,就可以看到,这里定义了很多目录不允许爬虫爬取。另外,还干脆定义了一些爬虫不允许爬取整个网站的任何内容。除了robots.txt协议,我们使用爬虫不能对网站恶意爬取,也就是频繁爬取,耗费网站服务器的资源,这样会导致正常访问受到影响。另外,爬取的数据不能侵犯个人隐私、也不能爬取用于不正当竞争的数据、爬取到的数据不能侵犯商业秘密等。教师:另外,各位同学一定需要了解的是,根据《中华人民共和国网络安全法》以及最新刑事司法解释,非法提供和非法获取公民个人信息构成犯罪的都可以入刑。所以我们使用爬虫,也一定要遵守相关法律法规。2.6网络采集——问卷调查教师:刚才我们学习到网络采集方法有搜索引擎和爬虫。这些都是采集网络上现有的数据,那么如果网络上没有的数据,比如和人相关的数据。我们该如何采集?例如,你所在学校同学们的课外时间是怎样分配的?课外娱乐项目、娱乐时长、课外学业负担、做作业的时长等,这种数据我们可以通过调查问卷的形式采集。教师:在线调查问卷有很多现成的、免费的工具。比如问卷星、问卷网、腾讯问卷等。2.7课后作业教师:下面就给大家安排一个线下的课后作业。请大家了解下身边的高中生门课余时间是怎样规划的?这里请大家参考学习资料包中关于在线调查问卷的说明,设计一个在线调查问卷。调查问题可参考下表,也可以自行规划。学生:课后实施调查问卷规划和数据采集。3、课堂小结教师:下面,我们一起回顾下这节课的内容。这节课,我们了解了什么是数据采集,数据采集的步骤。数据采集首先要明确数据需求,也就是知道自己要找什么数据。接着,要确定数据来源,也就是明确去哪儿找数据。最后,需要选择采集方法,也就是确定怎么找到数据。教师:我们了解了常见的数据采集方法。第一种是通过传感器采集,这种方法可以采集物理世界的数据。第二种是网络采集,网络采集有三种具体方式。搜索引擎可以采集网络中已有的网页数据,数据繁多,但是不够精确。还需要我们在搜索结果中筛选。爬虫程序可以帮我们精确抓取特定网站的特定数据,特点是精确。调查问卷可以帮我们采集网络上没有的、需要人提供的数据。今天我们的学习就到这里,谢谢大家!(共40张PPT)数据采集(第二十二课时)回顾数据处理一般过程数据采集数据整理数据分析数据呈现什么是数据采集数据获取的过程——数据采集数据采集指根据需求采用适当的方法和工具获取所需要的数据。课堂活动1:体验采集你知道自己现在的精确位置吗?思考:需要采集什么数据?经纬度课堂活动1:体验采集你知道自己现在位置的精确位置吗?思考:去哪儿找到当前经纬度?手机导航、手机APP课堂活动1:体验采集你知道自己现在位置的精确位置吗?思考:APP怎么获取到经纬度数据?手机定位传感器课堂活动1:体验采集活动内容:下载一个定位APP,确定自己的经纬度。例如:豆豆指南针暂停视频,填写任务单-任务1中的表格活动回顾手机是怎样实现定位我们的精确位置的?找什么——明确数据需求——经纬度去哪儿找——确定数据来源——手机APP怎么找——选择采集方法——手机定位传感器传感器采集传感器是能检测、采集物理世界的各种信息,并将信息转换为电信号形式表示的数据采集设备。课堂活动2:寻找传感器我们生活中还有哪些通过传感器采集数据的物品呢?(任务单-任务2)课堂活动2:寻找传感器手机中的传感器手机中的传感器陀螺仪重力传感器加速度传感器指纹传感器摄像头电磁传感器距离传感器光线传感器暂停视频请阅读任务单中阅读材料,了解手机中的传感器的功能。GPS传感器温度传感器麦克风气压传感器课堂活动3:手机中的传感器打开手机,观察思考,你手机中的游戏或应用app,思考:1、APP中有哪些功能?2、该功能运用了什么传感器?3、该传感器采集什么数据实现了该功能?试一试:你能举出3个例子吗?填在表格中(任务单-任务3)新问题传感器帮助手机实现了很多功能。如果我想了解北京今天的天气情况来确定出行,手机能帮到我吗?通过搜索引擎、天气类APP查找天气情况。网络采集方法——搜索引擎网络采集方法——搜索引擎网络采集方法——搜索引擎搜索引擎spider——通用爬虫爬取数据检索查询缓存数据呈现结果STEP1STEP3STEP2STEP4网络采集方法——搜索引擎搜索引擎给出的数据检索结果非常多。怎样选择才能获取最有权威、最准确的数据呢?需求:分析北京市空气污染指数2015-2020年的变化情况这些空气质量数据在这2个网站都可以找到?如何选择?网络采集方法——爬虫手机APP里的天气数据从哪来来的?一般网站、手机APP中的天气信息,都是从气象网站爬取的聚焦爬虫网络采集方法——爬虫聚焦爬虫采集的数据过程04020103分析网页抓取网页过滤数据保存数据课堂活动4:体验爬虫在中国天气网爬取本地最近的天气预报,将抓取的最近7天天气数据存入一个csv文件。课堂活动4:体验爬虫活动说明:1、下载抓取天气.py2、运行代码在程序所在目录会生成抓取到的数据文件weather.csv默认城市是北京市。SETP1:分析网页SETP1:分析网页STEP2:抓取网页抓取网页html——get_content函数STEP3:过滤数据过滤html中的目标数据——get_data函数SETP4:保存数据将过滤后的数据保存为csv文件——write_data函数STEP5:实施采集直接运行程序,在指定的url抓取网页、过滤数据、保存数据提示:修改爬取的url,尝试抓取中国天气网上其他城市的7天天气情况。知识补充——函数函数是逻辑相对独立、功能相对单一的代码块。需要时直接调用,不必重写,提高代码可重用性。(参考教材P60关于函数的定义)通常函数有0-N个参数,返回0-N个结果爬虫软件可视化爬虫软件集搜客八爪鱼后羿采集器课堂任务5:体验爬虫软件这部国产科幻片反响如何?下载安装软件——后羿采集器在豆瓣电影找到流浪地球电影参考学习资料中的操作流程,实现采集100条影评数据爬虫使用规范爬虫使用起来很方便可以快速从互联网上获取到大量数据是否我们可以随意爬取想要的数据呢?爬虫使用规范遵守robots.txt协议禁止:恶意爬取侵犯个人隐私爬取信息用于不正当竞争侵犯商业秘密遵守相关法律法规根据《中华人民共和国网络安全法》以及最新刑事司法解释规定“非法提供”和“非法获取”公民个人信息构成犯罪的都可以入刑。网络爬虫功能强大便捷,但是我们使用时,一定要遵守相关法律法规。网络采集方法:调查问卷网上有的数据,我们可以通过搜索引擎查找、爬虫爬取。如果网上没有的数据呢?例如:你所在学校同学们的课外时间分配情况,课外娱乐时长和课外学业负担如何?这种数据我们可以通过调查问卷形式采集。网络采集方法:调查问卷在线调查问卷工具问卷星、问卷网、腾讯问卷、问卷小程序等。课后作业你身边的高中生课余时间是怎样规划安排的?学业负担重吗?都有哪些娱乐?请参考资源包关于在线调查问卷的说明,设计一个在线调查,了解身边同学课余时间安排,可参考下表,也可自行规划调查内容。课后时间调查表(单位:分钟)序号姓名写作业户外活动玩手机/上网看电视……1小明60120150302课堂小结找什么去哪儿找怎么找明确数据需求确定数据来源选择采集方法数据采集步骤课堂小结数据采集方法传感器采集网络采集搜索引擎爬虫调查问卷采集已有网页数据精确抓取网络数据需要人提供的数据采集物理世界的数据课程基本信息课题数据采集教科书书名:信息技术必修1数据与计算出版社:人民教育出版社&中国地图出版社出版日期:2019年6月学生信息姓名学校班级学号课后练习你身边的高中生课余时间是怎样规划安排的?学业负担重吗?都有哪些娱乐?请参考资源包关于在线调查问卷的说明,设计一个在线调查,了解身边同学课余时间安排,可参考下表,也可自行规划调查内容。提示:在线调查问卷工具有很多,如问卷星、问卷网、腾讯问卷等。请同学们自行注册、熟悉选中的在线调查工具如何使用,并利用工具现有功能完成课后练习。课后时间调查表(单位:分钟)序号姓名写作业户外活动玩手机/上网看电视小明6012015030自主学习任务单学习指南课题名称:数据采集学习目标:了解数据采集的基本环节;理解数据采集的两种基本方式;了解搜索引擎和爬虫程序的工作原理;了解爬虫使用应遵循的规范和法律规则。本节知识点思维导图:学习任务课前测验:常用搜索引擎有:请列举一个调查问卷工具:能够计步的工具有:任务1:你能知道自己当前的精确位置吗?尝试下载一个指南针类的手机APP,例如豆豆指南针,找到自己位置的经纬度。安装的APP我的经度我的维度拓展思考:经纬度这个数据可以实现哪些实用的功能?任务2:生活中有哪些物品或设备是利用传感器来采集数据的?请举3个例子。设备1设备2设备3任务3:阅读拓展材料,了解手机中的传感器功能。打开手机,观察思考,你手机中的游戏、应用中都有哪些功能?运用了什么传感器?采集了什么数据?你能举出3个例子吗?(例如微信摇一摇找朋友的功能,利用重力传感器和加速度传感器、GPS传感器,采集了GPS定位、手机摇晃的动作数据。)应用中的功能使用到的传感器采集到的数据任务4:观看网课,体验爬虫,爬取中国天气网上北京市最近的天气和气温情况,存入一个csv文件保存爬取结果。修改程序url,将北京市改为另一个城市,抓取该城市的天气和气温情况。操作结果:(成功/失败)任务5:下载安装软件——后羿采集器。在豆瓣电影找到流浪地球电影。参考学习资料中的操作流程,实现采集100条影评数据。操作结果:(成功/失败)拓展阅读资料手机传感器传感器名称功能GPS位置传感器通过天线来接收到卫星的坐标信息帮用户定位距离传感器距离传感器通常安放在手机听筒旁边,用来检测手机正面与其他物体的距离。如果距离达到一个阈值,就会自动关闭屏幕,一则省电,二则防止手机触摸屏被误操作。气压传感器一般GPS能计算出你的位置,但对于一些高度上的变化是需要气压传感器来测算。安装了这种传感器的手机能测算你一天上了多少个楼层,或是用于室内定位等,而内部的气压传感器主要是测试设备封闭程度。光线传感器光线传感器就是用来感受周围光线强弱,可以实现手机屏幕亮度的自动调节。温度传感器许多智能手机都配置有温度传感器,有的还不止一个。区别就在于它们的目的是监测手机内部以及电池的温度。如果发现某一部件温度过高,手机就会关机,防止手机损坏。扩展功能方面,温度传感器也能检测外界空气中的温度变化,甚至是用户当前的体温。紫外线传感器某些半导体、金属或金属化合物的光电发射效应,在紫外线照射下会释放出大量电子,透过检测这种放电效应可计算出紫外线强度。主要用途也在运动与健康领域。陀螺仪绕一个支点高速转动的刚体称为陀螺(top)。通常所说的陀螺是特指对称陀螺,它是一个质量均匀分布的、具有轴对称形状的刚体,其几何对称轴就是它的自转轴。由苍蝇后翅(退化为平衡棒)仿生得来。传感陀螺仪用于飞行体运动的自动控制系统中,作为水平、垂直、俯仰、航向和角速度传感器。指示陀螺仪主要用于飞行状态的指示,作为驾驶和领航仪表使用。传统的惯性陀螺仪都是机械式的,它的精度不是很高,随着技术的发展,现在更多的是利用芯片来实现陀螺仪的功能,一般用在航空航天,手机,导航等高精度,高灵敏度的领域,其结果也更加复杂。重力传感器手机的bai重力传感器采用弹性敏感du元件制成悬臂式位移器,与采用zhi弹性敏感元件制成的储能弹簧来驱动dao电触点,完成从重力变化到电信号的转换。目前绝大多数中高端智能手机和平板电脑内置了重力传感器。重力传感器在手机横竖的时候屏幕会自动转,在玩游戏可以代替上下左右,比如说玩赛车游戏,可以不通过按键,将手机平放,左右摇摆就可以代替模拟机游戏的方向左右移动了。加速度传感器加速度传感器是一种能够测量加速力的电子设备。加速度传感器一般用在哪里通过测量由于重力引起的加速度,你可以计算出设备相对于水平面的倾斜角度。通过分析动态加速度,你可以分析出设备移动的方式。电磁传感器测量电阻变化来确定磁场强度,使用时需要摇晃手机才能准确判断,大多运用在指南针、地图导航当中。GPS传感器地球上方特定轨道上运行着24颗GPS卫星,它们会不停的向全世界各地广播自己的位置坐标与时间戳(timestamp,指格林威治奔1970年01月01日0000分00秒到现在为止的总秒数),手机中的GPS模块透过卫星的瞬间位置来起算,以卫星发射坐标的时间戳与接收时的时间差来计算出手机与卫星之间的距离。可运用在定位、测速、测量距离与导航等用途。指纹传感器?目前主流的技术是电容式指纹传感器,然而超音波指纹传感器也有逐渐流行起来趋势。电容式指纹传感器作用时,手指是电容的一极、另一极则是硅芯片数组,透过人体带有的微电场与电容传感器之间产生的微电流,指纹的波峰波谷与传感器之间的距离形成电容高低差,来描绘出指纹的图形。而超音波指纹传感器原理也类似,但不会受到汗水、油污的干扰,辨识速度也更为快速。运用在手机中可用来解锁、加密、支付等等。(以上参考阅读内容来自网络整理)【一个爬虫引起的案件】(以下案例内容摘自互联网博客https://www.cnblogs.com/ityouknow/p/11684770.html)某一个知名互联网公司,突然发现公司的服务器连续几天压力倍增,导致公司内部系统崩溃不能访问,公司领导责令技术部尽快解决。该公司系统平时访问量一直比较平稳,但不知为何这几天系统压力突然大增,经过技术人员几天调查发现了一个惊人的真相,公司客户信息被抓取,并且某个接口访问量巨大。随着技术人员的深入调查发现的现象更加震惊,入侵者利用这个入口已经窃取了大量的客户信息,并且所有的线索都指向了一家大数据公司。这家公司的主要业务就是,出售简历数据库。经核查该公司出售的简历数据中,就包含自己家客户的简历信息。技术部上报领导之后,公司开会商议后决定报案。案发前一段时间,小明(化名)接到了技术部领导的需求,要求写一段爬虫批量从网上的一个接口抓取数据,爬虫开发完后测试没有问题,小明就将程序上传到了公司服务器。程序运行了一段时间后,也许是有了新的需求,也许是小明想对爬虫程序进行进一步的优化,将爬虫的线程数,由原来比较小的值调到一个比较大的值。完善后的程序上传到服务器后,小明跟踪了下爬虫的进展,运行平稳并且速度快了很多。提交之后像往常一样,小明就把这件事情忘了。小明没想到自己这次提交的爬虫程序,竟然能把对方的服务搞挂了,也没想到自己因为写了一段代码而坐牢。什么样的爬虫是违法的?如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。除此之外,根据相关规定,对于违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,窃取或者以其他方法非法获取公民个人信息的,均可构成成“侵犯公民个人信息罪”,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。重点关注:下列情况下,爬虫有可能违法,严重的甚至构成犯罪。1.爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。2.爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”。3.爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。评测反思知识小测:结合微课资源,完成以下题目:数据采集的主要环节为:、、。常见数据采集的两种方法是:、学习评价:评价指标评价等级及分值得分优秀9-10分良好5-8分一般3-4分自评互评老师评项目实践完成度(50%)项目自主创新与个性化设计(10%)项目学习交流合作(20%)成果展示(20%)学习反思:通过本节课的学习,你最大的收获是什么?在实践操作环节,遇到了哪些困难?你是如何解决的?关于本节课的学习内容,列出你最想进一步研究的内容。 展开更多...... 收起↑ 资源列表 数据采集(第二十二课时-任务单.docx 数据采集(第二十二课时-教学设计.docx 数据采集(第二十二课时-课后练习.docx 数据采集(第二十二课时)-课件.pptx