1.3使用网络爬虫爬取网页数据 课件(共14张PPT)+教案 电子工业社版(2022)初中信息科技

资源下载
  1. 二一教育资源

1.3使用网络爬虫爬取网页数据 课件(共14张PPT)+教案 电子工业社版(2022)初中信息科技

资源简介

1.3使用网页爬虫爬取网页数据教学设计
课题 使用网络爬虫爬取网页数据 单元 第一单元 学科 信息科技 年级 七年级下
教材 分析 本课选自《信息科技》(电子工业版)的第一章第三节的内容,教材由“认识网络爬虫”、“编程实现网络爬虫”、“熟悉网络爬虫的‘君子协议’”三部分内容组成。学生通过对本教材的学习深化网页的相关知识,具备一定的科学精神和科技伦理,提高创新能力,夯实信息社会责任,发挥信息科技课程的独特育人价值,为数字强国培养优秀接班人和建设者。
教学 目标 信息意识:具有主动探究问题、解决问题的意识。 2、计算思维:知道网络中信息编码、传输和呈现的原理。 3、数字化学习与创新:根据任务要求,编写程序实现网络爬虫。。 4、信息社会责任:掌握网络爬虫的“君子协议”,遵循网络社会的道德责任和行为准则。
重点 1、了解网络爬虫的概念与工作过程; 2、了解网络爬虫爬取数据的实质; 3、了解网络爬虫的“君子协议”—Robots协议概念。
难点 1、掌握mpython源程序代码; 2、掌握网络爬虫的“君子协议”规定和注意事项。
教学过程
教学环节 教师活动 学生活动 设计意图
导入新课 图文并茂的网页往往更能吸引人,不妨加入一些我国科技领域重大创新成果的图片来增强网页的趣味性与可读性,但是网络上的信息数据太庞杂,如何快速获取这些数据呢? 学生听教师引导生活中的案例,学生讨论,回答提问。 通过问题导入,引起情感共鸣,激发学习兴趣。
讲授新课 活动1:认识网络爬虫 1、什么是网络爬虫? 一般情况下,我们是通过在网页上搜索、复制、粘贴来获取需要的数据,但是如果需要获取的数据量特别大,这种方式就显得费时费力。我们可以通过编制网络爬虫程序,来实现对数据的自动化采集。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 网络爬虫的工作原理 当你要去某个网站批量下载文章,如果单纯用浏览器的话,你得寻找对应文章,一个个点击下载按钮。 如果这个过程使用爬虫来处理,那么爬虫就会代替我们去服务器请求数据,然后爬虫帮我们去解析数据,按照我们设定好的规则批量下载文章,存储到特定文件中。 网络爬虫爬取数据的实质 网络爬虫爬取就是通过程序模拟浏览网页的行为,将HTML代码进行分析和过滤,实现对图片、文本等资源的获取。 百度并思考:网络爬虫在生活中有哪些应用? (1)舆情分析与监测。政府和企业通过爬虫技术自动采集论坛、博客、新闻媒体等网站的数据,利用数据挖掘方法如词频统计、文本情感计算、主题识别等来发掘舆情热点和跟踪目标话题。 (2)聚合平台。网络爬虫在聚合平台上也有广泛应用,例如返利网、慢慢买等。这些平台使用爬虫技术采集电商平台上的商品信息,并在自己的平台上展示,帮助用户比较价格和找到更优惠的选项。 (3)出行类软件。出行类软件如飞猪、携程、去哪儿等使用网络爬虫技术来不断访问交通出行的官方售票网站,刷新余票信息,以便用户能够快速找到并购买。(生活中常见) (4)市场调研和商业分析。网络爬虫用于抓取特定网站的数据,例如知乎答案、房产买卖信息、招聘网站的职位信息等,用于市场调研和商业分析。 深入思考:抢票软件的工作原理是什么? 大家正常情况下的网上购票,大家都需要手工操作登陆账号、选定乘车的车次和日期等步骤后才能进行购票,往往也是等到这一步完成后票就没有了。而使用抢票软件等于就是把账号交给抢票软件,购票者提供个人信息,上传至服务器数据库。一旦检测到余票就迅速锁定,用爬虫程序代替人的手工,自动地完成这一系列操作。 活动2:编程实现网络爬虫 编写程序前,加载网络爬虫程序需要的模块。 (1)在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话框,在对话框中输入扩展库名称“requests” 。单击“安装”按钮,若出现“Successfully installed”,就表示requests模块安装好了。 (2)在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话框,在对话框中输入扩展库名称“lxml”。单击“安装”按钮,若出现“Successfully installed”,就表示lxml模块安装好了。 正式开始编写程序: 1、启动mpython,单击mpython窗口左上角的“硬件编程”选择python,进入python代码编程界面。 (1)使用requests模块和lxml模块加载网络爬虫程序。 (2)用requests模块的get()方法获取爬虫需要“爬”的网页地址,将网页文本保存在变量txt中,再将网页文本解析为HTML文档。 (3)使用HTML的xpath()方法定位爬虫的位置,并将“爬”到的内容保存在列表变量title 中。 (4) 输出爬虫“爬”到的内容。 2、mpython源程序代码和运行结果。 3、XPath(XML Path Language)是一种小型查询语言,用于在XML(可扩展标记语言)文档中查找信息。 4、获取网页中指定位置的XPath路径地址 (1)使用浏览器打开网页,按F12键进入开发者模式,查看网页源代码; (2)单击“选取页面中的元素”按钮口,选中要抓取的网页内容,对应的,开发者窗格中会有一段高亮显示的代码; (3)将鼠标指针指向高亮代码部分,并在其上面右击; (4)打开快捷菜单,执行“复制”→“复制XPath”命令,就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。 提问:网络爬虫这么厉害,使用时有何注意事项? 活动3:熟悉网络爬虫的“君子协议” 合理合法运用网络爬取: (1)遵守法律法规:确保你的爬取活动符合当地的法律和网络使用规定。 (2)尊重网站的Robots协议:这个文件通常包含了关于爬虫可以访问哪些页面的指示。 (3)用户代理(User-Agent):合理设置用户代理,模拟真实用户的行为。 (4)控制访问频率:设置适当的延迟时间,避免对网站服务器造成过大负担。 (5)错误处理:正确处理网络请求错误和异常。 (6)数据存储:高效且合理地存储爬取的数据。 (7)隐私保护:不爬取或发布个人隐私数据。 (8)动态内容处理:对于 JavaScript 动态生成的内容,需要使用相应的工具和方法。 (9)避免反爬机制:有些网站会采用反爬虫机制,需要相应的策略来应对。 (10)代码和数据的维护:定期检查和更新你的爬虫代码,以应对网站结构的变化。 网络爬虫的Robots规定:网站管理员在网站域名的根目录下存放一个Robots.txt文本文件,文件里指定该网站的哪些内容可以爬取,哪些内容不可以爬取。使用网络爬虫程序采集网站信息前,要先阅读该网站的这个文件,根据文件的规则来采集网站的数据。 练一练:使用python编程爬取我国科技领域的重大创新成果,丰富“科技创新 自主可控”网页内容。 学生聆听教师的讲解,初步了解网络爬虫的概念及工作原理。 通过教师的讲解,以小组合作的方式,开展探讨交流,完成任务。 通过教师的讲解,以小组合作的方式,开展探讨交流,完成任务。 学生熟悉规则,树立起信息社会责任意识。 建立理论知识,便于后期实践。 通过探究网络爬虫在生活中的应用,建立知识与生活的联系。 活动时,注意引导学生在编写前安装库,编写时灵活变通各变量,编写后观察输出内容。注意个别指导。(共14张PPT)
GENERAL TEACHING
1.3使用网页爬虫爬取网页数据
问题导入
图文并茂的网页往往更能吸引人,不妨加入一些我国科技领域重大创新成果的图片来增强网页的趣味性与可读性,但是网络上的信息数据太庞杂,如何快速获取这些数据呢?
活动1:认识网络爬虫
一般情况下,我们是通过在网页上搜索、复制、粘贴来获取需要的数据,但是如果需要获取的数据量特别大,这种方式就显得费时费力。我们可以通过编制网络爬虫程序,来实现对数据的自动化采集。
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
活动1:认识网络爬虫
当你要去某个网站批量下载文章,如果单纯使用浏览器的话,你得寻找对应文章,一个个点击下载按钮。
如果这个过程使用爬虫来处理,那么爬虫就会代替我们去服务器请求数据,然后爬虫帮我们去解析数据,按照我们设定好的规则批量下载文章,存储到特定文件中。
活动1:认识网络爬虫
网络爬虫爬取就是通过程序模拟浏览网页的行为,将HTML代码进行分析和过滤,实现对图片、文本等资源的获取。
思考:网络爬虫在生活中的应用
应用领域 具体实施
舆情分析与监测。 政府和企业通过爬虫技术自动采集新闻媒体等网站的数据,利用数据挖掘方法如词频统计、主题识别等来发掘舆情热点和跟踪目标话题。
聚合平台。 平台使用爬虫技术采集电商平台上的商品信息,并在自己的平台上展示,帮助用户比较价格和找到更优惠选项。
出行类软件。 如飞猪、携程、去哪儿等使用网络爬虫技术来不断访问交通出行的官方售票网站,刷新余票信息,以便用户能够快速找到并购买。
深入思考:抢票软件的工作原理是什么?
大家正常情况下的网上购票,大家都需要手工操作登陆账号、选定乘车的车次和日期等步骤后才能进行购票,往往也是等到这一步完成后票就没有了。而使用抢票软件等于就是把账号交给抢票软件,购票者提供个人信息,上传至服务器数据库。一旦检测到余票就迅速锁定,用爬虫程序代替人的手工,自动地完成这一系列操作。
活动2:编程实现网络爬虫
加载网络爬虫需要的模块:在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话框,在对话框中输入扩展库名称“requests” 。单击“安装”按钮,若出现“Successfully installed”,就表示requests模块安装好了。同理加载库“lxml”。
活动2:编程实现网络爬虫
启动mpython,单击mpython窗口左上角的“硬件编程”选择python,进入python代码编程界面。
活动2:编程实现网络爬虫
使用requests模块和lxml模块加载网络爬虫程序。
用requests模块的get()方法获取爬虫需要“爬”的网页地址,将网页文本保存在变量txt中,再将网页文本解析为HTML文档。
活动2:编程实现网络爬虫
使用HTML的xpath()方法定位爬虫的位置,并将“爬”到的内容保存在列表变量title 中。
输出爬虫“爬”到的内容。
活动2:编程实现网络爬虫
获取网页中指定位置的XPath路径地址
(1)使用浏览器打开网页,按F12键进入开发者模式,查看网页源代码;
(2)单击“选取页面中的元素”按钮口,选中要抓取的网页内容,对应的,开发者窗格中会有一段高亮显示的代码;
(3)将鼠标指针指向高亮代码部分,并在其上面右击;
(4)打开快捷菜单,执行“复制”→“复制XPath”命令,就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。
XPath(XML Path Language)是一种小型查询语言,用于在XML(可扩展标记语言)文档中查找信息。
网络爬虫这么厉害,使用时有何注意事项?
(1)遵守法律法规:确保你的爬取活动符合当地的法律和网络使用规定。
(2)尊重网站的Robots协议:这个文件通常包含了关于爬虫可以访问哪些页面的指示。
(3)用户代理(User-Agent):合理设置用户代理,模拟真实用户的行为。
(4)控制访问频率:设置适当的延迟时间,避免对网站服务器造成过大负担。
(5)错误处理:正确处理网络请求错误和异常。
(6)数据存储:高效且合理地存储爬取的数据。
(7)隐私保护:不爬取或发布个人隐私数据。
(8)动态内容处理:对于 JavaScript 动态生成的内容,需要使用相应的工具和方法。
(9)避免反爬机制:有些网站会采用反爬虫机制,需要相应的策略来应对。
(10)代码和数据的维护:定期检查和更新你的爬虫代码,以应对网站结构的变化。
Robots协议
网络爬虫的Robots规定:网站管理员在网站域名的根目录下存放一个Robots.txt文本文件,文件里指定该网站的哪些内容可以爬取,哪些内容不可以爬取。使用网络爬虫程序采集网站信息前,要先阅读该网站的这个文件,根据文件的规则来采集网站的数据。
练一练:使用python编程爬取我国科技领域的重大创新成果,丰富“科技创新 自主可控”网页内容。

展开更多......

收起↑

资源列表