电子工业社版(2022)七下信息科技 1.3 使用网络爬虫爬取网页数据 课件(共19张PPT)+教案(表格式)+学习单+练习+配套资源

资源下载
  1. 二一教育资源

电子工业社版(2022)七下信息科技 1.3 使用网络爬虫爬取网页数据 课件(共19张PPT)+教案(表格式)+学习单+练习+配套资源

资源简介

(共19张PPT)
情境导入:
本单元项目式 主题:校园科技节
为了使制作出的网页更加吸引人,我们决定多找一些我国科技领域重大创新成果的相关图片或文本来丰富网页。但是网络上相关信息太多,如何快速获取这些信息呢
《1.3使用网页爬虫爬取网页数据》
2023年电子工业出版社 七年级下册
-第1单元 解密互联网中的信息编码 -
珠珠老师
信息科技 课件
2022新版课标内容
1
活动1:认识网络爬虫
2
活动2:编程实现网络爬虫
《目录》
信息科技
3
活动3:熟悉网络爬虫的“君子协议”
01
认识网络爬虫
活动1
01.知识点讲解
一般情况下,我们是通过在网页上搜索、复制、粘贴来获取需要的数据,但是如果需要获取的数据量特别大,这种方式就显得费时费力。我们可以通过编制网络爬虫程序(以下简称为网络爬虫) 来实现对数据的自动化采集。
活动1:认识网络爬虫
01
什么是网络爬虫
01.知识点讲解
网络爬虫就是模拟我们浏览网页的行为,再将站点返回的HTML代码放到本地,保存并使用。
01
网络爬虫小总结
活动1:认识网络爬虫
原则上只要浏览器能做的事情,爬虫都能做!
02
编程实现网络爬虫
活动2
01.知识点讲解
使用Python语言可以方便地编写网络爬虫的程序,获取网页中的信息。
活动2:编程实现网络爬虫
02
接下来教师演示使用python语言编写获取网页信息的网络爬虫程序。
01.知识点讲解
活动2:编程实现网络爬虫
02
(5)输出爬虫“爬”到的内容:
(1)启动mPython,单击mPython窗口左上角的“硬件编程”,打开下拉列表,选择“Python”,进入Python代码编程界面,按以下步骤编写程序。
(2)使用requests模块和lxml模块加载网络爬虫程序:
(3)用requests模块的get)方法获取爬虫需要“爬”的网页地址,将网页文本保存在变量txt中,再将网页文本解析为HTML文档:
(4)使用HTML的xpath()方法定位爬虫的位置,并将“爬”到的内容保存在列表变量title中:
(6)运行程序,在mPython窗口右侧可以看到程序的运行结果。
01.知识点讲解
上述程序中用到了Python语言的两个扩展模块,下面介绍安装扩展模块的方法。
在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话框,在对话框中输入扩展库名称“requests”,如下图所示。单击“安装”按钮,若出现“Successfully installed”,就表示requests模块安装好了,然后可以按同样的方法安装Ixml模块。
02
知识
拓展
活动2:编程实现网络爬虫
加载网络爬虫程序需要的模块
01.知识点讲解
XPath(XML Path Language)是一种小型查询语言,用于在XML(可扩展标记语言)文档中查找信息。
可以采用以下方法获取网页中指定位置的XPath地址:
(1)使用浏览器打开网页,按F12键进入开发者模式,查看网页源代码;
(2)单击“选取页面中的元素”按钮,选中要抓取的网页内容,对应的,开发者窗格中会有一段高亮显示的代码;
(3)将鼠标指针指向高亮代码部分,并在其上面右击;
(4)打开快捷菜单,执行“复制”→“复制XPath”命令,如下图所示,就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。
02
活动2:编程实现网络爬虫
获取网页中指定位置的XPath路径地址
01.知识点讲解
02
活动2:编程实现网络爬虫
获取网页中指定位置的XPath路径地址
需要注意的是,虽然用网络爬虫获取网站内容的方法有很多,但使用网络爬虫并不能获取所有希望获取的网站内容,如封装过的网页或动态网页,以及做了屏蔽网络爬虫设置的网站等,都无法获取。
03
熟悉网络爬虫的“君子协议”
活动3
在使用网络爬虫爬取网络信息时,可以随便爬取吗 爬取到的信息都可以随便使用吗 结合使用网络爬虫的体验,尝试制订合理的网络爬虫协议,并写在导学案中。
讨论与交流
01.知识点讲解
03
活动3:熟悉网络爬虫的“君子协议”
01.知识点讲解
为了规范网络爬虫的使用,一些搜索引擎从业者和网站站长定下了“君子协议”——Robots协议(爬虫协议、机器人协议),其全称是网络爬虫排除标准。
协议规定:网站管理员在网站域名的根目录下存放一个Robots.txt文本文件,文件里指定该网站的哪些内容可以爬取,哪些内容不可以爬取。使用网络爬虫程序采集网站信息前,要先阅读该网站的这个文件,根据文件的规则来采集网站的数据。
我们在使用网络爬虫爬取网页数据时,要严格遵守网站的Robots协议,在爬取要使用的信息前,应先进行审查,如发现用户的个人信息或商业秘密,应及时停止爬取并删除已爬取的信息。
03
助力知识:君子协议
活动3:熟悉网络爬虫的“君子协议”
1.使用Python编程爬取我国科技领域的重大创新成果,选取你认为合适的内容,并进行适当编辑,放入“科技创新自主可控”的网页中。
2.结合制作网页、爬取网页信息的过程,归纳总结自己对网页信息编码和解码的认识,并写在导学案上。
项目实施
01.知识点讲解
03
活动3:熟悉网络爬虫的“君子协议”
巩固练习
1.如果把互联网比喻成一张庞大的蜘蛛网,______便存放于蜘蛛网中的各个节点上。
2.网络爬虫也叫_____________,是一种按照一定的规则,自动抓取网页数据的网络机器人:
3.我们可以把爬虫技术归纳为请求、___________和存储三个基本流程。
4.Robots协议的全称是_____________。
5.举例说明网络爬虫在日常生活中的应用。
6.查阅相关资料,进一步了解网络爬虫爬取网页的过程。
01.知识点讲解
课堂总结
活动1:认识网络爬虫
知道网络爬虫是什么,有什么作用
活动2:编程实现网络爬虫
能用编程爬取自己想要的内容
1
2
goodbye
活动3:熟悉网络爬虫的“君子协议”
知道网络爬虫的道德规范
3
《感谢观看》
- Thank for Viewing -
珠珠老师
2023年电子工业出版社 七年级下册《1.3使用网页爬虫爬取网页数据》教学设计
教学内容分析
本节课是2022年电子工业出版社出版的七年级下册第一单元第3课。本节课分为三个活动:“认识网络爬虫”“编程实现网络爬虫”“熟悉网络爬虫的君子协议”三部分内容组成。学生通过小组合作探究学习逐步掌握本节课的知识点,具备一定的小组合作能力、探究能力、创新能力等,提升信息社会责任,综合提升信息素养。
教学目标及核心素养指向
1、认识网络爬虫,了解网络爬虫的概念与工作过程;(信息意识、计算思维) 2、能用mpython编程实现网络爬虫;(信息意识、计算思维、数字化学习与创新) 3、了解网络爬虫“君子协议”的概念,掌握网络爬虫的“君子协议”规定和注意事项。(信息意识、计算思维、数字化学习与创新、信息社会责任)
教学重难点
教学重点: 1、认识网络爬虫,了解网络爬虫的概念与工作过程 设计原因:了解网络爬虫的原理是本节课的主要内容,知识点的渗透需要作为重点内容。 教学难点: 1、能用mpython编程实现网络爬虫,了解网络爬虫“君子协议”的概念,掌握网络爬虫的“君子协议”规定和注意事项。 设计原因:在知道网络爬虫的基础上进行操作对学生来说比较困难,所以此部分对学生来说难度较高,应作为难点内容。
教学过程
1、情境导入(3分钟)
教师活动 学生活动
情境引入:为了使制作出的网页更加吸引人,我们决定多找一些我国科技领域重大创新成果的相关图片或文本来丰富网页。但是网络上相关信息太多,如何快速获取这些信息呢 学生听教师引导生活中的案例,学生讨论,回答提问
设计意图: 激发学生对网络爬虫的学习兴趣并快速进入学习状态。
2、新知讲授(35分钟)
教师活动 学生活动
活动1:认识网络爬虫 播放微视频:什么是网络爬虫 一般情况下,我们是通过在网页上搜索、复制、粘贴来获取需要的数据,但是如果需要获取的数据量特别大,这种方式就显得费时费力。我们可以通过编制网络爬虫程序(以下简称为网络爬虫) 来实现对数据的自动化采集。 网络爬虫注意事项:网络爬虫就是模拟我们浏览网页的行为,再将站点返回的HTML代码放到本地,保存并使用。 原则上只要浏览器能做的事情,爬虫都能做! 活动2:编程实现网络爬虫 使用Python语言可以方便地编写网络爬虫的程序,获取网页中的信息。 加载网络爬虫程序需要的模块 上述程序中用到了Python语言的两个扩展模块,下面介绍安装扩展模块的方法。 在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话框,在对话框中输入扩展库名称“requests”,如下图所示。单击“安装”按钮,若出现“Successfully installed”,就表示requests模块安装好了,然后可以按同样的方法安装Ixml模块。 获取网页中指定位置的XPath路径地址 XPath(XML Path Language)是一种小型查询语言,用于在XML(可扩展标记语言)文档中查找信息。 可以采用以下方法获取网页中指定位置的XPath地址: (1)使用浏览器打开网页,按F12键进入开发者模式,查看网页源代码; (2)单击“选取页面中的元素”按钮,选中要抓取的网页内容,对应的,开发者窗格中会有一段高亮显示的代码; (3)将鼠标指针指向高亮代码部分,并在其上面右击; (4)打开快捷菜单,执行“复制”→“复制XPath”命令,如下图所示,就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。 活动3:熟悉网络爬虫的君子协议 新知讲授 为了规范网络爬虫的使用,一些搜索引擎从业者和网站站长定下了“君子协议”——Robots协议(爬虫协议、机器人协议),其全称是网络爬虫排除标准。 协议规定:网站管理员在网站域名的根目录下存放一个Robots.txt文本文件,文件里指定该网站的哪些内容可以爬取,哪些内容不可以爬取。使用网络爬虫程序采集网站信息前,要先阅读该网站的这个文件,根据文件的规则来采集网站的数据。 我们在使用网络爬虫爬取网页数据时,要严格遵守网站的Robots协议,在爬取要使用的信息前,应先进行审查,如发现用户的个人信息或商业秘密,应及时停止爬取并删除已爬取的信息。 学生通过教师的讲解,以小组合作的方式,开展探讨交流,完成任务 活动1:认识网络爬虫 学生听讲 活动2:编程实现网络爬虫 学生听讲 活动3:熟悉网络爬虫的君子协议 小组合作交流 在使用网络爬虫爬取网络信息时,可以随便爬取吗 爬取到的信息都可以随便使用吗 结合使用网络爬虫的体验,尝试制订合理的网络爬虫协议,并写在导学案中。 小组合作 项目实施 1.使用Python编程爬取我国科技领域的重大创新成果,选取你认为合适的内容,并进行适当编辑,放入“科技创新自主可控”的网页中。 2.结合制作网页、爬取网页信息的过程,归纳总结自己对网页信息编码和解码的认识,并写在导学案上。
设计意图: 培养学生独立思考的能力,提高核心素养。
3、课堂小结(7分钟)
教师活动 学生活动
总结本课内容: 活动1:认识网络爬虫 活动2:编程实现网络爬虫 活动3:熟悉网络爬虫的君子协议 学生一同回答并梳理知识
设计意图: 帮助学生梳理本节课知识,加深学生对知识的理解。(共1张PPT)
1
活动1:认识网络爬虫
网络爬虫:________________________________________________________
班级:7年__班
组别:______
小组合作体验探究:用mPython编程实现网络爬虫
学习单
2
活动2:编程实现网络爬虫
3
活动3:熟悉网络爬虫的“君子协议”
网络爬虫协议:___________________________________________________________________
小组合作:项目实施
1.使用Python编程爬取我国科技领域的重大创新成果,选取你认为合适的内容,并进行适当编辑,放入“科技创新自主可控”的网页中。
2.我认为的网页信息编码和解码是:_________________________________________
(1)启动mPython.单击mPython窗口左上角的“硬件编程".打开下拉列表,选择“Python",进入
Python代码编程界面,按以下步骤编写程序。
(2)使用requests模块和lxml模块加载阳络爬虫程序:
import requests#加载requests模块
from lxml import etree#加载lxml模块
(3)用requests模块的get)方法获取爬虫需要“爬"的网页地址.将阳页文本保存在变量十x十中
再将网页文本解析为HTML文档:
txt requests.get('https://news./tech').content.decode('utf-8')
HTML =etree.HTML(txt)
(4)使用HTML的xpoh()方法定位爬虫的位置,并将“爬"到的内容保存在列表变量it|e中:
title =HTML.xpath('//*[@id="internet_news"]/ul/li/a/text()')
(5)输出爬虫“爬"到的内容:
for i in title:#循环输出所有爬虫“爬"到的新闻标题print(i)
print(i)
(6)运行程序,在mPython窗口右侧可以看到程序的运行结果。班级:___________ 姓名:______________
《1.3使用网页爬虫爬取网页数据》作业设计
作业分析
作业类型 基础型作业 探究型作业 实践型作业 跨学科综合作业
作业类别 课时作业 单元作业 学期作业
应用场景 课前预习 课中练习 课后作业
作业对象 全体学生作业 学生根据情况可选作业
设计思路 通过比较、综合、拓展,巩固本节课知识点,举一反三,让学生自主探究,掌握新知,沟通交流,提升协作能力。
作业内容
【难度等级:★】1.如果把互联网比喻成一张虑大的蜘蛛网,____________便存放于轴蛛网中的各个节点上。 【难度等级:★★】2.网络爬虫也叫___________,是一种按照一定的规则,自动抓取网页数据的网络机署人。 【难度等级:★★★】3.我们可以把爬虫技术归的为请求、___________和存储三个基本流程。 【难度等级:★★】4.Robots协议的全称是____________________________. 【难度等级:★★★】5.下列有关网络腐虫的说法中,正确的是( )。 A.只要是网络上的信息,都可以通过网络爬虫获取 B.网络爬虫程序只能使用Python语言编写 C.使用lxml模块编写Python网络爬虫程序,可以不加载requess模块 D.XPath地址可以在浏览器的开发者模式中通过复制得到 【难度等级:★★】6.举例说明网络爬虫在日常生活中的应用。 【难度等级:★★★】7.查阅相关资料,进一步了解网络爬虫院取网页的过程。

展开更多......

收起↑

资源列表