【新课标】电子工业版信息技术七下 1.3 使用网络爬虫爬取网页数据课件+教案+素材

资源简介

中小学教育资源及组卷应用平台
信息科技第3课使用网络爬虫爬取网页数据教学设计
课题使用网络爬虫爬取网页数据单元第一单元学科信息科技年级七年级下
教材分析使用网络爬虫爬取网页数据选自《信息科技》（电子工业版）的第一章第三节的内容，教材由“认识网络爬虫”、“编程实现网络爬虫”、“熟悉网络爬虫的‘君子协议’”三部分内容组成。学生通过对本教材的学习逐步掌握信息科技的相关知识，具备一定的科学精神和科技伦理，提高创新能力，夯实信息社会责任，发挥信息科技课程的独特育人价值，为数字强国培养优秀接班人和建设者。
教学目标 1、信息意识：具有自主动手解决问题、掌握核心技术的意识。2、计算思维：知道网络中信息编码、传输和呈现的原理。3、数字化学习与创新：根据任务要求，借助在线平台，合作伙伴协作设计和创作作品。4、信息社会责任：明确科技活动中应遵循的价值观念、道德责任和行为准则。
重点 1、了解网络爬虫的概念与工作过程；2、了解网络爬虫爬取数据的实质；3、了解网络爬虫的“君子协议”—Robots协议概念。
难点 1、掌握mpython源程序代码；2、掌握网络爬虫的“君子协议” 规定和注意事项。
教学过程
教学环节教师活动学生活动设计意图
导入新课随着大数据等技术的发展，网络爬虫的影响力逐渐增加，不仅爬数、甚至于抢票、盗号、供给计算机系统等，也都有爬虫的身影，而使得它渐渐进入公众视野。网络爬虫又称为“网页蜘蛛”“网络机器人”，是互联网时代下的一种网络信息搜集技术，也可以理解为一种自动在网络上模拟人操作行为的计算机程序。观看视频引出今天的教学内容使用网络爬虫爬取网页数据。学生听教师引导生活中的案例，学生讨论，回答提问。激发学生对网络爬虫爬取网页数据的学习兴趣并快速进入学习状态。
讲授新课一、认识网络爬虫1、人们通过在网页上搜索、复制、粘贴来获取数据，那么互联网中常用的获取数据的方式：（1）爬虫抓取；（2）API调用；（3）WEB采集工具；（4）数据库查询；（5）人工采集。2、网络爬虫也叫网络蜘蛛，是一种按照一定规则自动抓取网页数据的网络机器人。3、网络爬虫如何爬取数据。（1）互联网比作蜘蛛网；（2）数据存放在各个节点；（3）网络爬虫就像一只蜘蛛；（4）网络路径去 “探测”数据；（5）数据“搬运”回来。练一练思考——网络中信息如何编码与呈现。网页上的文本、图片等，就是使用HTML代码进行编码，经过浏览器“翻译”呈现出来。4、网络爬虫爬取数据的实质。网络爬虫爬取就是通过程序模拟浏览网页的行为，将HTML代码进行分析和过滤，实现对图片、文本等资源的获取。5、网络爬虫在日常生活中的应用。二、编程实现网络爬虫1、启动mpython，单击mpython窗口左上角的“硬件编程”选择python，进入python代码编程界面。（1）使用requests模块和lxml模块加载网络爬虫程序。（2)用requests模块的get()方法获取爬虫需要“爬”的网页地址，将网页文本保存在变量txt中，再将网页文本解析为HTML文档。（3）使用HTML的xpath()方法定位爬虫的位置，并将“爬”到的内容保存在列表变量title 中。（4) 输出爬虫“爬”到的内容。2、mpython源程序代码和运行结果。3、加载网络爬虫程序需要的模块。（1）在mPython的Python编程界面中单击上方的“添加库”，再单击“PIP安装”，打开一个对话框，在对话框中输入扩展库名称“requests” 。单击“安装”按钮，若出现“Successfully installed”，就表示requests模块安装好了。（2）在mPython的Python编程界面中单击上方的“添加库”，再单击“PIP安装”，打开一个对话框，在对话框中输入扩展库名称“lxml”。单击“安装”按钮，若出现“Successfully installed”，就表示lxml模块安装好了。4、XPath(XML Path Language)是一种小型查询语言，用于在XML(可扩展标记语言)文档中查找信息。5、获取网页中指定位置的XPath路径地址（1）使用浏览器打开网页，按F12键进入开发者模式，查看网页源代码；（2）单击“选取页面中的元素”按钮口，选中要抓取的网页内容，对应的，开发者窗格中会有一段高亮显示的代码;（3）将鼠标指针指向高亮代码部分，并在其上面右击;（4）打开快捷菜单，执行“复制”→“复制XPath”命令，就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。三、熟悉网络爬虫的“君子协议”1、网络爬虫的“君子协议”——Robots 协议(爬虫协议、机器人协议)，其全称是网络爬虫排除标准。2、网络爬虫的“君子协议” 规定：网站管理员在网站域名的根目录下存放一个Robots.txt文本文件，文件里指定该网站的哪些内容可以爬取，哪些内容不可以爬取。使用网络爬虫程序采集网站信息前，要先阅读该网站的这个文件，根据文件的规则来采集网站的数据。3、网络爬虫爬取数据注意事项：（1）爬取网页数据时，要严格遵守网站的Robots协议；（2）在爬取要使用的信息前，应先进行审查；（3）如发现用户的个人信息或商业秘密，应及时停止爬取并删除已爬取的信息。4、例：禁止所有搜索引擎访问网站的任何部分。实例分析：淘宝网的Robots.txt文件User-agent: BaiduspiderDisallow: /User-agent: baiduspiderDisallow: /淘宝不允许百度的机器人访问其网站下其所有的目录。项目实施1、使用python编程爬取我国科技领域的重大创新成果，放入到“科技创新自主可控”的网页中。2、结合制作网页、爬取网页信息的过程，归纳总结自己对网页信息编码和解码的认识。练一练1、编辑网页信息的方法。（1）在线HTML编辑器；（2）专业的网页编辑工具；（3）记事本编写网页源代码；（4）文本类的工具编写网页源代码。2、HTML语言。HTML的全称为超文本标记语言，是一种标记语言。它包括一系列标签，通过这些标签可以将网络上的文档格式统一，使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本，HTML命令可以说明文字，图形、动画、声音、表格、链接网页字符编码格式。3、网络中信息编码的呈现的原理。网页上的文本、图片等，就是使用HTML代码进行编码，经过浏览器“翻译”呈现出来。网页字符编码格式主要采用UTF-8编码（适用于各种语言）和GB2312编码（适用于简体汉语）。本章总结1、学习使用网页编辑工具创建网络文档，表达创作思想。2、知道网络中信息编码及呈现的原理。3、认识网络爬虫，了解网络爬虫的作用。4、掌握通过编写网络爬虫程序来获取网页信息的方法。5、知道使用网络爬虫程序获取网页信息时要遵守基本的道德规范。通过教师的讲解，以小组合作的方式，开展探讨交流，完成任务。通过教师的讲解，以小组合作的方式，开展探讨交流，完成任务。通过教师的讲解，以小组合作的方式，开展探讨交流，完成任务。通过教师的讲解，以小组合作的方式，开展探讨交流，完成任务通过教师的讲解，以小组合作的方式，开展探讨交流，完成任务。通过小组合作，加强学生组内团结、共同完成任务培养学生独立思考的能力，提高信息技术意识培养学生的探究能力培养学生独立思考的能力，提高信息技术意识
布置作业 1、如果把互联网比喻成一个庞大的蜘蛛网，（）便存放于蜘蛛网中的各个节点上。 2、网络爬虫也叫（），是一种按照一定的规则，抓取网页数据的网络机器人。完成作业培养学生查阅资料的能力，分析解决问题的能力
课堂小结本次课首先了解网络爬虫的概念与工作过程，了解网络爬虫爬取数据的实质，掌握mpython源程序代码，接着讲授了网络爬虫的“君子协议”——Robots协议概念，最后探讨了网络爬虫的“君子协议”规定和注意事项。分组总结归纳锻炼学生的总结能力，逻辑思维、语言表达能力。
板书一、认识网络爬虫1、网络爬虫的概念2、网络爬虫的工作过程3、网络爬虫爬取数据的实质二、编程实现网络爬虫1、编写mpython源程序代码2、mpython源程序代码和运行结果3、加载网络爬虫程序需要的模块三、熟悉网络爬虫的“君子协议”1、网络爬虫的“君子协议”——Robots协议概念2、网络爬虫的“君子协议” 规定3、网络爬虫爬取数据注意事项4、对Robots 协议的理解学习、记忆及勾画知识点明确教学内容及重点和难点
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页（共 2 页）
HYPERLINK "http://www.21cnjy.com/" 21世纪教育网(www.21cnjy.com)(共51张PPT)
1.3 使用网络爬虫
爬取网页数据
电子工业版七年级下册
教学目标
1、了解网络爬虫的概念与工作过程；
2、了解网络爬虫爬取数据的实质；
3、掌握mpython源程序代码；
4、了解网络爬虫的“君子协议”—Robots协议概念；
5、掌握网络爬虫的“君子协议” 规定和注意事项。
新知导入
1.3.1 认识网络爬虫
新知讲解
人们通过在网页上搜索、复制、粘贴来获取数据，那么互联网中常用的获取数据的方式：
（1）爬虫抓取；
（2）API调用；
（3）WEB采集工具；
（4）数据库查询；
（5）人工采集。
新知讲解
网络爬虫也叫网络蜘蛛，是一种按照一定规则自动抓取网页数据的网络机器人。
爬
虫
节
点
爬
虫
节
点
爬
虫
节
点
爬
虫
节
点
爬
虫
节
点
爬
虫
节
点
爬
虫
节
点
爬
虫
节
点
爬
虫
节
点
控制节点
控制
节点
控制节点
控制节点
新知讲解
网络爬虫如何爬取数据。
（1）互联网比作蜘蛛网；
（2）数据存放在各个节点；
（3）网络爬虫就像一只蜘蛛；
（4）网络路径去 “探测”数据；
（5）数据“搬运”回来。
新知讲解
思考——网络中信息如何编码与呈现。
网页上的文本、图片等，就是使用HTML代码进行编码，经过浏览器“翻译”呈现出来。
新知讲解
网络爬虫爬取数据的实质。
网络爬虫爬取就是通过程序模拟浏览网页的行为，将HTML代码进行分析和过滤，实现对图片、文本等资源的获取。
新知讲解
网络爬虫在日常生活中的应用。
应用案例具体实施
理财分析师了解当前金融市场的情况使用网络爬虫获取各个金融网站的相关数据
旅游公司了解不同地区的天气信息使用网络爬虫获取不同地区天气预报网站发布的天气数据
房产销售人员及时掌握房产动态使用网络爬虫获取不同房产网站的房屋销售数据
1.3.2 编程实现网络爬虫
新知讲解
1、启动mpython，单击mpython窗口左上角的“硬件编程”选择python，进入python代码编程界面。
新知讲解
（1）使用requests模块和lxml模块加载网络爬虫程序:
import requests #加载requests模块
from lxml import etree #加载1xml模块
（2)用requests模块的get()方法获取爬虫需要“爬”的网页地址，将网页文本保存在变量txt中，再将网页文本解析为HTML文档:
txt=requests.get('https://news./tech').content.decode('utf-8')
HTML=etree.HTML(txt)
新知讲解
（3）使用HTML的xpath()方法定位爬虫的位置，并将“爬”到的内容保存在列表变量title 中：
title=HTML.xpath('//*[@id="internet_news"]/u1/1i/a/text()')
（4) 输出爬虫“爬”到的内容：
for i in title: #循环输出所有爬虫“爬”到的新闻标题
print(i)
新知讲解
2、mpython源程序代码和运行结果。
新知讲解
加载网络爬虫程序需要的模块。
在mPython的Python编程界面中单击上方的“添加库”，再单击“PIP安装”，打开一个对话框，在对话框中输入扩展库名称“requests” 。单击“安装”按钮，若出现“Successfully installed”，就表示requests模块安装好了。
新知讲解
加载网络爬虫程序需要的模块。
在mPython的Python编程界面中单击上方的“添加库”，再单击“PIP安装”，打开一个对话框，在对话框中输入扩展库名称“lxml” 。单击“安装”按钮，若出现“Successfully installed”，就表示lxml模块安装好了。
新知讲解
XPath(XML Path Language)是一种小型查询语言，用于在XML(可扩展标记语言)文档中查找信息。
新知讲解
获取网页中指定位置的XPath路径地址
（1）使用浏览器打开网页，按F12键进入开发者模式，查看网页源代码；
（2）单击“选取页面中的元素”按钮口，选中要抓取的网页内容，对应的，开发者窗格中会有一段高亮显示的代码;
（3）将鼠标指针指向高亮代码部分，并在其上面右击;
（4）打开快捷菜单，执行“复制”→“复制XPath”命令，就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。
新知讲解
获取XPath路径地址
1.3.3 熟悉网络爬虫的“君子协议”
新知讲解
思考——网络爬虫是不是可以获取任何网站内容？
不可以。
（1）封装的过网页不能获取；
（2）动态网页不能获取；
（3）屏蔽网络爬虫设置的网站；
（4）涉及到国家、企业或个人秘密的网站不可爬取数据。
新知讲解
思考——爬取到的信息可以随便使用吗？
不可以。
爬取到的信息也要相应的道德规范。网络爬虫如果不严格控制网络采集的速度，会对被采集网站服务器造成很重的负担。恶意消耗别人网站的服务器资源，甚至是拖垮别人网站是一件不道德的事情。
新知讲解
网络爬虫的“君子协议”——Robots 协议(爬虫协议、机器人协议)，其全称是网络爬虫排除标准。
新知讲解
网络爬虫的“君子协议” 规定：网站管理员在网站域名的根目录下存放一个Robots.txt文本文件，文件里指定该网站的哪些内容可以爬取，哪些内容不可以爬取。使用网络爬虫程序采集网站信息前，要先阅读该网站的这个文件，根据文件的规则来采集网站的数据。
新知讲解
网络爬虫爬取数据注意事项：
（1）爬取网页数据时，要严格遵守网站的Robots协议；
（2）在爬取要使用的信息前，应先进行审查；
（3）如发现用户的个人信息或商业秘密，应及时停止爬取并删除已爬取的信息。
新知讲解
例：禁止所有搜索引擎访问网站的任何部分。
实例分析：淘宝网的Robots.txt文件
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
淘宝不允许百度的机器人访问其网站下其所有的目录。
新知讲解
对Robots协议的理解。
项目实施
1、使用python编程爬取我国科技领域的重大创新成果，放入到“科技创新自主可控”的网页中。
爬取2017年腾讯科技频道新闻的python代码
项目实施
“科技创新自主可控” 网页样例
新知讲解
2、结合制作网页、爬取网页信息的过程，归纳总结自己对网页信息编码和解码的认识。
（1）“<>” 就是HTML语言的标签，用来对网页上的标题、图片、声音等元素进行标识。
（2）网页的全部内容需在··· 标签中。
（3）浏览器标题栏中的网页标题等信息主要放在··· 标签中。
（4）网页展示的内容需要嵌套在··· 标签中。
课堂练习
1、简述互联网中常用的获取数据的方式。
2、简述网络爬虫如何爬取数据。
3、简述网络爬虫爬取数据注意事项。
课堂练习
1、简述互联网中常用的获取数据的方式。
答：
（1）爬虫抓取；
（2）API调用；
（3）WEB采集工具；
（4）数据库查询；
（5）人工采集。
课堂练习
2、简述网络爬虫如何爬取数据。
答：
（1）互联网比作蜘蛛网；
（2）数据存放在各个节点；
（3）网络爬虫就像一只蜘蛛；
（4）网络路径去 “探测”数据；
（5）数据“搬运”回来。
课堂练习
3、简述网络爬虫爬取数据注意事项。
答：
（1）爬取网页数据时，要严格遵守网站的Robots协议；
（2）在爬取要使用的信息前，应先进行审查；
（3）如发现用户的个人信息或商业秘密，应及时停止爬取并删除已爬取的信息。
课堂总结
本次课首先了解网络爬虫的概念与工作过程，了解网络爬虫爬取数据的实质，掌握mpython源程序代码，接着讲授了网络爬虫的“君子协议”——Robots协议概念，最后探讨了网络爬虫的“君子协议”规定和注意事项。
板书设计
使用网络爬虫爬取网页数据
一、认识网络爬虫
1、网络爬虫的概念
2、网络爬虫的工作过程
3、网络爬虫爬取数据的实质
二、编程实现网络爬虫
1、编写mpython源程序代码
2、mpython源程序代码和运行结果
3、加载网络爬虫程序需要的模块
三、熟悉网络爬虫的“君子协议”
1、网络爬虫的“君子协议”——Robots协议概念
2、网络爬虫的“君子协议” 规定
3、网络爬虫爬取数据注意事项
4、对Robots 协议的理解
课后作业
1、如果把互联网比喻成一个庞大的蜘蛛网，（）便存放于蜘蛛网中的各个节点上。
2、网络爬虫也叫（），是一种按照一定的规则，抓取网页数据的网络机器人。
作业布置
1、如果把互联网比喻成一个庞大的蜘蛛网，便存放于蜘蛛网中的各个节点上。
2、网络爬虫也叫，是一种按照一定的规则，抓取网页数据的网络机器人。
3、我们可以把爬虫技术归纳为请求、和存储三个基本流程。
4、Robots 协议的全称是。
作业布置
5、下列有关网络爬虫的说法中，正确的是( )。
A、只要是网络上的信息，都可以通过网络爬虫获取
B、网络爬虫程序只能通过 Python 语言编写
C、使用lxml模块编写Python网络爬虫程序，可以不加载requests模块
D、XPath 地址可以在浏览器的开发者模式中通过复制得到
6、举例说明网络爬虫在日常生活中的应用。
7、网络爬虫爬取网页的过程。
作业布置
1、如果把互联网比喻成一个庞大的蜘蛛网，数据便存放于蜘蛛网中的各个节点上。
2、网络爬虫也叫网络蜘蛛，是一种按照一定的规则，抓取网页数据的网络机器人。
3、我们可以把爬虫技术归纳为请求、解析和存储三个基本流程。
4、Robots 协议的全称是网络爬虫排除标准。
作业布置
5、下列有关网络爬虫的说法中，正确的是( D )。
A、只要是网络上的信息，都可以通过网络爬虫获取
B、网络爬虫程序只能通过 Python 语言编写
C、使用lxml模块编写Python网络爬虫程序，可以不加载requests模块
D、XPath 地址可以在浏览器的开发者模式中通过复制得到
作业布置
6、举例说明网络爬虫在日常生活中的应用。
（1）搜索引擎抓取网页信息。
（2）爬取需要数据进行统计。
（3）出行类软件通过爬虫抢票。
（4）聚合平台整合信息进行比较。
（5）爬取个人信用信息。
作业布置
7、网络爬虫爬取网页的过程。
网络爬虫的流程主要可以分为三步：获取网页、解析网页以及存储数据。（1）获取网页：获取网页信息，获取网页源代码。
（2）解析网页：从网页源代码中提取想要的数据，由于网页结构有一定规则，配合 Python第三方库可以高效地提取网页数据。
（3）存储数据：将数据存储下来。
项目总结
1、编辑网页信息的方法。
（1）在线HTML编辑器；
（2）专业的网页编辑工具；
（3）记事本编写网页源代码；
（4）文本类的工具编写网页源代码。
项目总结
2、HTML语言。
HTML的全称为超文本标记语言，是一种标记语言。它包括一系列标签，通过这些标签可以将网络上的文档格式统一，使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本，HTML命令可以说明文字，图形、动画、声音、表格、链接网页字符编码格式。
项目总结
3、网络中信息编码的呈现的原理。
网页上的文本、图片等，就是使用HTML代码进行编码，经过浏览器“翻译”呈现出来。
网页字符编码格式主要采用UTF-8编码（适用于各种语言）和GB2312编码（适用于简体汉语）。
本章总结
单元总结
1、学习使用网页编辑工具创建网络文档，表达创作思想。
2、知道网络中信息编码及呈现的原理。
3、认识网络爬虫，了解网络爬虫的作用。
4、掌握通过编写网络爬虫程序来获取网页信息的方法。
5、知道使用网络爬虫程序获取网页信息时要遵守基本的道德规范。
单元总结
谢谢
21世纪教育网（www.21cnjy.com)
中小学教育资源网站
兼职招聘：
https://www.21cnjy.com/recruitment/home/admin

展开更多......

收起↑

请用微信扫码

【新课标】电子工业版信息技术七下 1.3 使用网络爬虫爬取网页数据 课件+教案+素材

【新课标】电子工业版信息技术七下 1.3 使用网络爬虫爬取网页数据 课件+教案+素材

【新课标】电子工业版信息技术七下 1.3 使用网络爬虫爬取网页数据课件+教案+素材

【新课标】电子工业版信息技术七下 1.3 使用网络爬虫爬取网页数据课件+教案+素材