5.2数据的采集-2 课件(共20张PPT)　2022—2023学年高中信息技术粤教版（2019）必修1

资源简介

(共20张PPT)
第五章数据处理和可视化表达
5.2数据的采集
（第二课时）
一、本章情况
学习目标
（1）了解大数据的概念，理解大数据的特征，知道大数据对日常生活的影响，明晰传统数据与大数据的区别；
（2）了解数据采集的方法和工具，掌握数据的存储方式，理解对数据进行保护的意义；
（3）知道数据预处理及分析，体验多种数据分析技术；
（4）学会选用恰当的工具处理数据，学会总结和归纳数据分析的方法和步骤；
（5）了解数据可视化两种呈现类型，学会选用恰当的工具可视化表达数据。
5.1认识大数据
5.2数据的采集
5.3数据的分析
5.4数据的可视化表达
教学内容
二、项目指导
交流分享
依据自己小组项目实施的实际情况，对于项目实施过程的进度、亮点、困难予以分享，交流。
1. 项目完成基本情况。
2.对所选定主题的大数据特征进行分析。
三、学习新知
2. 网络数据采集法
探究活动
分析网页“wholesale.html”的内容，网页通过本地网站访问，网址http://127.0.0.1/wholesale.html。
网页为鞋类销售数据。
打开程序文件“程序5-2-2 爬取程序.py”，分析程序代码中使用了哪些库？URL是什么？
本程序只使用1个网页的数量，暂时不爬取其他 URL 的数据。
三、学习新知
探究活动
运行程序 “程序5-2-2 爬取程序.py”，得到导出的电子表格。
对比网页“wholesale.html”和电子表格中的数据，分析网络爬虫程序获取了哪些数据？
分析本程序的基本结构。
三、学习新知
2. 网络数据采集法
程序分析
（1）爬取网页的内容
for i in range(0, 5): # 循环5次，就是5个页的商品数据
payload['page'] = i+ 1 # 此处为页码，根据网页参数具体设置
resp = requests.get(url, params=payload)
soup = bs4.BeautifulSoup(resp.text, "html.parser")
print(resp.url) # 打印访问的网址
resp.encoding = 'utf-8' # 设置编码
注：演示网页 http://127.0.0.1/wholesale.html 只有1页，只爬取1页内容。
三、学习新知
2. 网络数据采集法
程序分析
（2）爬取商品标题
# 标题
all_title = soup.find_all('a', class_='item-title')
for j in all_title:
soup_title = bs4.BeautifulSoup(str(j), "html.parser",)
title.append(soup_title.a.string)
网页标签： a data-p4p="true" class="item-title"
三、学习新知
2. 网络数据采集法
程序分析
（3）爬取商品价格
# 价格
all_price = soup.find_all('span', class_="price-current")
for k in all_price:
soup_price = bs4.BeautifulSoup(str(k), "html.parser")
price.append(soup_price.span.string)
网页标签： span class="price-current"
三、学习新知
2. 网络数据采集法
程序分析
（4）爬取订单量
# 订单量
all_order = soup.find_all('a', class_="sale-value-link")
for l in all_order:
soup_order = bs4.BeautifulSoup(str(l), "html.parser")
order.append(soup_order.a.string)
网页标签： a data-p4p="true" rel="nofollow" class="sale-value-link"
三、学习新知
2. 网络数据采集法
程序分析
（5）爬取店铺名称
# 店铺名称
all_store = soup.find_all('a', class_="store-name")
for m in all_store:
soup_store = bs4.BeautifulSoup(str(m), "html.parser")
store.append(soup_store.a.string)
网页标签： a class="store-name"
三、学习新知
3. 其他数据采集法
对于企业生产经营或科学研究等保密性要求较高的数据，可通过与企业或研究机构合作，使用特定系统接口等相关方式收集数据。例如，科学研究的数据是通过科学实验的各种传感器采集，并传输到数据库管理系统中的。
①使用传感器采集数据。
②使用网络爬虫工具采集：八爪鱼采集器、火车采集器、后羿采集器等。
爬虫工具
三、学习新知
5.2.2 数据的存储和保护
1.数据的存储
①把数据存在本地内部
②把数据放在第三方公共或私有“云端”存储
数据的存储采用分布式文件存储或NoSQL数据库存储。
三、学习新知
5.2.2 数据的存储和保护
2.数据的保护
①数据安全保护技术
数据安全保护技术适用场合备份介质备份距离管理
拷贝/FTP 简单小数据量备份，个人不定期的文件保护等。磁盘近手动执行，占用人力资源。
备份有归档需求的用户等。磁带机、磁带库、磁盘。近，以本地备份为主。备份软件对使用者要求较高，需要掌握数据库、文件系统等综合知识。
复制技术企业等磁盘远近皆可设定策略后无须人工干预，复制与恢复的过程都很简单。
镜像技术企业等磁盘近，带宽和距离影响延迟时间和性能，因此多以本地为主。简单
持续备份企业等磁盘远近皆可连续备份，可以实现过去任意一个时间点的数据恢复。
方法：加密（对称式加密，非对称式加密）
三、学习新知
5.2.2 数据的存储和保护
2.数据的保护
②数据的隐私保护
举例说明：生活中遇到的个人信息泄露问题？用什么方法可以应对？
技术手段
①数据收集时进行数据精度处理;
②数据共享时进行访问控制;
③数据发布时进行人工加扰;
④数据分析时进行数据匿名处理等
提高自身的保护意识
对数据使用者进行道德和法律上的约束。
解决办法
三、学习新知
实践探索
解决办法
在计算机的 Internet选项窗口中，查看临时文件，找到Cookies。
如何看待网站利用Cookies追踪用户行为，如何阻止？
《中华人民共和国网络安全法》(节录)
（2016年11月7日第十二届全国人民代表大会常务委员会第二十四次会议通过）
第二十七条任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动；不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具；明知他人从事危害网络安全的活动的，不得为其提供技术支持、广告推广、支付结算等帮助。
四、知识总结
五、项目实施
各小组根据项目选题及拟定的项目方案，结合本节课所学知识，对
所选定的主题进行分析。
根据选定的主题，完成相应的数据采集；
总结归纳数据采集的方法和步骤。
填写项目活动手册。
六、课程评价
（1）网络数据采集法，主要通过网络爬虫或网站公开API的方式获取，网络爬虫从网页的( )开始获取。
A. HTML
B. WWW
C. URL
D. XML
（2）网络数据采集工具的主要目的是 ( ) 。
A. 获取网站尚未公开的数据
B. 获取手机上的个人信息
C. 获取网页上的一些数据
D. 获取网站的全部数据
C
C
七、相关附件
附件：
wholesale.html
程序5-2-2 爬取程序.py
数据的存储和保护.mp4
谢谢观看！

展开更多......

收起↑

请用微信扫码

5.2数据的采集-2 课件(共20张PPT) 2022—2023学年高中信息技术粤教版（2019）必修1

5.2数据的采集-2 课件(共20张PPT) 2022—2023学年高中信息技术粤教版（2019）必修1

5.2数据的采集-2 课件(共20张PPT)　2022—2023学年高中信息技术粤教版（2019）必修1

5.2数据的采集-2 课件(共20张PPT)　2022—2023学年高中信息技术粤教版（2019）必修1