资源简介 (共20张PPT)第五章 数据处理和可视化表达5.2数据的采集(第二课时)一 、本章情况学习目标(1)了解大数据的概念,理解大数据的特征,知道大数据对日常生活的影响,明晰传统数据与大数据的区别;(2)了解数据采集的方法和工具,掌握数据的存储方式,理解对数据进行保护的意义;(3)知道数据预处理及分析,体验多种数据分析技术;(4)学会选用恰当的工具处理数据,学会总结和归纳数据分析的方法和步骤;(5)了解数据可视化两种呈现类型,学会选用恰当的工具可视化表达数据。5.1认识大数据5.2数据的采集5.3数据的分析5.4数据的可视化表达教学内容二、项目指导交流分享依据自己小组项目实施的实际情况,对于项目实施过程的进度、亮点、困难予以分享,交流。1. 项目完成基本情况。2.对所选定主题的大数据特征进行分析。三、学习新知2. 网络数据采集法探究活动分析网页“wholesale.html”的内容,网页通过本地网站访问,网址http://127.0.0.1/wholesale.html。网页为鞋类销售数据。打开程序文件“程序5-2-2 爬取程序.py”,分析程序代码中使用了哪些库?URL是什么?本程序只使用1个网页的数量,暂时不爬取其他 URL 的数据。三、学习新知探究活动运行程序 “程序5-2-2 爬取程序.py”,得到导出的电子表格。对比网页“wholesale.html”和电子表格中的数据,分析网络爬虫程序获取了哪些数据?分析本程序的基本结构。三、学习新知2. 网络数据采集法程序分析(1)爬取网页的内容for i in range(0, 5): # 循环5次,就是5个页的商品数据payload['page'] = i+ 1 # 此处为页码,根据网页参数具体设置resp = requests.get(url, params=payload)soup = bs4.BeautifulSoup(resp.text, "html.parser")print(resp.url) # 打印访问的网址resp.encoding = 'utf-8' # 设置编码注:演示网页 http://127.0.0.1/wholesale.html 只有1页,只爬取1页内容。三、学习新知2. 网络数据采集法程序分析(2)爬取商品标题# 标题all_title = soup.find_all('a', class_='item-title')for j in all_title:soup_title = bs4.BeautifulSoup(str(j), "html.parser",)title.append(soup_title.a.string)网页标签: a data-p4p="true" class="item-title"三、学习新知2. 网络数据采集法程序分析(3)爬取商品价格# 价格all_price = soup.find_all('span', class_="price-current")for k in all_price:soup_price = bs4.BeautifulSoup(str(k), "html.parser")price.append(soup_price.span.string)网页标签: span class="price-current"三、学习新知2. 网络数据采集法程序分析(4)爬取订单量# 订单量all_order = soup.find_all('a', class_="sale-value-link")for l in all_order:soup_order = bs4.BeautifulSoup(str(l), "html.parser")order.append(soup_order.a.string)网页标签: a data-p4p="true" rel="nofollow" class="sale-value-link"三、学习新知2. 网络数据采集法程序分析(5)爬取店铺名称# 店铺名称all_store = soup.find_all('a', class_="store-name")for m in all_store:soup_store = bs4.BeautifulSoup(str(m), "html.parser")store.append(soup_store.a.string)网页标签: a class="store-name"三、学习新知3. 其他数据采集法对于企业生产经营或科学研究等保密性要求较高的数据,可通过与企业或研究机构合作,使用特定系统接口等相关方式收集数据。例如,科学研究的数据是通过科学实验的各种传感器采集,并传输到数据库管理系统中的。①使用传感器采集数据。②使用网络爬虫工具采集:八爪鱼采集器、火车采集器、后羿采集器等。爬虫工具三、学习新知5.2.2 数据的存储和保护1.数据的存储①把数据存在本地内部②把数据放在第三方公共或私有“云端”存储数据的存储采用分布式文件存储或NoSQL数据库存储。三、学习新知5.2.2 数据的存储和保护2.数据的保护①数据安全保护技术数据安全保护技术 适用场合 备份介质 备份距离 管理拷贝/FTP 简单小数据量备份,个人不定期的文件保护等。 磁盘 近 手动执行,占用人力资源。备份 有归档需求的用户等。 磁带机、磁带库、磁盘。 近,以本地备份为主。 备份软件对使用者要求较高,需要掌握数据库、文件系统等综合知识。复制技术 企业等 磁盘 远近皆可 设定策略后无须人工干预,复制与恢复的过程都很简单。镜像技术 企业等 磁盘 近,带宽和距离影响延迟时间和性能,因此多以本地为主。 简单持续备份 企业等 磁盘 远近皆可 连续备份,可以实现过去任意一个时间点的数据恢复。方法:加密(对称式加密,非对称式加密)三、学习新知5.2.2 数据的存储和保护2.数据的保护②数据的隐私保护举例说明:生活中遇到的个人信息泄露问题?用什么方法可以应对?技术手段①数据收集时进行数据精度处理;②数据共享时进行访问控制;③数据发布时进行人工加扰;④数据分析时进行数据匿名处理等提高自身的保护意识对数据使用者进行道德和法律上的约束。解决办法三、学习新知实践探索解决办法在计算机的 Internet选项窗口中,查看临时文件,找到Cookies。如何看待网站利用Cookies追踪用户行为,如何阻止?《中华人民共和国网络安全法》(节录)(2016年11月7日第十二届全国人民代表大会常务委员会第二十四次会议通过)第二十七条 任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。四、知识总结五、项目实施各小组根据项目选题及拟定的项目方案,结合本节课所学知识,对所选定的主题进行分析。根据选定的主题,完成相应的数据采集;总结归纳数据采集的方法和步骤。填写项目活动手册。六、课程评价(1)网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的( )开始获取。A. HTMLB. WWWC. URLD. XML(2)网络数据采集工具的主要目的是 ( ) 。A. 获取网站尚未公开的数据B. 获取手机上的个人信息C. 获取网页上的一些数据D. 获取网站的全部数据CC七、相关附件附件:wholesale.html程序5-2-2 爬取程序.py数据的存储和保护.mp4谢谢观看! 展开更多...... 收起↑ 资源预览