资源简介 (共44张PPT)BIG DATA5.2 数据的采集第五章SHU · JU · DE · CAI · JI”授课人:xxx知识回顾新授处理数据的一般过程:数据采集数据分析数据可视化表达新授处理数据的一般过程:数据采集数据分析数据可视化表达数据采集的方法和工具数据的存储和保护ONE数据采集的方法和工具01数据采集的方法和工具什么是数据采集1体验数据采集的过程2数据采集的方法和工具3”””什么是数据采集数据采集:根据需求采用适当的方法和工具获取数据。如:将文字录入电脑——键盘打字、扫描仪扫描记录课堂活动——照相机拍照、摄像机摄像等记录一段声音——麦克风录音体验数据采集问:如何记录全班同学当前的体温?需要获取什么数据?温度怎么获取?测温仪/体温计为什么能够获取?温度传感器/液体金属热胀冷缩如何记录获取到的数据?填纸质表、问卷星登记等数据采集的过程明确数据应用项目的需求围绕选定的项目主题,制定数据采集的需求清单和内容大纲01采用适当的方法和工具针对不同的数据类型,选择适当的工具和方法,采集数据02数据的存储和保护要选择合适的存储方式并注意数据安全03数据采集的方法和工具系统日志采集法数据采集的基本方法:网络数据采集法其他数据采集法数据采集的方法和工具系统日志采集法1.什么是系统日志?2.系统日志采集数据的方法是怎样的?数据采集的方法和工具系统日志采集法1.什么是系统日志?在信息系统中,系统日志是记录系统中硬件、软件和系统问题的信息文件。包括操作系统日志、应用程序日志、安全日志。数据采集的方法和工具系统日志采集法2.系统日志采集数据的方法是怎样的?在目标主机安装一个小程序,将其上的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器上进行存储、监控和管理。数据采集的方法和工具其他数据采集法如:传感器采集数据手机、智能手环等内置了多种传感器数据采集的方法和工具网络数据采集法指通过网络爬虫或网站公开API(应用程序接口)等方式从网站上获取数据信息。网络爬虫数据采集的方法和工具网络数据采集法指通过网络爬虫或网站公开API(应用程序接口)等方式从网站上获取数据信息。网络爬虫数据采集的方法和工具请观看视频:《网络爬虫到底是什么,学这个真的是“从入门到入狱”吗?》思考如下问题:1.什么是网络爬虫?2.网络爬虫的应用有哪些?3.网络爬虫获取数据的流程是怎样的?4.Robots协议是什么?5.使用什么工具编写爬虫数据采集的方法和工具1.什么是网络爬虫?程序脚本可以用它来浏览网页收集有用的数据数据采集的方法和工具1.什么是网络爬虫?网络爬虫:又称网络蜘蛛、网络蚂蚁、网络机器人等。按照人们事先制定的爬取规则,可以代替人们自动地在互联网中进行数据的采集与整理。即:可以自动采集网络数据的程序数据采集的方法和工具2.网络爬虫的应用有哪些?数据采集的方法和工具3.网络爬虫获取数据的流程是怎样的?数据采集的方法和工具3.网络爬虫获取数据的流程是怎样的?获取网页的URL爬取网页的内容分析网页的内容提取有用的数据获取其他的URL,重复前面的步骤,直到满足停止条件数据采集的方法和工具4.Robots协议是什么?规定了:哪些数据可爬取哪些不可以数据采集的方法和工具注意:网络爬虫的合法性若采集的数据是个人使用,不违法若采集的数据使用时涉及商业盈利范畴,可能违法数据采集的方法和工具5.使用什么工具编写爬虫?数据采集的方法和工具5.使用什么工具编写爬虫?使用Python语言的第三方库来实现爬虫编写使用到的库:requests库——获取网页信息bs4库(beautifulsoup)——解析HTML页面xlwt库——调用Excel模块,将获取的有用信息写入表格文件保存数据采集的方法和工具演示:使用Python语言的第三方库来实现爬虫编写数据采集的方法和工具网络爬虫工具采集器:八爪鱼采集器火车采集器后羿采集器TWO数据的存储和保护02数据的存储和保护数据的存储1数据的保护2””数据的存储本地存储云存储两种方式数据的保护数据的安全隐患无处不在,一旦泄露或丢失,造成的损失和影响将是巨大的。数据的保护数据安全保护技术保护数据的方法:数据的隐私保护数据的保护数据备份拷贝/FTP备份复制技术镜像技术持续备份数据加密对称式加密非对称式加密”数据安全保护技术数据的保护数据的隐私保护技术手段数据采集时进行数据精度处理数据共享时进行访问控制数据发布时进行人工干扰数据分析时进行匿名处理等提高自身的保护意识对数据使用者进行道德和法律上的约束课堂小结课堂练习1.因疫情防控需要,学校要求学生家长及时上报体温、行程等数据,汇总后上报上级防控部门,采集上述数据最为高效的方法是( )。A.填写在线收集表 B.填写纸质表格C.发送电子邮件 D.打电话上报A.填写在线收集表A课堂练习2.数据来源广泛,采集方式也多种多样。以下不属于数据采集过程的是( )。A.计算机服务器自动保存运行日志,方便故障排查、入侵检测B.利用电子表格数据透表对比网店商品销售情况C.企业网站调用中国天气网开放API(应用程序接口)获取天气数据D.用红外测温枪测量体温B.利用电子表格数据透表对比网店商品销售情况B课堂练习3.在大数据时代,网络信息的采集是一项重要的工作,如果单纯靠人力进行网络信息采集,不仅低效繁琐,搜集的成本也会提高。此时,我们可以合法使用( )对网络数据进行自动采集。A.系统日志 B.网络爬虫C.传感器 D. 问卷调查B.网络爬虫B课堂练习4.通过爬虫程序可以采集某音乐平台上歌曲的评论内容。关于爬虫程序,以下说法错误的是( )。A.爬虫程序,可以采集网络数据B.只要是你想要的网络数据,都可以用爬虫程序去采集C.爬虫程序开始执行时,需要一个URL列表作为起始位置D.爬虫程序采集到的数据,可以保存为多种格式,如xls、csv等B.只要是你想要的网络数据,都可以用爬虫程序去采集B课堂练习5.某品牌智能手环收集了大量用户运动、健康的数据。以下相关描述错误的是( )。A.在大数据时代,我们的个人信息时刻存在泄露的风险B.大数据时代的海量数据,使信息、机密、财富之间产生紧密关联,从而构成信息安全的重要因素C.数据因素是造成信息安全的风险之一D.隐私泄露的问题是大数据时代特有的D.隐私泄露的问题是大数据时代特有的D课堂练习5.(判断)数据在采集、存储、管理与使用的过程中面临诸多安全风险,为避免风险,通常需要进行数据备份。( )√6. (判断)网络数采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的HTML开始获取。( )×BIG DATA那就下次再聊吧~第五章授课人:xxx 展开更多...... 收起↑ 资源列表 5.2 数据的采集 课件1.0.pptx 演示 网络爬虫爬取数据 .mp4 网络爬虫到底是什么? .mp4