资源简介 (共64张PPT)1.4 数据管理与安全1.5 数据与大数据数据管理什么是数据管理? 如何进行数据管理? 如何有效管理数据?随着技术的发展,数据量的增长速度越来越快,如何有效管理数据和保证数据安全成为各行各业都面临的问题。数据管理是利用计算机硬件和软件技术对数据进行有效收集、存储、处理和应用的过程。数据管理数据管理的三阶段:人工管理、文件管理和数据库管理。数据管理数据管理的三阶段数据库应用案例数据库应用案例数据管理的分类1.文件存放路径2.文件存放格式文件存放的路径文件存放的路径文件存放的路径文件路径文件管理文本文件常见的文件格式图像文件声音文件动画文件视频文件常见文件类型文本文件.txt:纯文本文件,可用“记事本”编辑。.docx:可用Word处理的文档。.wps:可用金山WPS软件处理的文档。.htm/html:可用字处理软件编辑的超文本标记语言文档。.pdf:电子图书文档。常见文件类型图像文件.bmp:Windows标准图像文件格式;即“标准位图文件”。.jpg:按JPEG标准进行有损压缩后的静态位图文件;优点是相对于bmp文件占用存储较小,缺点是图片质量较差。.psd : Photoshop的专用图像格式;最大特点是可以包含多个图层。.png :可移植网络图形格式;优点是支持无损压缩、压缩比高、支持透明背景。.gif : 图形交换文件格式;优点是文件较小、支持简单动画、支持透明背景。缺点是最多只能存储256色( 8位)。.tif :标签图像文件格式;支持透明背景。常见文件类型.wav:波形文件格式,是实际声音的采样和编码,文件的容量很大,可用“录音机”工具进行声音的录制。.mid:是记录midi信息的标准格式,是一个由乐器数字接口指令序列组成的计算机乐谱;容量小。.mp3:当前流行的音乐文件格式,音质可与CD媲美,容量小。.wma:Windows Media Player播放软件的专用格式。声音文件常见文件类型.flc:用3DSMAX动画制作软件创建的三维动画文件格式。.gif:目前网页中普遍使用的二维动画文件格式。.fla:用Flash制作的二维动画源文件。.swf:用Flash制作的二维动画文件格式。动画文件常见文件类型视频文件.avi:是一种音频、视频信号交叉存储的格式,是Windows的标准视频格式。.mpg:是按MPEG标准压缩的视频文件,和avi格式相比所占空间小很多。.flv:一种流媒体格式,目前在线视频网站普遍采用该视频格式。.mov:苹果公司开发的影片格式。.rmvb:降低了静态画面下的比特率的视频文件格式。.rm、.wmv:流媒体文件,网上边下载边收看。常见文件类型多媒体数据文件-类型及格式文本文件:.txt;.doc;.wps;.html;.pdf图形文件:.jpg;.bmp;.gif;.psd;.png声音文件:.wav;.mid;.mp3;.wma动画文件:.fla;.gif;.swf视频文件:.avi;.mpg;.flv;.mov讨论“记事本”软件默认保存的是.txt文件,word软件默认保存的是.docx文件,这两种文件有哪些区别?如何管理生活中的数据?如何理解书本中关于结构化、半结构化、非结构化数据?结构化数据结构化数据,也称作行数据。是由二维表结构来进行逻辑表达和实现的数据,严格地遵据格式与长度规范,主要通过关系型数据库进行存储和管理。非结构及半结构化数据非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,是不方便用数据库维逻辑表来表现的数据。包括各类格式的办公文档、文本、图片、XML、HTML、各类报图像、音频、视频等。半结构化数据就是介于结构化数据和非结构化数据之间的数据,具有一定的结构性,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,也被称为自描述的结构。常见的半结构数据有HTML、XML和JSON。数据安全数据本身的安全主要是指采用现代密码算法对数据进行主动保护,如数据保密、数据完整性、双向强身份认证等,数据本身的安全必须基于可靠的加密算法与安全体系,主要是有对称算法与公开密钥密码体系两种。数据防护的安全主要是采用现代信息存储手段对数据进行主动防护,如通过磁盘阵列、数据备份、异地容灾等手段保证数据的安全,数据安全是一种主动的包含措施。威胁数据安全的因素硬盘驱动器损坏、操作失误、黑客入侵、感染计算机病毒、遭受自然灾害……12306泄密事件2014年12月25日中午消息,漏洞报告平台乌云网出现了一则关于12306的漏洞报告,危害等级显示为“高”,漏洞类型则是“用户资料大量泄漏”。据了解,这则关于12306的漏洞报告,危害登记显示为“高”,漏洞类型则是“用户资料大量泄漏”,这意味着,这个漏洞将有可能导致所有注册了12306用户的账号、明文密码、身份证、邮箱等敏感信息泄露,而泄漏的途径目前还不知道 。根据铁道科学研究院给的答复是:用户通过第三方抢票软件登录自己的信息时,该软件进行了读写复制,并将用户的12306账号密码身份信息进行了记录与贩卖。阿里巴巴的光缆事件本报讯(记者 任笑元)中国电信昨日证实该公司杭州分公司的部分大对数光缆,因当地市政建设施工方原因,不慎被挖断,事故影响到阿里巴巴相关业务。据知情人士披露一份落款为“中国电信杭州分公司”的“关于阿里巴巴故障说明的函”显示,5月27日16点40分,杭州萧山机场公路改建项目中的一项市政配套电力管线工程,在杭州市钱江三桥南与风情大道交叉口,在未通知电信方的情况下,在电信方管道上方顶管施工,导致电信方管道内四条大对数光缆中断,影响到阿里巴巴相关业务。阿里巴巴的光缆事件支付宝官微解释说:由于杭州市萧山区某地光纤被挖断,造成目前少部分用户无法使用支付宝,运营商正在抢修,支付宝工程师正在紧急将用户请求切换至其他机房,受影响的用户正在逐步恢复。您的资金安全并不会因此受到任何影响。如果出现交易信息不同步的情况,在修复后会恢复同步。请大家放心。保护数据安全的方法(1)做好防护上的安全保护存储数据的介质。对于政府部门或企业的数据,目前主要采取主动防护的手段,如通过磁盘列阵、数据备份、异地容灾。介质的保护容灾系统容灾系统是指在相隔较远的异地,建立两套或多套功能相同的系统,互相之间可以进行健康状态监视和功能切换,当处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统可以继续正常工作。保护数据安全的方法(2)提高数据本身的安全可通过数据加密、数据校验等方法提高数据的保密性和完整性。数据本身的保护文件的MD5校验文件的MD5校验是将整个文件当作个大文本信息,通过其不可逆的字符串变换算法,产生唯一的MD5信息摘要并提供给用户。用户下载完文件以后,通过专用程序计算下载文件的MD5校验码,比对前后的校验数据,判断下载文件是否完整。常见的数据校验方法有MD5、CRC、SHA-1.问题讨论个人数据保护的手段?数据备份定期杀毒不访问危险网址不打开危险邮件、链接定期升级系统、安装系统补丁讨论1.经常接到卖房电话、贷款电话,他们怎么知道我们的号码?2.当你的手机丢了,如何将损失降到最低?3.密码的设置要求有哪些?P25问题思考:网站推送,怎么那么合我们心意?阅读网络文章《白岩松:比抖音让我们堕落更可怕的是……》。安全不仅仅是隐私,还有来自数据的分析和预测。人类行为的93%是可以预测的。全球复杂网络权威巴拉巴西通过研究大胆地认为,93%的人类行为是可以预测的。收集用户位置信息可以定制广告。位置数据可以发现和预测人类行为,进而推送相关广告。大数据的由来中国网民数量:7.51亿半年增长率:2.7%中国注册网站数量:344.3万个手机网民:7.236亿占网民总数:96.3%月均网络交易:16亿笔每日新发微博数量: 1亿+条注册微博用户数: 2.9071亿发布的网页数量:866亿页年增速:~40%网络直播用户:3.43亿占网民总数:47.1%大数据概念大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。全球信息咨询机构国际数据公司(IDC)对大数据的技术定义是:通过高速捕捉、发现或分析,从大容量数据中获取价值的一种新的技术架构。全球知名咨询公司麦肯锡最早提出“大数据”时代到来的。1.5.2大数据的特征一个有意思的比喻:大数据 海洋A.海洋中水的量非常大;B.海水是多样的,太平洋的海水和大西洋的海水是有区别的,不同地方海水里面蕴含的物质、生活的物种都有不同;C.海洋为全人类带来的好处太多了,人们利用海洋,开发海洋中无穷的价值;D.速度快,有两个层面的意思,一是海水流动快,二是随着技术的提升,我们对海水的利用也加快了速度(看看快艇、游轮的发展)。PS:第4个V的比喻有点牵强,但不影响发挥哈,他们说脸皮要厚…1.5.2大数据的特征大数据通常指100 TB( 1TB=1024 GB )规模以上的数据量,数据量大是大数据的基本属性。根据国际数据资讯(IDC)公司监测,全球数据量大约每两年就翻一番,预计到2020年,全球将拥有35 ZB 的数据,并且85%以上的数据以非结构化或半结构化的形式存在。一、数据体量大(Volume)K 1KB = 1024 ByteM(兆)字节 1MB = 1024 KBG(吉)字节 1GB = 1024 MBT(太)字节 1TB = 1024 GBP(拍)字节 1PB = 1024 TBE(艾)字节 1EB = 1024 PBZ(泽)字节 1ZB = 1024 EBY(尧)字节 1YB = 1024 ZB……1.5.2大数据的特征一、数据体量大(Volume)IDC全球数据使用情况及预测之所以产生如巨大的数据原因有三点:1. 由于互联网络的广泛应用,使用网络的用户、企业、机构增多,数据获取、分享变得相对容易。用户可通过网络非常方便的获取数据,通过有意的分享和无意的点击、浏览可快速的提供大量的数据;2. 随着各种传感器数据获取能力的大幅度提高,使得人们获取的数据越来越接近原始事物本身,描述同一事物的数据激增;3. 由于集成电路的价格降低,使得很多东西都保存了下来。1.5.2大数据的特征二、速度快(Velocity)1. 数据产生的速度快。新时代人们从信息的被动接受者变成了主动创造者。数据从生成到消耗,时间窗口非常小,可用于生成决策的时间非常短。1.5.2大数据的特征二、速度快(Velocity)2. 数据处理的速度快。大数据对处理速度有非常严格的要求,服务器中大量的资源都用于处理和计算数据,很多平台都需要做到实时分析。数据无时无刻不在产生,谁的数据处理速度更快,谁就有优势。1.5.2大数据的特征三、数据类型多(Variety )数据种类繁多、复杂多变是大数据的重要特性。随着传感器种类的增多及智能设备、社交网络等的流行,数据种类也变得更加复杂,其包括结构化数据、半结构化数据和非结构化数据。其中,10%是结构化数据,存储在数据库中;90%是非结构化数据,与人类信息密切相关。1.5.2大数据的特征四、价值密度低(Value)大数据蕴含着巨大的价值,但因其数据量庞大,可能发挥价值的仅是其中非常小的部分,价值密度相对较低。以当前广泛应用的监控视频为例,在连续不,间断的监控过程中,大量的视频数据被存储下来,其中有许多冗余数据。比如某起交通事故的视频画面,有效的部分可能仅仅只需要几秒钟,大量不相关的视频信息会增加获取有效数据的难度。价值密度的高低与数据总量的大小成反比,“提纯”大数据,让其发挥更大的价值,是人们一直在努力的目标。1.5.3大数据思维大数据是一场变革, 改变的不仅是数据,还有人们的思维。首先,大数据要分析的是全体数据,而不是抽样数据。以往对于某项研究中的数据,限于技术等因素,人们无法进行全样本分析,往往会随机抽取部分样本进行研究,以此推论全体情况。抽样数据分析的方式效率较高,经常被人们采用,但这种方式取决于抽取样本的随机性,在某些情况下,不同的样本可能会得出截然不同的结论。在大数据时代,人们不仅可以获得研究所需的直接数据,而且还能对与之有关联的所有数据进行分析。分析数据已经不再依赖于采样,从而带来更全面的认识,也能更清楚地发现抽样数据无法揭示的详尽信息。1.5.3大数据思维大数据是一场变革, 改变的不仅是数据,还有人们的思维。其次,对于数据不再追求精确性,而是能够接受数据的混杂性。对于传统的数据库,数据有严谨的结构,人们追求数据的准确性,通过各种技术或人工手段,来保证每个数据准确无误。而在大数据处理过程中,数据的来源多种多样,这些数据可以是结构化的、半结构化的,也可以是非结构化的。当数据量大到一定程度时,个别数据的不准确就显得不那么重要。1.5.3大数据思维大数据是一场变革, 改变的不仅是数据,还有人们的思维。再次,不一定强调对事物因果关系的探求,而是更加注重它们的相关性。在传统的思维方式中,人们往往执着于现象背后的因果关系,试图通过有限样本数据来剖析其中的内在机理。这种思维方式有一定的局限性,此外,有限的样本数据也无法反映出事物之间的相关关系。在大数据时代,比如电商的个性化推荐,不必知道人们购买某些商品的原因,只要找到商品之间的关联性,就能为客户提供精确的推荐。1.5.4大数据对社会的影响大数据已渗透到各行各业,成为重要的生产因素。作为全球网民数量最多的国家、重要的电子信息产品生产基地和最具成长性的信息消费市场,中国已经成为重要的大数据资源集聚地和大数据应用市场,大数据产业快速发展,产业链加速形成,大数据正在对经济社会发展发挥着越来越重要的作用。1.5.4大数据对社会的影响(1)大数据已经渗入到社会的各个层面,不断提高工作效率与生活便利性。1.5.4大数据对社会的影响(1)大数据已经渗入到社会的各个层面,不断提高工作效率与生活便利性。1.5.4大数据对社会的影响(2)大数据让决策更加精准抗疫期间每日更新的疫情地图1.5.4大数据对社会的影响(3)大数据带来新的就业机会互联网的快速发展和大数据的广泛应用,不仅催生各种新型产业形态,也使就业渠道变得更加多元化。2020年10月19日,智联招聘发布的《2020雇佣关系趋势报告——新格局下的新就业形态》显示,雇佣行为正趋向短期、项目制,企业采用“共享员工”“直播平台”等新型方式推动灵活就业,灵活化办公吸引力大,智能化渗入考核机制。大数据的弊端1、个人数据隐私与安全大数据会记录你的浏览习惯,购买习惯,常用淘宝支付宝这些软件的人,你的消费能力、购物习惯、活动产所、收入情况、生活质量、年龄、身高、体重、鞋码、三围、口味等,都是可以分析出来的 这些基本囊括了我们的生活。个人数据安全就成了一个大问题,一旦数据泄露(或被买卖),可能会对用户人身财产、国家和公司的安全造成威胁。大数据的弊端2、大数据杀熟杀熟,即同样的商品或服务,老客户看到的价格反而比新客户要贵出许多。近两年来包括滴滴出行、携程、飞猪、京东、美团、淘票票等多家互联网平台均被曝疑似存在“杀熟”情况,涵盖在线差旅、在线票务、网络购物、交通出行等多个领域,特别是OTA(Online Travel Agent)在线差旅平台较为突出。大数据技能自身不只能够迅速衍生为新兴信息产业,还能够同云计算、物联网和才智工程技能联动,支撑一个信息技能的新时代。加米谷大数据培训。讨论1、信息泄露的原因?如何预防?2、学生学籍系统中存放着大量的学生数据,是否属于大数据?3、在处理数据时,往往会选择“抽样数据”或“全样本数据”进行分析,请比较这两种方式的特点,并举例分析。巩固与提高书本P30课堂练习1. 脱去数据的保护层,把密文变成明文的过程称为( )A.加密B.解密算法C.加密算法D.解密2.半结构化数据包括( )A.Excel表格B.银行账户上的消费记录C.检查身体后得到的体检报告D.HTML文档DD3.下列属于可执行文件的是( )A.小飞象.jpgB. 小飞象.exeC. 小飞象.docD. 小飞象.mpg4.下列措施不能提高手机安全的是( )A.设置开机密码B. 短信的链接不要点C. 不随意安装软件D. 经常恢复出厂设置BD课堂练习5.关于密码,下列说法不正确的是( )A. 密码强度要高B. 重要网站、邮箱、银行卡密码要独立C. 不要在陌生的电脑上输入密码D. 经常使用电话或生日做密码D课堂练习6.(开放题)由于相关部门的规定,绝大多数学校对考试成绩和排名都不予公布,家长们对考试成绩望眼欲穿却始终得不到答案。有些人认为:“既然考试了,为什么不公布成绩,这不是“掩耳盗铃”吗;有些人认为:公布与否无所谓,自己尽最大努力就好;有些人认为把成绩排名只告知家长,不告知学生,你这么看待考试成绩等数据?课堂练习课堂练习1. 大数据的特征可以用被总结为4V特征,以下哪个不属于大数据的4V特征( )A.种类多(Variety)B.体量大(Volume)C.Venture(风险大)D.速度快(Velocity)2.最早提出“大数据”时代到来的是哪家公司?A.IBMB.谷歌C.麦肯锡D.微软CC3.1TB=( )GB。A.256B.512C.1024D.20484.大数据的容量不断增长,也就要求有更加复杂的数据管理方法,为此,如下哪项不是大数据存储面临的挑战( )A.简单的数据模型B.低成本C.易扩展D.易于使用CA课堂练习5.(多选)大数据的来源途径有许多,如下哪些属于大数据来源( )A.网络爬虫得到的数据B.计算机网络运行产生的日志C.人在微博上发表的记录D.传感器设备采集的数据ABCD课堂练习6.(开放题)请根据你的认识谈谈大数据与传统数据有什么关系?传统数据主要来源于业务运营支撑系统,企业管理系统等;大数据主要来源于互联网、移动互联网等。所以传统数据涉及的范围往往是较为有限的,而大数据是对整个数据全集直接进行存储和管理分析,因此大数据是能够涵盖传统数据的关系。课堂练习1.学生学籍系统中存放着大量的学生数据,这些数据是否属于大数据 为什么 教育系统每年逐级上报的教育事业统计报表是大数据,各学段学籍管理系统是大数据,各种专项统计也是大数据。2.在处理数据时,往往会选择“抽样数据”或“全样本数据”进行分析,请比较这两种分析方式的特点,并举例说明。P27动动脑 展开更多...... 收起↑ 资源预览