资源简介 (共35张PPT)数据管理/大数据1.4-1.5数据管理与安全/数据库/大数据预习目标1.数据管理定义及阶段、数据管理方式2.威胁数据安全的因素、保护数据安全的措施3.大数据概念及特征4.大数据思维、大数据对社会的影响情景导入脑动一下,在搜索软件中,我们是什么样子的?极有可能,我们就是一串带着各种属性标识的长长的数字。这串数字描述了我们的每一次浏览、每一次关注、每一次点击、每一次选择、每一次购买和每一次收藏。我们每次登录搜索软件,在搜索软件上进行操作,我们的数字就会跟着变化,反过来又会影响我们在搜索软件上看到什么,以及我们会收到什么信息。随着技术的发展,数据量的增长速度越来越快,如何有效管理数据和保证数据安全成为各行各业都面临的问题。问题1:什么是数据管理?问题2:数据管理的历程问题3:如何有效管理数据?问题1:什么是数据管理 数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织。问题2:数据管理的历程随着计算机技术的发展,数据管理经历了人工管理、文件系统、数据库系统三个发展阶段。问题3:如何有效管理数据?文件格式(或文件类型)是指电脑为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。比如有的储存图片,有的储存程序,有的储存文字信息。每一类信息,都可以一种或多种文件格式保存在电脑存储中。每一种文件格式通常会有一种或多种扩展名可以用来识别,但也可能没有扩展名。扩展名可以帮助应用程序识别的文件格式。对于硬盘机或任何电脑存储来说,有效的信息只有0和1两种。所以电脑必须设计有相应的方式进行信息-位元的转换。对于不同的信息有不同的存储格式。常见文件格式文本文件常见的文件格式图像文件声音文件动画文件视频文件txtdocwpshtmlpdfjpgbmpgifpsdpngwavmidmp3wmaflagifswfavimpgflvmov各类文件如何管理呢?数据库技术问题:如何管理生活中的数据?数据库技术:基于结构化数据开发的,具有数据独立性、数据可共享等特点。①解决数据冗余的问题。②解决维护、更新数据时需要大量的人工干预的问题。问题:如何理解书本中关于结构化、半结构化和非结构化数据的描述?(P24)拓展链接问题1:经常接到广告推销的电话,他们是怎么知道我们的号码?数据安全问题2:威胁数据安全的因素有哪些?硬盘驱动器损坏、操作失误、黑客入侵、感染计算机病毒、遭受自然灾害。问题3:如何提高数据本身的安全?(P24)(1)保护存储数据的介质:磁盘阵列、数据备份、异地容灾(2)提高数据本身的安全:数据加密、数据校验1数据安全保护存储数据的介质。一、硬件方面保护提高数据本身的安全。二、软件方面保护数据安全保护分两种保护:1硬件—数据存储介质保护磁盘阵列数据备份异地容灾硬盘按照一定的顺序排列而成,分块存储数据。将数据备份到移动硬盘或者其他数据中心(云储存)。在多个地方建立多个数据中心,每个数据中心的功能一样介质防护手段1软件—数据本身防护主动安装防火墙防止网络入侵安装杀毒软件定期更新病毒库定期更新密码防止撞库时间数据加密数据检验1.4 数据管理与安全:思维导图问题与讨论:“记事本”软件默认保存的是.txt文件,word软件默认保存的是.docx文件,这两种文件有哪些区别?“记事本”软件建立的是文本文件,其内容由文字、符号、数字等纯字符组成,有时也称为文本文件,用字符查看软件观察每个字符都根据特定的规则进行编码。文本文件一般属于无格式文档,可以由多个软件浏览、编辑。Word文档建立的文档则比较复杂,用户不仅可以对文档中的字符设置格式,还可以插入表格、图像、声音、视频等内容。它是一种专用的文档格式,一般由word软件打开、编辑。最新版的word文档格式尚未公开,不过已经有第三方软件可以对word文档进行简单编辑。数据与大数据互联网、移动网络、物联网等每天都产生着大量数据,这些数据规模巨大、格式多样,已经很难用传统的方式进行处理。于是,大数据技术应运而生,通过分析、挖掘这些数据,发现其中蕴藏的价值。那么,什么是大数据?大数据之“大”,不仅指规模、速度和种类的特征,还意味着它超出以往常用的数据采集、组织、管理和加工等软件的处理能力,要求新型集成技术从多元、复杂和巨量规模的数据集里洞察规律。大数据的特征——数据体量巨大数据量大1B=8bit1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB1YB=1024ZB1BB=1024YB1NB=1024BB1DB=1024NB1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和亚马逊AWS宁夏数据中心大数据特征(P26)数据量大就是大数据吗?大数据有四个特征,分别为:数据规模大、处理速度快、数据类型多、价值密度低。可以用4个V来概括:数量(Volume)、速度(Velocity)、多样(Variety)、价值(Value)记忆口诀:量大速度快,”累”多价值低1.新浪微博用户每天发布、转发的信息有几亿条2.面向网民的实时竞价广告的推送方式需要以毫秒级的速度分析海量数据,进而实现互联网广告的精准推送3.网络时代的数据包括网络日志、音频、视频、图片、地理位置信息等4.一桩案件,警察通过翻找十年内某路段的所有监控信息,最终找到了部分有价值的监控数据数据体量大速度快数据类型多价值密度低体现了大数据的哪些特征?大数据思维(P27)1.大数据要分析的是全体数据,而不是抽样数据。2.对于数据不再追求精确性,而是能够接受数据的混杂性。3.不一定强调对事物因果关系的探求,而是更加注重它们的相关性。大数据是一场变革,改变的不仅是数据,还有人们的思维大数据对社会的影响(P28)1.大数据让生活更便利(如:城市热力图)2.大数据让决策更精准(如:利用共享单车产生的大数据,精确地制定更为利民的交通路线图)3.大数据带来新的就业需求(如:系统研发工程师)4.大数据带来新的社会问题(如:个人信息泄露)“我们相信技术可以成为推动生活改变的最大力量,技术本身没有好与坏,他们什么都不想要,一切由我们人来决定,由我们每个人来决定。”大数据对社会的影响——让生活更便利。抗疫期间每日更新的疫情地图大数据对社会的影响——让决策更精准大数据对社会的影响——带来新的就业需求大数据对社会的影响——带来新的社会问题1.学生学籍系统中存放着大量的学生数据,这些数据是否属于大数据?为什么?这些数据不属于大数据。本题可以从大数据的4个特征入手进行分析,这些数据从个人角度来看,似乎很‘大’,但实际上远远达不到大数据的量级,且这些数据更新慢、变化少,每个数据都有较大价值等。2.物质、能源、信息是人类赖以生存的基础。控制论的创始人诺伯特 维纳认为:信息就是信息,不是物质,也不是能量。结合实例说明物质、能源、信息三者之间的关系。物质描述了世界的实在性,能量描述了世界的运动性,而信息,按照经典的信息论范式,它描述了物质世界从反应性、感应性到反映性的特性。3.10进制数10的二进制值为1010B,十进制数20、40、80的二进制值分别是多少?10100B、101000B、1010000B问题与讨论:现在,人们在生活中越来越依赖于智能手机,手机中不仅存储了联系人、照片、视频等个人数据,还有电子银行、支付宝以及微信钱包等账户信息,如果存有这些信息的手机丢失,将会造成很大的损失。如何才能将因手机丢失而造成的损失降到最小?可以采用日常数据备份、各种应用的身份认证及密码强度等方面采取预防错误;也可以结合具体型号的手机,在出现问题时进行补救,如进行远程锁定、数据擦除等操作。1.5 数据与大数据:思维导图×√×√√√√√××√√课后练习1.下列说法正确的是 ( )A.数据管理和信息一样自古以来就有B.数据管理的目的是在于充分、有效发挥数据的作用C.数据管理已经经历了人工管理、文件管理、智能管理三个阶段D.数据管理就是对数据有效收集、存储、处理和应用的过程,因此不用借助其他设备B2.以下关于结构化数据、半结构化数据与非结构化数据说法错误的是 ( )A.结构化数据必须严格遵循数据格式与长度规范B.传统的数据库常用于处理结构化数据,很难处理半结构化与非结构化数据C.生活中常见的图片、文档、网页都属于非结构化数据D.半结构化数据介于结构化与非结构化之间,因此生活中最常见的数据为半结构化数据D3.关于大数据的特征,以下说法正确的是 ( )A.数据量大并不一定是大数据B.数据的产生速度很快,处理速度可以不用很快C.虽然大数据的数据类型很多,但是各种数据的格式还是基本一致的D.大数据之所以蕴含着巨大的价值,就是因为其发挥价值的数据量十分庞大A4. 脱去数据的保护层,把密文变成明文的过程称为( )A.加密 B.解密算法 C.加密算法 D.解密5.半结构化数据包括( )A.Excel表格 B.银行账户上的消费记录 C.检查身体后得到的体检报告 D.HTML文档DD6.下列属于可执行文件的是( )A.小飞象.jpg B. 小飞象.exe C. 小飞象.doc D. 小飞象.mpg 7.下列措施不能提高手机安全的是( )A.设置开机密码 B. 短信的链接不要点 C. 不随意安装软件 D. 经常恢复出厂设置 8.关于密码,下列说法不正确的是( )A. 密码强度要高 B. 重要网站、邮箱、银行卡密码要独立 C. 不要在陌生的电脑上输入密码 D. 经常使用电话或生日做密码BDD9. 大数据的特征可以用被总结为4V特征,以下哪个不属于大数据的4V特征( )A.种类多(Variety) B.体量大(Volume)C.Venture(风险大) D.速度快(Velocity)10.1TB=( )GB。A.256 B.512 C.1024 D.2048 11.大数据的容量不断增长,也就要求有更加复杂的数据管理方法,为此,如下哪项不是大数据存储面临的挑战( )A.简单的数据模型 B.低成本 C.易扩展 D.易于使用12.(多选)大数据的来源途径有许多,如下哪些属于大数据来源( )A.网络爬虫得到的数据 B.计算机网络运行产生的日志C.人在微博上发表的记录 D.传感器设备采集的数据 CCAABCD第一章数据 展开更多...... 收起↑ 资源预览