资源简介 (共26张PPT)理解数据库任务1-1 数据处理目录Contents任务1-2 数据描述任务1-3 数据模型任务1-4 关系代数任务1-5 数据库系统的组成和结构任务1-6 数据管理技术的发展历程任务1-6数据管理技术的发展历程PART 6(一)人工管理阶段(二)文件系统阶段(三)数据库系统阶段(四)分布式数据库系统(五)面向对象数据库系统(六)数据仓库(七)数据挖掘(八)云计算与大数据任务assignments数据管理技术的发展历程任务1-6任务1-1 数据处理(一)人工管理阶段20世纪50年代前期,计算机主要用于科学计算,数据处理都是通过手工方式进行的。当时的计算机没有专门管理数据的软件,也没有像磁盘这样可以随机存取的外部存储设备。数据由计算或处理它的程序自行携带,数据和应用程序一一对应。因此,这一时期计算机数据管理的特点是:数据的独立性差,数据不能被长期保存,数据的冗余度大等。数据管理技术的发展历程任务1-6任务1-1 数据处理人工管理阶段应用程序与数据之间的关系如图1.9所示。图1.9 人工管理阶段应用程序与数据之间的关系数据管理技术的发展历程任务1-6任务1-1 数据处理(二)文件系统阶段20世纪50年代后期至20世纪60年代中后期,磁盘成为计算机的主要外存储器。在软件方面,出现了高级语言和操作系统。在此阶段,数据以文件的形式进行组织,并能长期保存在外存储器上,用户能对数据文件进行查询、修改、插入和删除等操作。程序与数据有了一定的独立性,程序和数据分开存储,然而依旧存在数据冗余度大及数据不一致等缺点。数据管理技术的发展历程任务1-6任务1-1 数据处理文件系统阶段应用程序与数据之间的关系如图1.10所示。。图1.10 文件系统阶段应用程序与数据之间的关系数据管理技术的发展历程任务1-6任务1-1 数据处理(三)数据库系统阶段20世纪60年代后期,计算机的硬件和软件都有了进一步的发展,信息量的爆炸式膨胀带来了数据量的急剧增长,为了解决日益增长的数据量带来的数据管理上的严重问题,数据库技术逐渐发展和成熟起来。数据库技术使数据有了统一的结构,对所有的数据进行统一、集中、独立的管理,以实现数据共享,保证数据的完整和安全,提高了数据管理效率。在应用程序和数据库之间有DBMS。DBMS对数据的处理方式与文件系统不同,它把所有应用程序使用的数据汇集在一起,并以记录为单位存储起来,便于应用程序使用。数据管理技术的发展历程任务1-6任务1-1 数据处理数据库系统阶段应用程序与数据之间的关系如图1.11所示。图1.11 数据库系统阶段应用程序与数据之间的关系数据管理技术的发展历程任务1-6任务1-1 数据处理(四)分布式数据库系统随着地理上分散的用户对数据共享的要求日益增强,以及计算机网络技术的发展,在传统的集中式数据库系统基础上产生和发展了分布式数据库系统。分布式数据库系统(Distributed DataBase System,DDBS)并不是简单地把集中式数据库安装在不同场地,用网络连接起来以便实现(这是分散的数据库系统),而是具有自己的性质和特征。集中式数据库系统中的许多概念和技术,如数据独立性的概念、数据共享和减少冗余的控制策略、并发控制和事务恢复的概念及实现技术等,在分布式数据库中有了不同的、更加丰富的内容。数据管理技术的发展历程任务1-6任务1-1 数据处理DDBS包含分布式DDBMS和分布式数据库(Distributed DataBase,DDB)。在DDMS中,一个应用程序可以对数据库进行透明操作,数据库中的数据分别在不同的局部数据库中存储、由不同的DBMS管理、在不同的机器上运行、由不同的操作系统支持、由不同的通信网络连接在一起。DDB应具有以下特点。(1)数据的物理分布性。数据库中的数据不是集中存储在一个场地的一台计算机上,而是分布在不同场地的多台计算机上,它不同于通过计算机网络共享的集中式数据库系统。(2)数据的逻辑整体性。数据库虽然在物理上是分布的,但其中的数据并不是不相关的,它们在逻辑上是相互联系的整体,它不同于通过计算机网络互连的多个独立的数据库系统。数据管理技术的发展历程任务1-6任务1-1 数据处理(3)数据的分布独立性(也称分布透明性)DDB中除了数据库的物理独立性和数据的逻辑独立性外,还有数据的分布独立性。即在用户看来,整个数据库仍然是一个集中的数据库,用户不必关心数据的分片数据物理位置分布的细节和数据副本的一致性,分布的实现完全由DDBMS来完成。(4)场地自治和协调。系统中的每个节点具有独立性,能执行局部的应用请求;每个节点又是整个系统的一部分,可通过网络处理全局的应用请求。(5)数据的冗余及冗余透明性。与集中式数据库不同,DDB中应存在适当冗余以适合分布处理的特点,提高系统的处理效率和可靠性。因此,数据复制技术是分布式数据库的重要技术。但DDB中的这种数据冗余对用户是透明的,即用户不必知道冗余数据的存在,维护各副本的一致性也由系统负责。数据管理技术的发展历程任务1-6任务1-1 数据处理(五)面向对象数据库系统面向对象数据库系统(Object Oriented DataBase System,OODBS)是面向对象的程序设计技术与数据库技术相结合的产物。面向对象数据库系统的主要特点是具有面向对象技术的封装性和继承性,提高了软件的可重用性。因为面向对象程序语言操作的是对象,所以面向对象数据库(OODB)的一个优势是面向对象语言程序员在开发程序时,可直接以对象的形式存储数据。对象数据模型有以下特点。(1)使用对象数据模型将客观世界按语义组织成由各个相互关联的对象单元组成的复杂系统 。对象可以定义为对象的属性和对象的行为描述,对象间的关系分为直接关系和间接关系两种。数据管理技术的发展历程任务1-6任务1-1 数据处理(2)语义上相似的对象被组织成类,类是对象的集合,对象只是类的一个实例,通过创建类的实例实现对象的访问和操作。(3)对象数据模型具有“封装”“继承”“多态”等基本概念。(4)方法实现类似于关系数据库中的存储过程,但存储过程并不和特定对象相关联,方法实现是类的一部分。(5)在实际应用中,面向对象数据库可以实现一些带有复杂数据描述的应用系统,如时态和空间事务、多媒体数据管理等。数据管理技术的发展历程任务1-6任务1-1 数据处理(六)数据仓库数据库技术经过几十年的发展和广泛应用,以及社会各行各业大量信息和数据的多年积累,数据在不断膨胀。从数据海洋中提取、检索出有用的信息——能够支持决策的信息,以便为企业的管理决策提供支持成为数据库的发展趋势。因此,数据仓库技术,包括数据挖掘技术成为数据库技术发展的热门。随着C/S技术的成熟和并行数据库的发展,信息处理技术的发展趋势是从大量的事务型数据库中抽取数据,然后将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。随着该过程的发展和不断完善,这种支持决策的、特殊的数据存储即称为数据仓库(Data Warehouse,DW)。数据管理技术的发展历程任务1-6任务1-1 数据处理数据仓库之父比尔·恩门(BillInmon)在1991年出版的“Buildingthe Data Warehouse”(《建立数据仓库》)中对DW的定义是:数据仓库是面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策。从上面的定义可以发现,数据仓库具有以下重要特性:面向主题性、数据集成性、数据的时变性、数据库的非易失性、数据的集合性和支持决策作用。数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据是极少更新的。数据仓库内的数据时限为5~10年,主要用于分析时间趋势分析。数据仓库的数据量很大,一般为10GB左右,它是一般数据库(100MB)数据量的100倍,大型数据仓库可达到TB级。数据管理技术的发展历程任务1-6任务1-1 数据处理(七)数据挖掘1.数据挖掘的定义数据挖掘(Data mining)又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,KDD)中的一个步骤。数据挖掘一般是指从大量数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据管理技术的发展历程任务1-6任务1-1 数据处理2.数据挖掘的常用方法利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。(1)分类。分类是找出数据库中一组数据对象的共同特点,并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等。例如,一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。数据管理技术的发展历程任务1-6任务1-1 数据处理(2)回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。(3)聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别数据间的相似性尽可能小。它可以应用于客户群体分类、客户背景分析、客户购买趋势预测、市场细分等。数据管理技术的发展历程任务1-6任务1-1 数据处理(4)关联规则。关联规则是描述数据库中数据项之间关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过挖掘企业客户数据库中的大量数据,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。(5)特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。例如,营销人员提取客户流失因素的特征,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效预防客户流失。数据管理技术的发展历程任务1-6任务1-1 数据处理(6)变化和偏差分析。变化和偏差分析是探测数据现状、历史记录或标准之间的显著变化和偏离,偏差包括很大一类潜在有趣的知识,如分类中的反常实例、模式的例外、观察结果对期望的偏差等目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。(7)Web页挖掘。Internet的迅速发展及Web的全球普及,使得Web上的信息量无比丰富,通过挖掘Web,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。数据管理技术的发展历程任务1-6任务1-1 数据处理(八)云计算与大数据1.云计算云计算(Cloud Computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析,得到结果并返回给用户。早期的云计算,就是简单的分布式计算,解决任务分发,并进行计算结果的合并。因而云计算又称为网格计算。通过这项技术,可以在很短的时间内(几秒种)完成对数以万计数据的处理,从而提供强大的网络服务。云计算具有超大规模、虚拟化、高可靠性、高通用性、高可扩展性、按需服务、极其廉价和具有潜在危险性等特点。数据管理技术的发展历程任务1-6任务1-1 数据处理2.大数据大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据“增值”。IBM提出的大数据的5V特点是Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。数据管理技术的发展历程任务1-6任务1-1 数据处理3.云计算与大数据的关系从定义上看,云计算注重资源分配,是硬件资源的虚拟化;而大数据是海量数据的高效处理。大数据与云计算并非独立的概念,无论是在资源的需求上,还是在资源的再处理上,都需要二者共同运用。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。数据管理技术的发展历程任务1-6任务1-1 数据处理云计算和大数据的共同点都是处理海量资源。云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。而大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长和多样化的信息资产。云计算与大数据相辅相成。首先,云计算将计算资源作为服务支撑大数据的挖掘,而大数据的发展趋势是为实时交互的海量数据查询、分析提供了各自需要的价值信息。其次,大数据挖掘处理需要云计算作为平台,而大数据涵盖的价值和规律能使云计算更好地与行业应用结合并发挥更大的作用;大数据的信息隐私保护是云计算大数据快速发展和运用的重要前提,云计算与大数据相结合将可能成为人类认识事物的新工具。 展开更多...... 收起↑ 资源预览