资源简介 (共21张PPT)数据库系统概述第1章目录01数据库系统的基本概念02数据管理技术03数据模型04数据库系统的结构05数据库领域的新技术本章主要内容本章主要介绍数据库系统的基本概念、数据管理技术的产生和发展、数据模型、数据库系统的结构和数据库领域的新技术等。数据库技术主要研究如何对数据进行科学管理,从而为人们提供可共享的、安全的、可靠的数据。数据库技术是现代计算机信息系统和计算机应用系统的基础和核心。因此,掌握数据库技术是全面认识计算机系统的重要环节,也是适应信息化时代的重要基础。数据库领域的新技术第1章051.5.1 数据仓库和数据挖掘技术计算机系统中数据处理可以分成两大类:操作型处理和分析性处理,又称为联机事务处理(On-Line Transaction Processing,OLTP)和联机分析处理(On-Line Analytical Processing,OLAP)。OLTP是传统的关系数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易、证券交易。随着数据库应用领域的扩展和变化,每个企业的数据量每2~3年就会成倍增长,企业希望最大化地利用已存在的数据资源,对自身业务运作及整个市场相关行业的态势进行分析,做出最佳的商业决策,以提高市场竞争力。这种基于业务数据的决策分析成为OLAP,它是数据仓库(Data Warehouse,DW)系统的主要应用,支持复杂的分析操作,通常是对海量的历史数据查询和分析,如金融风险预测预警系统、证券股市违规分析系统等,侧重决策支持,并且提供直观易懂的查询结果。1.数据仓库数据仓库是近年来数据库领域发展的一种新技术,它建立在原有数据库的基础之上,是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用于支持企业(或组织)商业决策的制订过程。数据仓库的基本特征① 面向主题在数据仓库中需要将应用系统中的数据模式抽象为面向主题的数据模式,去除应用系统中那些不必要、不适用于数据分析的信息,提取那些对主题有用的信息,以形成某个主题的完整且一致的数据集合。② 集成按照统一的结构和格式、相同的语义将这些数据进行加工和集成、统一和综合,消除数据的不一致,以保证数据仓库中的数据是面向主题的、全局的、一致的信息。③ 稳定且不可更新一旦数据被加工处理存放到数据仓库中,一般情况将作为数据档案长期保存,不能进行修改和删除操作,数据不可再更新。④ 随时间不断变化用户虽然不能更改数据仓库中的数据,但随着时间变化,数据仓库系统会进行定期刷新,不断添加新数据到数据仓库,以随时导出新的综合数据和统计数据,同时系统会删除一些旧数据。数据仓库系统的体系结构2.数据挖掘数据挖掘(Data Mining,DM),是从大量数据中发现并提取隐藏在内的、人们事先不知道的但又可能有潜在利用价值的信息和知识的一种新技术。数据挖掘包含以下几层含义。① 数据是真实的、大量的。② 发现的是用户感兴趣的知识。③ 发现的知识支持特定的问题,要可理解、可运用。数据挖掘系统的体系结构数据挖掘方法① 分类和预测。分类和预测类似于人类的学习过程,仔细观察某种现象,然后得出该对象特征的描述或模型。② 关联分析。通过发现数据之间的关联,可以获取有价值的知识,从而为决策提供依据。③ 聚类。聚类将数据划分为多个有意义的子集(类),使得类内部数据之间的差异最小,而类之间数据的差异最大。④ 偏差检测。数据库中通常会有一些异常数据,从数据库中检测这些偏差非常有意义。1.5.2 大数据技术所谓“大数据”,是指无法在合理的时间范围内用主流软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是一次对国家宏观调控、商业战略决策、服务业务和管理方式及每个人的生活都具有重大影响的一次数据技术革命。大数据的应用与推广将给市场带来巨大的收益,这被称为数据带来的又一次工业革命。1.大数据产生的背景互联网搜索引擎支持的数十亿次Web搜索每天都会处理大量数据。遍及世界各地的大型商场的海量的门店每周都要处理数亿次交易。现代医疗行业如医院、药店等每天也都产生庞大的数据量,如医疗记录、病人资料、医疗图像等。我们进入了一个以数据为中心的时代——大数据时代。从数据库技术的发展过程来看,大数据并非一个全新的概念,它与数据库技术的研究和发展密切相关。20世纪70年代中期,数据库研究人员就提出了“超大规模数据库”(Very Large DataBase,VLDB)的概念,并在1975年召开了第一次VLDB国际会议,目前该会议在数据库领域仍具有较高的影响力。21世纪初 ,“海量数据”的概念被提出,它用来表示更大的数据集和更加丰富的数据类型。20年后,随着物联网和云计算技术不断地融入人们的生活,数据库研究人员发现处理的数据呈现爆炸式增长,他们开始探索研究大数据技术,以发现大数据不可忽视的商业价值。大数据是一次对国家宏观调控、商业战略决策、服务业务和管理方式及每个人的生活都具有重大影响的一次数据技术革命。大数据的应用与推广将给市场带来巨大的收益,这被称为数据带来的又一次工业革命。2.大数据的特征(1)巨量大数据的首要特征是数据量巨大,而且会持续、急剧地膨胀。国际知名的咨询公司IDC的研究报告称,2020年全球数据总量约40 ZB,人均约5.2 TB。(2)多样大数据的多样性通常是指异构的数据类型、不同的数据表示和语义解释。(3)快变大数据的快变性也称为实时性。一方面,社会、经济、文化等各个领域每分钟都产生大量的数据,数据的到达速度快;另一方面,大数据时代很多应用要求对数据实时响应,因此能够进行数据处理的时间很短。这是大数据区分于传统数据挖掘最显著的特征。(4)价值大数据的价值是潜在的、巨大的。大数据不仅具有经济价值和产业价值,还具有科学价值。3.大数据的关键技术(1)大数据采集技术数据采集是指通过传感器和智能设备、社交网络和移动互联网等获取各种类型的结构化、半结构化及非结构化的海量数据的过程,是大数据知识服务模型的根本。(2)大数据预处理技术数据预处理主要是指完成对已接收数据的辨析、抽取、清洗、填补、平滑、合并、规格化及检查一致性等操作的过程。大数据预处理技术主要包括数据清理、数据集成、数据归约和数据变换等。(3)大数据存储及管理技术大数据存储与管理就是用存储设备把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。(4)大数据分析和挖掘技术大数据处理的核心就是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。数据分析和挖掘技术主要包括分类、回归分析、聚类、关联规则等,它们分别从不同的角度对大数据进行挖掘。(5)大数据展示和应用技术在大数据时代,数据井喷似的增长,分析人员将这些庞大的数据汇总并进行分析,将分析结果以更便于沟通和理解的方式(如图表、动态图等)展现给用户,减少用户的阅读和思考时间,以便用户更好地做出决策。4.大数据的应用(1)金融行业在金融行业中,金融企业纷纷成立大数据研发机构,开始利用金融市场产生的海量数据来挖掘用户需求、评价用户信用、管理融资风险,大幅提高金融风险定价的效率,降低定价成本,使得对每个用户的信用信息、消费倾向、理财习惯等有效分析成为可能。(2)医疗行业医疗行业已经逐渐开展数字医疗,对病例、病理报告、治愈方案和药物报告等大量数据数字化,建立针对疾病特点的数据库。通过对医疗大数据的挖掘分析,医院能够精准地分析病人的体征、治疗费用和疗效数据,可避免过度及副作用较为明显的治疗,还可以利用这些数据实现计算机远程监护,对慢性病进行管理等。(3)零售行业零售行业的大数据应用主要体现在两个方面,一方面是可以了解客户消费喜好和趋势,进行商品的精准营销,降低营销成本;另一方面是依据客户购买的商品,为客户提供可能购买的其他商品,扩大商品销售额。(4)教育行业教育部门通过对学习者的个体特征和学习状况等教育大数据的分析,为适用性教学提供支持,可以根据学习者的学习状态定制教学内容、教学方法和教学过程。1.5.3 区块链技术随着互联网行业的快速发展和应用,非结构化数据的数据量已经远超结构化数据的数据量,传统的数据库产品已经不能满足需求,从而导致了NoSQL数据库系统的发展,产生了一系列的NoSQL数据库产品。如今,随着数字货币和去中介的共享经济的快速发展,如何以一种规模化的方式解决数据真实性和有效性已成为现实需求。区块链作为一种去中心化的分布式数据库系统,有效地解决了可信的价值传输问题。因此,区块链将成为共享经济业务的理想数据库平台。1.区块链的定义区块链(Blockchain)技术仍然处在快速发展阶段,目前还没有统一的规范和标准。对于区块链的定义,其中一个说法是区块链是一个用来管理以时间为记录顺序的数据并保证数据不可篡改的分布式数据库,其数据结构是由以时间顺序排列的数据块组成,每个数据块都包含了一段时间内的交易信息,并加盖时间戳,同时有指向上一个区块的指针。2016年发布的《中国区块链技术和应用发展白皮书》中将区块链定义为一种分布式数据存储、点对点传输、共识机制、非对称加密算法等计算机技术的新型应用模式。2.区块链的核心技术(1)区块+链区块链技术将数据库的结构进行创新,把数据分成不同的区块,每个区块通过特定的信息连接到上一区块的后面,前后顺序连接起来,呈现一套完整的数据链,以这种方式组织的数据库称之为区块链数据库。(2)分布式结构区块链构建一个分布式结构的网络系统,让价值交换的信息通过分布式传播发送给全网,通过分布式记账确定信息数据内容,盖上时间戳后生成区块数据,再通过分布式传播发送给各个节点,实现分布式存储,让数据库中的所有数据都实时更新并存放于所有参与记录的网络节点中。(3)非对称加密算法在区块链系统内,非对称加密算法是所有权验证机制的基础。常用的非对称加密算法包括RSA、Elgamal和ECC等。(4)脚本脚本可以理解为一种可编程的智能合约。在一个去中心化的环境下,所有的协议都需要提前取得共识,引入脚本非常必要,它使得区块链系统能够处理一些无法预见到的交易模式,增加了技术的实用性。3.区块链的应用场景① 金融服务。区块链技术在该领域主要用于降低交易成本,减少跨组织交易风险等。该领域的区块链应用将会最快成熟起来,银行和金融交易机构将是区块链技术的主力推动者。② 征信和权属管理。征信和权属的数字化管理是大型社交平台和保险公司都期待的,但目前还缺乏足够的数据来源、可靠的平台支持及有效的数据分析和管理。该领域创业的门槛极高,需要自上而下推动。③ 资源共享。在该领域中,区块链技术可以极大降低管理成本。这个领域的创业门槛低,主题集中,会受到投资热捧。④ 投资管理。无论公募还是私募基金,都可以应用区块链技术降低管理成本和管控风险,但该领域的需求还未成熟。⑤ 物联网与供应链。物联网是非常适合的一个应用领域,特别是租赁、物流等特定场景。但物联网自身的发展局限将导致短期内较难出现大规模应用。本章小结介绍了数据库系统的基本概念,如数据、信息、数据库、数据库管理系统和数据库系统等。介绍了数据管理技术发展的三个阶段及各自的优缺点,说明了使用数据库系统管理数据的优势。数据模型是数据库的核心和基础。本章主要介绍了组成数据模型的3个要素及其内涵,并对4种常见的数据模型进行了重点介绍。数据库系统的结构包括三级模式和二级映像。数据库系统的这种结构保证了它能具有较高的逻辑独立性和物理独立性。随着计算机领域相关技术的发展和影响,数据库领域出现了数据仓库和数据挖掘、大数据和区块链等新兴技术,能从不同层次和不同方面解决现实问题。 展开更多...... 收起↑ 资源预览