《大数据导论》(清华大学出版社)同步教学

资源下载
  1. 二一教育资源

《大数据导论》(清华大学出版社)同步教学

资源简介

(共24张PPT)
第6章 数据挖掘
本章主要内容如下。
(1)数据挖掘的概念。
(2)数据挖掘常用的技术与工具。
6.1 什么是数据挖掘
数据挖掘(Data Mining,DM)又被称为数据库中的知识发现(Knowledge Discovery from DataBase,KDD),是指从大量数据中提取隐含的、先前未知的、有价值的知识和规则。它是人工智能和数据库发展相结合的产物,是国际上数据库和信息决策系统较前沿的研究方向之一。
图6-1 知识挖掘的过程
图6-2所示为一个典型的数据挖掘系统,主要包括如下组件。
图6-2 一个典型的数据挖掘系统
作为一个应用驱动的领域,数据挖掘有机结合了多学科技术,其中包括高性能计算、机器学习、数据库、统计学、可视化等许多应用领域的大量技术,如图6-3所示。这些技术都促进了数据挖掘技术的发展。
图6-3 数据挖掘用到的技术
6.2 数据挖掘的对象与价值
数据仓库一般用多维数据库结构建模,每个维度对应一组属性。数据集市是数据仓库的一个子集。
图6-4 数据仓库示例
图6-5 数据挖掘的数据类型
1.技术价值
数据挖掘与数学、统计学、计算机学、算法等基本理论知识无法分割。数据挖掘技术水平的突飞猛进也给基础学科领域带来最直接的跃进。数据挖掘不仅创造了新的计算方式、技术处理方式,更为其他技术的研发、应用和落地提供基础,如人工智能等。
大数据“三重门”理论的“交易门”是数据挖掘技术价值的核心映射。
“交易门”即客户与企业之间的交易数据,是一种“事后”数据。“交易门”数据是企业的核心数据,是与客户沟通、获得有效分析数据的重要数据来源,无论大数据采集技术如何发展,直接的交易数据永远都是第一有效和最值得关注的。(共14张PPT)
第6章 数据挖掘
本章主要内容如下。
(1)数据挖掘的概念。
(2)数据挖掘常用的技术与工具。
6.3 数据挖掘常用的技术
图6-6 一份购物清单
定义一个规则“牛肉->鸡肉”,在t1~t7位顾客中,同时购买牛肉和鸡肉的顾客比例为3/7,而购买牛肉的顾客中也购买了鸡肉的顾客比例是3/4。这两个比例参数在关联规则中被称作支持度(support)和置信度(confidence),是最重要的两个衡量指标。
对于规则“牛肉->鸡肉”,支持度为3/7,表示在所有顾客中有3/7同时购买牛肉和鸡肉,反映了同时购买牛肉和鸡肉的顾客在所有顾客中的覆盖范围;置信度为3/4,表示在买了牛肉的顾客中有3/4的人买了鸡肉,反映了可预测的程度,即顾客购买了牛肉的同时,购买鸡肉的可能性有多大。
从统计学的角度看,这是一个概率问题,“顾客买了牛肉之后购买鸡肉的可能性”是一个条件概率事件,从集合的角度(见图6-7)可以很好地描述这个问题。S表示所有的顾客,A表示购买牛肉的顾客,B表示购买鸡肉的顾客,C表示既买了牛肉又买了鸡肉的顾客,那么C.count/S.count= 3/7,C.count/A.count=3/4。
图6-7 从集合角度看待关联规则
结合以上例子,在数据挖掘中,有如下定义。
(1)事务:一条交易被称为一个事务,如每位顾客一次购买的商品集合t1~t7。
(2)项:交易的每一个物品被称为一个项,如鸡肉、牛肉。
(3)项集:包含零个或多个项的集合被称为项集,如{牛肉,鸡肉,衣服} 。
(4)k-项集:包含k个项的项集被称为k-项集,如{牛肉}叫作1-项集,{牛肉,鸡肉}叫作2-项集。
(5)支持度计数:一个项集出现在多少个事务中,它的支持度计数就是多少。例如,{牛肉}出现在t1、t2、t4、t5这4个事务中,那么它的支持度计数为4。
(6)支持度:支持度为支持度计数除以总的事务数。例如:以上总的事务数为7,{牛肉}的支持度计数为4,那么,{牛肉}的支持度是4/7,说明4/7的人购买牛肉。
(7)频繁项集:支持度大于或等于某个阈值的项集即为频繁项集。例如:设置阈值为50%时,{牛肉}的支持度为4/7=57%>50%,那么,{牛肉}是频繁项集。
(8)前件、后件:于规则“{牛肉} ->{鸡肉}”,{牛肉}是前件,{鸡肉}是后件。
(9)置信度:对规则“{牛肉} ->{鸡肉}”,{牛肉,鸡肉}的支持度计数除以{牛肉}的支持度计数,即为这个规则的置信度。{牛肉,鸡肉}的支持度计数为3,{牛肉}的支持度计数为4,那么,置信度为3/4。
(10)强关联规则:大于或等于最小支持度阈值和最小置信度阈值的规则被称为强关联规则。
关联分析的最终目标就是要找出强关联规则。
支持度和置信度只是两个参考值而已,并不是绝对的,也就是说假如一条关联规则的支持度和置信度都很高,不代表这个规则之间就一定存在某种关联。
关联规则的经典算法包括Apriori算法、FP-growth算法等。
1.Apriori算法
在Apriori算法中,寻找最大项集的基本思想:算法需要对数据集进行多步处理。
第一步,简单统计所有含一个元素项集出现的频率,并找出那些不小于最小支持度的项集,即一维最大项集。
从第二步开始,循环处理,直到再没有最大项集生成。循环过程:第k步中,根据第k 1步生成的k 1维最大项集产生k维候选项集,然后对数据库进行搜索,得到候选项集的项集支持度,与最小支持度比较,从而找到k维最大项集。
Apriori类算法已经成为关联分析的经典算法,其技术难点及运算量主要集中在以下两个方面。
(1)如何确定候选频繁项集和计算项集的支持数。
(2)如何减少候选频繁项集的个数及扫描数据库的次数。
2.FP-growth算法
针对Apriori算法的缺陷,Jiawei Han提出FP-growth算法。该算法仅需扫描数据库两次且无须生成候选项集,避免了产生“知识的组合爆炸”,提高了频繁模式集的挖掘效率。
FP-growth 算法将长频繁模式转换成一些较短频繁模式,然后连接后缀。它使用不频繁的模式后缀,提供了较好的选择性,显著地降低了搜索开销。
FP-growth采用如下分治策略:首先,将代表频繁项集的数据库压缩到一棵频繁模式树(FP树),该树仍保留项集的关联信息。然后,把这种压缩的数据库划分成一组条件数据库(一种特殊类型的投影数据库),每个数据库关联一个频繁项或“模式段”,并分别挖掘每个条件数据库。对每个“模式片段”,只需要考察与它相关联的数据集。随着被考察模式的“增长”,这种方法可以显著地压缩被搜索的数据集的大小。(共18张PPT)
第6章 数据挖掘
本章主要内容如下。
(1)数据挖掘的概念。
(2)数据挖掘常用的技术与工具。
例如,用挑西瓜的例子训练数据集,主要规则如下。
(色泽=青绿,根蒂=蜷缩,敲声=浊响)<==>好瓜
(色泽=乌黑,根蒂=蜷缩,敲声=浊响)<==>好瓜
(色泽=青绿,根蒂=硬挺,敲声=清脆)<==>坏瓜
(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)<==>坏瓜
运用分类算法建立分辨好坏瓜的分类模型,去西瓜摊买西瓜(测试数据集),看看能否买到好瓜。
(1)优点
决策树方法易于理解和实现,不需要使用者了解很多背景知识。它能直接体现数据的特点,只要通过解释,人们都有能力去理解它所表达的意义。
对决策树方法,数据的准备往往很简单或者是不必要的,而且能同时处理数据型和常规型属性,在相对较短的时间内能对大型数据源做出可行且效果良好的结果。
决策树方法易于通过静态测试来对模型进行评测,可以测定模型可信度;如果给定一个观察的模型,系统就能很容易地根据所产生的决策树方法推出相应的逻辑表达式。
(2)缺点
① 对连续性的字段比较难预测。
② 对有时间顺序的数据,需要很多预处理的工作。
③ 当类别太多时,错误可能会增加得比较快。
④ 一般来说,算法分类的时候,只是根据一个字段来分类。
2.最近邻分类器
工作原理:存在一个样本数据集合(训练样本集),并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
如图6-8所示,中心的圆要被决定赋予哪个类,是三角形还是正方形?如果k=3,由于三角形所占比例为2/3,圆将被赋予三角形那个类;如果k=5,由于正方形比例为3/5,因此圆被赋予正方形那个类。
图6-8 最近邻分类
K-means算法能处理大型数据集,结果簇相当紧凑,并且簇和簇之间明显分离。计算复杂度为O(tkn),t为迭代次数;k为聚类数;n为样本数。其缺点如下。
(1)该算法必须事先给定类簇数和质点。类簇数和质点的初始值设定往往对聚类分析的算法影响较大。
(2)通常在获得一个局部最优值时停止。
(3)只适合对数值型数据进行聚类分析。
(4)只适用于聚类分析结果为凸形的数据集,不适合发现非凸面形状的类簇或者大小差别很大的簇。
(5)对“噪声”和孤立点数据敏感,少量该类数据会对质点的计算产生极大的影响。
2.K-medoids算法
为了解决该问题,K-medoids算法提出了新的质点选取方式,而不像K-means算法那样采用均值计算。在K-medoids算法中,每次迭代后的质点都从聚类分析的样本点中选取,而选取的标准就是该样本点成为新的质点后能提高类簇的聚类分析质量,使类簇更紧凑。该算法使用绝对误差标准来定义一个类簇的紧凑程度。
传统的分裂层次聚类分析算法是DIANA。初始时,DIANA将所有样本点归为同一类簇,然后根据某种准则进行逐渐分裂。
层次聚类分析算法如图6-9所示。
图6-9 层次聚类分析算法(共26张PPT)
大数据导论
BIG DATA
Technology
第6章 数据挖掘
本章主要内容如下。
(1)数据挖掘的概念。
(2)数据挖掘常用的技术与工具。
6.4 数据挖掘常用的工具
6.4.1 RapidMiner
RapidMiner支持拖曳建模,自带1500多个函数,无须编程,简单易用,同时也支持各常见语言代码编写,以符合程序员个人习惯和实现更多功能。RapidMinerStudio社区版和基础版免费开源,能连接开源数据库,商业版能连接大多数数据源,功能更强大。它拥有丰富的扩展程序,如文本处理、网络挖掘、WEKA扩展、R语言等。
RapidMiner具有丰富的数据分析、挖掘和算法功能,常用于解决各种商业关键问题,如营销响应率、客户细分、客户忠诚度及终身价值、资产维护、资源规划、预测性维修、质量管理、社交媒体监测和情感分析等。
6.4.2 WEKA
WEKA(Waikato Environment for Knowledge Analysis)是一款免费的、非商业化的、在Java环境下开源的机器学习(Machine Learning)及数据挖掘软件。WEKA系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一。
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则及在新的交互式界面上的可视化。
WEKA项目旨在为研究人员和从业者的学习提供一个全面收集机器算法和数据预处理的工具。WEKA软件允许用户快速尝试,并在新的数据集上比较不同的机器学习方法。它的模块是建立在广泛的基础学习算法和工具上的集合,可扩展的架构允许复杂的数据挖掘过程。它在学术界和企业界都取得了广泛的认可,并已成为数据挖掘研究的一种广泛认可的软件。
6.4.3 Orange
Orange是一个基于组件的数据挖掘和机器学习软件套装,它的功能强大,有快速而又多功能的可视化编程前端,便于用户浏览数据分析结果和可视化,同时它绑定了Python,以便用户进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据账目、过渡、建模、模式评估和勘探的功能。Orange基于C++和Python开发,其图形库由跨平台的Qt框架开发。
Orange使用一种专有的数据结构,扩展名为.tab,其实就是用tab分割每个数据的纯文本。Orange也可以读取其他格式的数据文件,如CSV、TXT等。
Orange是类似WEKA的数据挖掘工具,它的图形环境被称为Orange画布(Orange Canvas)。用户可以在画布上放置分析控件,然后把控件连接起来组成挖掘流程。
6.4.4 R语言
R是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此被称为R),现在由“R开发核心团队”负责开发。
R语言是集数据分析与图形显示于一体的编程语言,是一种专业的统计分析软件。
R从根本上摒弃了套用模式的傻瓜式数据分析方式,它将数据分析的主动权和选择权交给使用者。数据分析人员可以根据问题的背景和数据的特点,更好地思考从数据出发如何选择和组合不同的方法,并将每一层输出反馈到对问题和数据处理的新思考上。R为专业分析提供了分析的弹性、灵活性和扩展性,是利用数据回答问题的最佳平台。
R语言主要有以下几个特点。
1.R是自由软件
2.R的兼容性很好
3.R是数据可视化的先驱
4.R不断更新加载包
R具有免费、开源、模块多样等众多特点,且在综合R文档网络(Comprehensive R Archive Network,CRAN)上提供了大量的第三方功能包,其内容涵盖从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库、各种语言接口到高性能计算模型,可以说无所不包、无所不容,这也是R获得越来越多各行各业的从业人员喜爱的一个重要原因。
6.4.5 Mining
Mining大数据挖掘平台是一款基于组件的数据挖掘、机器学习和数据分析的工具,如图6-10所示。它包括一系列可视化、探索、预处理和建模组件。除了提供Python模块外,Mining大数据挖掘平台还提供了图形用户界面(Graphical User Interface,GUI),用户可以用预先定义好的多种模块组成工作流来完成复杂的数据挖掘工作。
图6-10 Mining大数据挖掘平台
Mining大数据挖掘平台功能强,且使用方便。平台拥有数据挖掘算法的各类组件,包括分类、回归、聚类等。在使用过程中,用户不需要像使用其他数据挖掘工具那样进行复杂的参数设置,只要进行一些必要的参数优化即可。Mining大数据挖掘平台使用户再也不用自己编写复杂的算法,也不需要掌握太高深的数据流程的理论知识。用户所需要了解的只是算法的大概原理、算法实际应用环境。
Mining大数据挖掘平台的优势如下。
1.可视编程
2.交互式可视化
3.可用于数据科学教育
6.5 数据挖掘的典型应用
6.5.1 社交媒体领域的应用
社交网络是社交大数据的重要来源之一。在社交网络中,个体之间的交互提供了个体的喜好和关系等信息。这些网络已成为集体智能提取的重要工具。这些连接的网络可以使用图来表示,将网络分析方法运用在图上可以提取有用的知识。
图由一组顶点(也可称为节点)和一组由节点之间连线形成的边组成。从一个社交网络中提取的信息可以很容易地表示为一个图,其中的顶点代表用户,边代表他们之间的关系。许多网络度量可以用来对这些网络进行社交分析。
在通常情况下,一个社交网络的重要性或影响是通过中心性度量进行分析的。这些度量在大型网络中具有较高的计算复杂度。为了降低计算复杂度,针对一个大型的图表分析,第二代基于MapReduce的框架已经出现,如Hama、Graph和Graph Lab等。
社交媒体的数据产生于大量的网络应用程序和网站中,这些网站的快速增长,让用户可以相互沟通、互动、分享和合作。这样的信息已经被打散到许多不同的领域,如日常生活(电子商务、旅游、爱好、友谊等)、教育、健康和工作。
6.5.2 市场营销领域的应用
市场营销其实是数据挖掘技术最早运用的领域。人们通常根据客户的具体需求,进行客户分析,将有不同消费习惯和消费特点的客户进行简单的分类管理,以此来保证商品能够顺利销售,并提高个人销售的成功率和业绩,而销售的范围也从最初的超市购物扩展到了包括保险、银行、电信等各个领域。
6.5.3 科学研究领域的应用
科学研究需要对数据进行关系分析,为进一步的实验和总结经验做准备,而科学研究产生的数据量往往是巨大的,因此数据挖掘技术在科学研究领域也得以广泛运用。通常数据挖掘人员会对科学研究的数据使用数据挖掘算法,以找到其中蕴含的数据规律,在实现数据挖掘部分价值的同时也为后续的科学分析与运用打下基础。
6.5.4 电信领域的应用
随着信息化时代的到来,电信产业也飞速发展起来,到目前为止,电信产业已经形成一个巨大的网络信息载体,如何将其中的信息数据进行整合,就成为电信产业发展过程中的重要问题。而数据挖掘技术的运用则在一定程度上解决了这一问题,大量的数据通过数据挖掘技术得到了有效分类,并在这个过程中通过运算得出数据之间的关联性,运用规律进一步进行数据分类。
6.5.5 教育领域的应用
教学评估、教学资源、学生个人基本信息等组成了教育领域的数据库,利用数据挖掘技术来实现教学资源的优化配置,对学生的个人信息整理归档,从而保证教育领域中数据整理的良好运作。随着大数据时代的来临,教育大数据深刻改变着教育理念和教育思维方式。新的时代,教育领域充满了大数据,如学生、教师的一言一行,学校里的一切事物,都可以转化为数据。当每个在校学生都用计算机终端开展上课、读书、记笔记、做作业、进行实验、讨论问题等活动时,这些活动都将成为教育大数据的来源。
在大数据时代,教育者应该更依赖于数据和分析,而不依赖于直觉和经验;同样,教育大数据还将改变领导力和管理的本质。服务管理、数据科学管理将取代传统的行政管理、经验管理。伴随着技术的不断发展,教育数据分析和挖掘不断深入,人们不仅要着眼于已有的确定关系,更要探寻隐藏的因果关系。利用大数据技术可以深度挖掘教育数据中的隐藏信息,发现教育过程中存在的问题,提供决策来优化教育管理。
6.5.6 医学领域的应用
目前,越来越多的数字化系统出现在医疗机构中,随着医学水平的提高,这些系统积累了越来越多的医疗数据。
1.医学图像挖掘
医学图像(如CT、MRI等)是利用人体内不同器官和组织对X射线、超声波、光线等的散射、透射、反射和吸收的不同特性而形成的。它为人体骨骼、内脏器官的疾病和损伤进行诊断、定位提供了有效的手段。
2.DNA分析
人类基因组计划的开展产生了海量的基因组信息,如何区分序列上的外显子和内含子,成为基因工程中对基因进行识别和鉴定的关键环节之一。使用有效的数据挖掘方法从大量的生物数据中挖掘有价值的知识并提供快速决策支持,成为基因分析的必要手段。
3.公众健康监控
公共卫生部门可以通过覆盖全国的患者电子病历数据库,快速检测传染病,进行全面的疫情监测,并通过集成疾病检测和响应程序,快速进行响应。这将带来很多好处,包括医疗索赔支出的减少,传染病感染率的下降等。公共卫生部门可通过提供准确和及时的公众健康咨询,大幅提高公众健康风险意识,降低传染病的感染风险。
4.临床决策支持系统
大数据分析技术使临床决策支持系统更加智能。例如,使用图像分析和识别技术,识别医疗影像数据,或者挖掘医疗文献数据并建立医疗专家数据库,从而给医生提出诊疗建议。还可以使医疗流程中大部分的工作流向护理人员和助理医生,使医生从耗时过长的简单咨询工作中解脱出来,从而提高诊疗效率。(共21张PPT)
第7章 数据可视化
本章主要内容如下。
(1)可视化的含义。
(2)可视化的发展历程。
(3)可视化的作用。
(4)数据可视化分类。
(5)数据可视化工具。
可视化就是把数据、信息和知识转化为可视的表示形式并获得对数据更深层次认识的过程。可视化作为一种可以放大人类感知的数据、信息、知识的表示方法,日益受到重视并得到越来越广泛的应用。可视化可以应用到简单问题,也可以应用到复杂系统状态表示问题。人们可以从可视化的表示中发现新的线索、新的关联、新的结构、新的知识,促进人机系统的结合,促进科学决策。
可视化充分利用计算机图形学、图像处理、用户界面、人机交互等技术,形象、直观地显示科学计算的中间结果和最终结果并进行交互处理。可视化技术以人们惯于接受的表格、图形、图像等方法并辅以信息处理技术将客观事物及其内在的联系进行表现,可视化结果便于人们记忆和理解。
可视化为人类大脑与计算机这两个信息处理系统之间提供了一个接口。可视化对信息的处理和表达方式有其他方式无法取代的优势,其特点可总结为可视性、交互性和多维性。
人们对计算机可视化技术的研究已经历了一个很长的历程,而且形成了许多可视化工具,其中SGI公司推出的GL三维图形库表现突出,其易于使用而且功能强大。利用GL开发出来的三维应用软件颇受许多专业技术人员的喜爱,这些三维应用软件已涉及建筑、产品设计、医学、地球科学、流体力学等领域。
随着计算机技术的发展,GL已经进一步发展成为OpenGL。OpenGL已被认为是高性能图形和交互式视觉处理的标准,在计算机领域被广泛采用。
数据可视化是可视化技术针对大型关系型数据库或数据仓库的应用,它旨在用图形和图像的方式展示大型数据库中的多维数据,并且以可视化的形式反映对多维数据的分析及内涵信息的挖掘。数据可视化技术凭借计算机的巨大处理能力、计算机图像和图形学基本算法,以及可视化算法,把海量的数据转化为静态或动态图并呈现在人们的面前,并允许通过交互手段控制数据的抽取和画面的显示,使隐含于数据之中不可见的现象变得可见,为人们分析、理解数据、形成概念、找出规律提供了强有力的手段。
数据可视化技术诞生于20世纪80年代,是运用计算机图形学和图像处理等技术,以图表、地图、动画或其他使内容更容易理解的图形方式来表示数据,使数据所表达的内容更容易被处理。数据可视化技术与虚拟现实技术、数据挖掘、人工智能,甚至与人类基因组计划等前沿学科领域都有着密切的联系。
从纯技术角度来看,数据可视化大体可以分为5类:基于几何投影的数据可视化、面向像素的数据可视化、基于图标的数据可视化、基于层次的数据可视化及基于图形的数据可视化。
从实用角度来看,数据可视化大体可以分为3类:科学可视化、信息可视化和可视化分析学。
7.2.1 科学可视化
1987年,在华盛顿召开的一次科学计算会议上,针对大数据处理问题,美国计算机成像专业委员会提出了解决方案:可视化——用图形和图像解释数据。这次会议形成了题为“科学计算可视化”的报告,后被称为科学可视化(Scientific Visualization,SV)。
2.可视化所研究的课题就是人与计算机之间的交互机制
可视化应使人与计算机协同地感知、利用和传递视觉信息。科学可视化按功能划分为如下3种形式。
(1)事后处理方式。计算和可视化是分成两个阶段进行的,两者之间不进行交互作用。
(2)追踪方式。可将计算结果即时以图像显示,以使研究人员了解当前的计算情况,决定计算是否继续。
(3)驾驭方式。这是科学可视化的最高形式。研究人员可参与计算过程,对计算进行实时干预。
3.科学可视化的应用范围包括当代科学技术的各个领域
其中,典型的领域如下。
(1)科学研究:分子模型、医学图像、数学、地球科学、空间探索及天体物 理学。
(2)工程计算:计算流体力学和有限元分析。
4.当前科学计算可视化技术的发展特点
(1)可视化图像的实时显示及交互控制
(2)网络环境下实现的科学计算可视化
(3)虚拟环境下实现的科学计算可视化
可视化分析学是一个多学科领域,涉及以下方面。
一是分析推理技术,它能使用户获得深刻的见解,这种见解直接支持评价、计划和决策的行为。
二是可视化表示和交互技术,它充分利用人眼的宽带宽通道的视觉能力,来观察、浏览和理解大量的信息。
三是数据表示和变换,它以支持可视化分析的方式转化所有类型的异构和动态数据。
四是支持分析结果的产生、演示和传播的技术,它能与各种观众交流有适当背景资料的信息。(共33张PPT)
大数据导论
BIG DATA
Technology
第7章 数据可视化
本章主要内容如下。
(1)可视化的含义。
(2)可视化的发展历程。
(3)可视化的作用。
(4)数据可视化分类。
(5)数据可视化工具。
7.3 数据可视化工具
数据可视化工具必须具备的特性如下。
1.实时性
2.简单操作
3.更丰富的展现方式
4.多种数据集成支持方式
7.3.1 入门级工具
Excel作为一个入门级工具,是快速分析数据的理想工具,也能创建供内部使用的数据图,但是Excel在颜色、线条和样式上可选择的范围有限,这也意味着用Excel很难制作出能符合专业出版物和网站需要的数据图。
数据可视化包含简单图形、动态图表、数据地图和数据动态视频等,可以用很多专业软件制作,但这需要专业知识,要熟悉编程语言,还要购买专用软件并安装,才能实现数据可视化的效果。
7.3.2 信息图表工具
信息图表是对各种信息进行形象化、可视化加工的一种工具。根据道格·纽瑟姆(Doug Newsom)的概括,作为视觉化工具的信息图表包括图表(chart)、图解(diagram)、图形(graph)、表格(table)、地图(map)和列表(list)等。下面介绍8种信息图表工具。
1.Visem
Visem是一款包含大量素材的免费信息图表工具,如图7-1所示。用户可以借助它“直观地呈现”复杂的数据。无论用它来构建演示文稿,还是创建有趣的图表,这款工具都是可以胜任的。其中包含100个风格各异的免费字体,还有数千张高质量的图片。
图7-1 Visem可视化工具
2.Canva
Canva是目前最著名的信息图制作工具,如图7-2所示。它是一款便捷的在线信息图表设计工具,适用于各种设计任务(从制作小册子到制作演示文稿),还为用户提供庞大的图片素材库、图标合集和字体库。
图7-2 Canva可视化工具
3.Google Charts
Google Charts不仅可以帮用户设计信息图表,甚至可以帮用户展示实时的数据,如图7-3所示。作为一款信息图表的设计工具,Google Charts内置了大量可供用户控制和选择的选项,用来生成足以让用户满意的图表。通过来自Google公司的实时数据的支撑,Google Charts的功能比用户想象的更加强大和全面。
图7-3 Google Charts可视化工具
4.Piktochart
Piktochart是一款信息图表设计和展示工具,如图7-4所示。用户所需要做的,只是单击几下鼠标,就可以将无聊的数据转化为有趣的图表。Piktochart 的自定义编辑器能够让用户修改配色方案和字体,插入预先设计的图形或者图片,内置的栅格系统能够帮用户更好地对齐和控制排版布局,功能上够用且便捷无比。
图7-4 Piktochart可视化工具
5.Infogram
Infogram算是老牌信息图表设计工具了,它同样是免费的,如图7-5所示。它内置大量的图表样式供用户使用,允许上传图片和视频,可以像Excel一样输入,然后生成不同样式的设计。这款工具能够自动地调整信息图表的外观,以匹配不同类型的数据,更好地展示。
图7-5 Infogram可视化工具
6.Venngage
Venngage同样是一款颇为优秀的信息图表设计和发布工具,其最突出的特性是“易用性”,如图7-6所示。用户可以在Venngage内置的各种模板的基础上制作信息图表,其内置的模板、上百个图表和图标样式可以让用户结合自己的图片素材生成足以匹配需求的信息图表。同样,用户可以生成信息动画,让自己的数据更好地呈现出来。
图7-6 Venngage可视化工具
7.Easel.ly
Easel.ly是一款免费的信息图表设计工具,如图7-7所示。它是基于网站来为用户提供信息图表设计服务的,内置模板,允许用户轻松定制。它内置诸如箭头这样基本的图形、各种图表和图标,以及自定义字体色彩这种不可或缺的功能模块,用户可以上传各种自制的素材来完善设计。
图7-7 Ease.ly可视化工具
7.3.3 地图工具
1.MapShaper
MapShaper适用的数据形式不再是一般人都能看懂的表格,而是需要特定的格式,包括shapefiles(文件名一般以.shp作为后缀)、geoJSON(一种开源的地理信息代码,用于描述位置和形状)及topoJSON(geoJSON的衍生格式,主要用于拓扑形状,比较有趣的应用案例是以人口规模作为面积重新绘制行政区域的形状和大小,这一类图被称为cartogram)。
对需要自定义地图中各区域边界和形状的制图师,MapShaper是个极好的入门级工具,其简便性也有助于地图设计师随时检查数据是否与设计图相吻合,修改后还能够以多种格式输出,进一步用于更复杂的可视化产品。可视化案例如图7-8所示。
图7-8 用MapShaper制作的世界海底通信线缆
2.CartoDB
CartoDB工具如图7-9所示,目前已经吸引12万用户制作了超过40万张地图。这些用户将世界上一些有趣的主题,如全球“粉丝”对Beyonce最新专辑发布的实时反应等,变成互动性强、好玩的可视化作品。
图7-9 CartoDB可视化工具
3.mapbox
可以说,mapbox(见图7-10)是制图专业人士的工具,可以制作独一无二的地图,从马路的颜色到边境线都可以自行定义。它是一个收费的商业产品,Airbnb、Pinterest等公司都是其客户。
图7-10 mapbox可视化工具
4.Map Stack
Map Stack是由可视化设计机构Stamen(这家“机构”自称既非研究所又非公司,却以盈利为目的,非常独特)推出的免费地图制作工具,简便易用,如图7-11所示。
图7-11 Map Stack可视化工具
7.3.4 高级分析工具
1.R
数据可视化本身是一门复杂的学科,包含了很多方面,在R中实现的数据可视化,目前主要是数据的统计图展示。
展示分为低维数据的展示和多维数据的展示。由于ggplot2图形系统是R中功能最强大的图形系统,使用ggplot2展示的数据更加美观和方便,因此本节在展示R中的各类统计图时选用ggplot2图形系统。
在使用ggplot2之前,需要先安装并载入该包,代码如下。
使用R语言绘制的散点图是数据点在直角坐标系平面上的分布图。它用于研究两个连续变量之间的关系,是一种最常见的统计图形,如图7-12所示。
> install.packages("ggplot2")
> library(ggplot2)
图7-12 R语言散点图
使用R语言绘制的直方图(Histogram)又被称为质量分布图,是一种统计报告图,如图7-13所示。直方图由一系列高度不等的纵向条纹或线段表示数据分布的情况,一般用横轴表示数据类型,纵轴表示分布情况。
图7-13 R语言直方图
2.D3
D3的全称是Data-Driven Documents(数据驱动文档),是基于数据的文档操作JavaScript库。D3能够把数据和HTML、SVG、CSS结合起来,创造出可交互的数据图表。其中,数据来源于作者,文档代表基于Web的文档(或网页),也就是可以在浏览器中展现的一切(如HTML、SVG等),而D3相当于扮演了一个驱动程序的角色,将数据和文档联系起来。
D3.js采用链式语法,非常方便用户对库中函数方法的引用。
3.Python
Python让用户很容易就能实现可视化——只需借助可视化的两个专属库(libraries)——Matplotlib和Seaborn。
Matplotlib:基于Python的绘图库为Matplotlib提供了完整的2D图形和有限3D图形支持。这对在跨平台互动环境中发布高质量图片很有用。它也可用于动画。
Seaborn是Python中用于创建丰富信息和有吸引力图表的统计图形库。这个库是基于Matplotlib的。
Seaborn提供多种功能,如内置主题、调色板、函数和工具,来实现单因素、双因素、线性回归、数据矩阵、统计时间序列等的可视化,以让我们来进一步构建复杂的可视化结果。
7.4 数据可视化案例
7.4.1 数字美食
《数字美食》赢得了“The Dataviz 项目金奖”及“杰出个体奖”两个奖项,获奖者是 Moritz Stefaner,他是一名专注于研究数据可视化的独立设计师。
《数字美食》是设计师用艺术与设计的手法展示美味佳肴的制作过程的一种尝试,如图7-14所示。设计师从某种特别的味道和口感,到不同的温度与肌理,甚至于装盘时体现出来的每一个小小的烹饪细节,用2D或3D的方式,展现出各种不同的具体形象。
图7-14 《数字美食》
7.4.2 空中的间谍
《空中的间谍》出自美国新闻网站Buzzfeed的两名编辑Peter Aldous和Charles Sefie。凭借《空中的间谍》,两人获得“最美奖”和“数据新闻金奖”两项大奖。
《空中的间谍》详细展现了美国联邦调查局和国土安全局通过飞机在美国各大城市进行空中监视的情况,如图7-15所示。
Buzzfeed 通过分析航班实时追踪网站Flightradar24从2015年8月中旬到12月末的飞行器位置数据,绘制出了这张飞行轨迹图,且可以拖动时间进度条,以查看单架飞机的航线及每天的具体情况。
图7-15 《空中的间谍》(共26张PPT)
第8章 大数据与云计算
本章主要内容如下。
(1)云计算的概念与特点。
(2)云计算的分类。
(3)云计算的体系架构。
(4)大数据与云计算未来的发展方向和趋势。
(5)大数据与云计算在生产生活中的应用。
8.1 什么是云计算
8.1.1 云计算的概念与特点
1.云计算含义
(1)Google公司的定义:云计算是拥有开放标准和基于互联网服务的,可以提供安全、快捷和便利的数据存储和网络计算服务的系统。
(2)美国国家标准与技术研究院(NIST)的定义:云计算是一种应用资源模式,它可以根据需要用一种很简单的方法通过网络访问已配置的计算资源。这些资源由服务提供商以最小的代价或专业的运作快速地配置和发布。
(3)维基(Wiki)的定义:云计算是一种通过互联网以服务的方式提供动态可伸缩的虚拟化的资源的计算模式。
实质上,云计算是分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算和网络技术融合而成的产物。
2.云计算特点
(1)超大规模。
(2)虚拟化。
(3)高可靠性。
(4)通用性。
(5)高可扩展性。
(6)按需服务。
(7)极其廉价。
①构建“云”的节点廉价。“云”由极其廉价的节点构成,而不采用复杂而昂贵的节点进行构建。
②管理成本廉价。“云”的自动化集中式管理使大量企业无须负担日益高昂的数据中心管理成本。
③资源通用性强。“云”的强通用性使资源的利用率有大幅度提升。
云计算的缺点:云计算既提供计算服务,又提供数据存储服务,潜在的危险性较大。因此,数据的安全保障必须加强。
8.1.2 云计算的分类
1.公有云
公有云(Public Cloud)通常指云的提供商向普通用户提供使用权的云。公有云一般可通过Internet使用,可在当今整个开放的公有网络中使用。一般来说,公有云可免费使用或使用费用低廉。
公有云的特点如下。
(1)数据安全性相对较差。
(2)价格相对便宜。云计算对用户端的设备要求较低。
(3)数据共享方便。云计算可以轻松实现不同设备间的数据与应用共享。
(4)多方式使用网络。云计算为用户使用网络提供了多种可能方式。
2.私有云
私有云(Private Clouds)是为某一个特定客户单独使用而构建的,因而向该用户提供的对数据、安全及服务质量等的控制都是极为有效的,该用户几乎可以完全控制在此私有云上部署的应用程序。私有云可被部署在企业数据中心的防火墙内,也可以被部署在一个安全的主机托管场所。
私有云的特点如下。
(1)数据相对安全。
(2)服务质量稳定。
(3)硬件受限制。
(4)不影响私有云用户的现有IT管理的流程。
3.混合云
混合云(Hybrid Cloud)融合了公有云和私有云,是近年来云计算的主要模式和发展方向。私有云主要面向企业用户,出于安全考虑,企业更愿意将数据存放在私有云中,但是同时又希望可以获得公有云的计算资源,在这种情况,混合云越来越多地被采用,它对公有云和私有云进行融合和匹配,以获得更佳的效果,这种个性化的解决方案,达到了既省钱又安全的目的。
8.1.3 云计算与分布式计算的区别
分布式计算是一种把需要进行大量计算的整体数据分解为若干个小块数据,由多台计算机分别计算各个小块数据,然后将各个小块数据的计算结果统一合并,得到整体数据结论的计算方式。
分布式中的计算节点的构建,一般是为完成某一个特定任务的需要而建立的,因此其节点具有较强的针对性,即通用性较差;云计算一般来说都是为通用应用而设计的,通用性更强。分布式计算作为一种面向特殊应用的解决方案,仍将继续在某些特别领域存在,而云计算则会深入地影响整个IT行业乃至人类社会的生产、生活。
云计算是一种“生产者-消费者”模型,用户通过互联网获取云计算系统提供的各种服务。分布式系统是一种“资源共享”模型,资源提供者亦可成为资源消费者。
云计算采用集群来存储和管理数据资源,运行的任务以数据为中心,而分布式计算则以计算为中心。
分布式系统将数据和计算资源虚拟化,而云计算则进一步将硬件资源虚拟化。
分布式系统内各节点采用统一的操作系统,而云计算在各种操作系统的虚拟机上提供各种服务。
8.1.4 云计算的体系架构
1.云计算的服务模式
云计算的典型服务模式有3类:软件即服务(Software as a Service,SaaS),平台即服务(Platform as a Service,PaaS)和基础即服务(Infrastructure as a Service,IaaS)。云计算架构可参考图8-1和图8-2。
图8-1 云计算平台架构
图8-2 云计算基础架构
(1)SaaS(软件即服务)
该层通过部署硬件基础设施对外提供服务。用户可以根据各自的需求购买虚拟或实体的计算、存储、网络等资源。用户可以在购买的空间内部署和运行包括操作系统和应用程序在内的软件,而不需管理或控制任何云计算基础设施(事实上也不能管理或控制),但用户可以选择操作系统、存储空间并部署自己的应用,也可以控制有限的网络组件(如防火墙、负载均衡器等)。
(2)PaaS(平台即服务)
该层将云计算应用程序开发和部署的平台作为一种服务提供给客户,该服务包括应用设计、应用开发、应用测试和应用托管等。开发者只需要上传代码和数据就可以使用云服务,而不需关心底层的具体实现方式和管理模式。
(3)IaaS(基础即服务)
该层指云计算服务商提供虚拟的硬件资源,用户通过网络租赁即可搭建自己的应用系统。IaaS属底层,向用户提供可快速部署、按需分配、按需付费的高安全与高可靠的计算能力,并向用户提供存储能力的租用服务,还可为应用提供开放的云服务接口,用户可以根据业务需求,灵活租用相应的云基础资源。
2.云计算的主要技术
(1)虚拟化技术
虚拟化指计算单元不在真实的单元上而在虚拟的单元上运行,是一种优化资源和简化管理的计算方案。虚拟化技术适合在云计算平台中应用,虚拟化的核心解决了云计算等对硬件的依赖,提供统一的虚拟化界面;通过虚拟化技术,人们可以在一台服务器上运行多台虚拟机,从而实现了对服务器的优化和整合。
虚拟化技术使用动态资源伸缩的手段,降低了云计算基础设施的使用成本,并提高负载部署的灵活性。
8.1.5 云计算需要解决的问题
1.标准化问题
2.数据安全和隐私问题
3.网络稳定性问题
关于云安全的问题,我们需要给予极大的重视。
1.云计算的主要安全风险
(1)来自云计算服务提供商的安全风险。
(2)来自网络的安全风险。
(3)来自虚拟化的安全风险。
(4)边界安全模型失效带来的安全风险。
2.目前关于云计算安全性的研究
安全性研究集中在云计算安全标准的建立、可信访问控制、数据隐私保护、虚拟安全技术等方面。
3.降低云计算安全风险的措施
(1)选择相对可靠的云计算服务提供商。
(2)经常备份数据。
(3)增强安全防范意识,不将敏感或核心数据放在云端。
(4)增强访问控制,明确谁可以访问哪些数据。
8.1.6 具有代表性的云计算厂商
Google公司最早提出云计算概念,正在运营的云计算商用平台被称为Google应用引擎。平台上开发完善了操作系统Chrome OS、MapReduce编程模型、GFS文件系统和BigTable数据管理。Google公司推出了许多新的应用,从文档Google docs、图片、Google Picasa、邮件Gmail,到日程Google Calendar、地图Google map、翻译Google translate等,其应用涵盖桌面计算机日常应用的各个方面。
Amazon公司在2011年全美评选十大“云计算”供应商中排名第一。其云计算主要提供底层的数据存储、计算机处理、信息排队和数据库管理系统等服务,不包括应用层面的服务。Amazon公司的云计算名为AWS(Amazon网络服务),包括4个部分:S3(简单的存储服务)、EC2(弹性计算云)、SQS(简单排列服务)、Simple DB(分布式数据存储)。
IBM公司推出的“蓝云计划”在全球建立了数十家云计算中心,在中国选择了北京和无锡作为其基地。IBM公司的蓝云平台由数据中心、管理软件、监控软件、应用服务器、数据库及一些虚拟化组件共同组成,是一个企业级的解决方案。
Microsoft云计算包括3种运营模式:第一种模式是公司自己为客户提供公有云服务;第二种模式是和合作伙伴一起开发应用为客户服务;第三种模式是客户建立自己的私有云,Microsoft公司提供平台、产品、技术等支持。Microsoft公司在部署模式上全面覆盖了私有云、公有云和混合云的构建,提供的服务包括IaaS、PaaS和SaaS。
阿里(Alisoft)中小企业管理软件平台也产生了很大的影响。2009年,阿里巴巴集团成立子公司“阿里云”,并专注于云计算领域的研究和开发。2012年,阿里云为CSDN量身打造的基础云平台的第一个服务云邮箱正式上线运营,紧接着开放了存储业务。同年,阿里云联手天语打造出新一代云智能手机。
2011年6月7日,Apple公司正式发布了iCloud云服务,该服务可以让Apple设备实现无缝对接。iCloud让使用者可以免费存储5GB的资料,使用者可存储并访问自己的音乐、照片、应用程序、日历、文档及更多内容,并以无线方式推送到自己的所有设备,一切都能自动完成。
华为云成立于2011年,隶属于华为公司。为加快华为云的发展,2017年3月起,华为公司专门成立了Cloud BU,全力构建并提供可信、开放、全球线上线下服务的公有云。(共20张PPT)
大数据导论
BIG DATA
Technology
第8章 大数据与云计算
本章主要内容如下。
(1)云计算的概念与特点。
(2)云计算的分类。
(3)云计算的体系架构。
(4)大数据与云计算未来的发展方向和趋势。
(5)大数据与云计算在生产生活中的应用。
(2)中间件技术
支持应用软件的开发、运行、部署和管理的支撑软件被称为中间件。中间件是运行在两个层次之间的一种组件,是在操作系统和应用软件之间的软件层次。中间件可以屏蔽硬件和操作系统之间的兼容问题,并具有管理分布式系统中的节点间的通信、节点资源和协调工作等功能。通过中间件技术,我们可将不同平台的计算节点组成一个功能强大的分布式计算系统。而云环境下的中间件技术,其主要功能是对云服务资源进行管理,包含用户管理、任务管理、安全管理等,为云计算的部署、运行、开发和应用提供高效支撑。
(3)云存储技术
在云计算中,云存储技术通常和虚拟化技术相互结合起来,通过对数据资源的虚拟化,提高访问效率。目前数据存储技术HDFS(Hadoop Distributed File System,开源)和Google公司的GFS(Google File System,非开源)具有高吞吐率、分布式和高速传输等优点,因此,采用云存储技术,可满足云计算为大量用户提供云服务的需求。
8.2 大数据与云计算的关系
大数据复杂的需求对技术实现和底层计算资源提出了高要求,而云计算所具备的弹性伸缩、动态调配、资源虚拟化、支持多租户、支持按量计费或按需使用及绿色节能等基本要素,正好契合了新型大数据处理技术的需求,也正在成为解决大数据问题的未来计算技术发展的重要方向。
大数据与云计算的关系可参考图8-3。
图8-3 大数据与云计算的关系
8.2.1 云计算将改变大数据分析
首先云计算为大数据提供了可以弹性扩展且又相对便宜的存储空间和计算资源,使中小企业可以通过云计算来完成大数据分析。
其次,云计算IT资源庞大,分布又相对广泛,是异构系统较多的企业及时准确处理数据的有力高效方式,甚至可以说是目前相对可实施的有效的唯一方式。大数据要走向云计算,还要依赖数据通信带宽的提高和云资源的建设,也需要确保原始数据较容易地迁移到云计算系统中,同时更需要云资源池能“随心所欲”地随需扩展。
8.2.2 大数据与云计算的区别和联系
大数据与云计算都是为数据存储和处理服务的,都需要占用大量的存储和计算资源,因而都要用到海量数据存储技术、海量数据管理技术等并行处理技术。大数据与云计算主要有以下几点区别。
(1)目的不同。
大数据的目的是充分挖掘海量数据中的信息,以发现数据中的价值;云计算的目的是通过互联网更好地调用、扩展、管理及存储方面的资源和能力,即云计算以调用计算资源和存储资源为目的,以节省企业的IT部署成本。
(2)处理对象不同。
大数据的处理对象是数据;云计算的处理对象是计算资源、存储资源和应用。
(3)推动企业不同。
大数据的推动力量是从事数据存储与处理的软件厂商和拥有海量数据的企业;云计算的推动力量是拥有强力计算资源和海量存储资源的企业。
8.2.3 大数据与云计算未来的发展方向和趋势
大数据的整体态势和发展趋势主要体现在如下几个方面:大数据与学术、大数据与人类的活动,大数据的安全隐私、关键应用、系统处理和对整个产业的影响。在整体态势上,数据的规模将变得更大,数据资源化、数据价值将更加凸显,数据私有化和联盟共享将更加普遍。大数据的发展会催生许多新兴职业,如数据分析师、数据科学家、数据工程师等,有非常丰富的数据经验的人才会成为稀缺人才。随着大数据的发展,数据共享联盟将逐渐壮大成为产业的核心一环。随着大数据的共享越来越普遍,隐私问题也随之而来,例如每天手机产生的通话、位置等给人们带来了便利的同时,也带来了个人隐私的问题。
云计算未来可能会有以下4个发展方向。
1.混合云
2.大数据分析
3.个性化定制服务
4.云游戏
8.2.4 大数据与云计算在生产生活中的应用
1.智慧医疗
随着大数据时代的到来,医疗行业的信息化也迎来自己的“大数据时代”。如何将患者的被动性参与转向主动健康管理,从单一案例效果评估转向过程性、全程性的整体评估和体验;从病种数据管理扩展到健康数据管理,从关注争端和治疗技术跨到预防、护理和康复环节是未来医疗行业需要关注和解决的问题。大数据技术是解决这些问题的重要途径。
基于大数据技术,有朝一日,机器的诊疗准确率甚至可能超过人类历史上最有名的医生,智慧医疗将是大数据的下一站之一。
(1)疾病诊疗
(2)疾病预测
(3)可穿戴医疗设备
2.电子商务
我国电子商务行业发展迅猛,产业规模迅速扩大,电子商务信息、交易和技术等服务企业不断涌现。电子商务在我国的经济体系中占据了越来越重要的地位,随着电子商务的迅猛发展,云计算和大数据技术在其中也得到了长足的应用。
(1)个性化商品推荐
跨境电商Amazon公司通过传统门店无法比拟的互联网手段,空前地获取了极其丰富的用户行为信息,并且进行深度分析与挖掘。用户行为信息就是用户在网站上发生的所有行为,如搜索、浏览、打分、点评、加入购物筐、取出购物筐、加入收藏列表、购买、使用减价券和退货等;甚至包括在第三方网站上的相关行为,如比价、看相关评测、参与讨论、社交媒体上的交流、与好友互动等。
Amazon公司通过对这些行为信息的分析和理解,制定对客户的贴心服务及个性化推荐。
(2)个性化营销
Informatica公司(全球领先的独立企业数据集成软件提供商)的大数据技术帮助这家零售商用社交平台上的信息充实了客户数据,使其业务服务更具有目标性。
(3)智慧物流
在以物联网为基础的智慧物流技术流程中,智能终端利用射频识别(RFID)技术、红外感应、激光扫描等传感技术获取商品的各种属性信息,再通过通信手段传递到智能数据中心对数据进行集中统计、分析、管理、共享、利用,从而为物流管理甚至整体商业经营提供决策支持。大数据技术驱动的智慧物流系统极大地降低了物流成本,提高了企业利润,为企业生产、采购和销售系统的智能融合打下了基础,提高了企业的综合竞争力,更能使消费者节约成本并轻松、放心购物。
3.智慧城市
智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可持续成长。
(1)智慧交通
百度地图是大数据智慧交通的典型应用。百度地图提供了丰富的公交换乘、驾车导航的查询功能,为用户提供最适合的路线规划,使用户不仅知道要找的地点在哪里,还可以知道如何前往。同时,百度地图还提供了完备的地图功能(如搜索提示、视野内检索、全屏、测距等),便于用户更好地使用地图,便捷地找到所求。
(2)智能电网
智能电网在欧洲已经做到了终端,也就是所谓的智能电表。在德国,政府鼓励人们利用太阳能,鼓励家庭安装太阳能,电力公司除了卖电给居民,当居民的太阳能有多余电的时候还可以买回来。(共29张PPT)
大数据导论
BIG DATA
Technology
第9章 大数据与人工智能
本章主要内容如下。
(1)人工智能的发展历史。
(2)人工智能的研究方向和方法。
(3)人工智能面临的问题。
9.1 什么是人工智能
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的科学技术。
9.1.1 人工智能的发展历史
1.机器人的出现和发展
机器人这一概念在人类的想象中早已出现。制造机器人是人类社会机器人技术研究者的梦想,代表了人类重塑自身、了解自身的一种强烈愿望。自古以来,不少杰出科学家、发明家和能工巧匠制造了大量具有人类特点或具有模拟动物特征的机器人雏形。
早在我国西周时期,就流传着有关巧匠偃师献给周穆王一个艺妓(歌舞机器人)的故事,有《列子·汤问》篇记载为证;还流传了这么一个典故——“偃师造人(见图9-1)、唯难于心”,就是说技艺再好,人心难造。
图9-1 偃师造人
500 多年前,达·芬奇在手稿中绘制了西方文明世界的第一款人形机器人,它用齿轮作为驱动装置,由此通过两个机械杆的齿轮再与胸部的一个圆盘齿轮咬合,机器人的胳膊就可以挥舞,可以坐下或者站立。更绝的是,再通过一个传动杆与头部相连,头部就可以转动甚至开合下颌。一旦配备自动鼓装置,这个机器人甚至就可以发出声音。后来,一群意大利工程师根据达·芬奇留下的草图苦苦揣摩,耗时15年造出了被称为“机器武士”的机器人,如图9-2所示。
图9-2 被称为“机器武士”的机器人
1738年,法国天才技师杰克·戴·瓦克逊发明了一只机器鸭(见图9-3),它会“嘎嘎”叫,会“游泳”和“喝水”,还会“进食”和“排泄”。瓦克逊的本意是想把生物的功能加以机械化而进行医学上的分析。
图9-3 机器鸭
1768—1774年间,瑞士钟表名匠德罗斯父子3人设计制造出3个像真人一样大小的机器人——写字偶人、绘图偶人和弹风琴偶人,如图9-4所示。它们是由凸轮控制和弹簧驱动的自动机器,至今还被作为国宝被保存在瑞士纳切特尔市艺术和历史博物馆内。
图9-4 写字偶人、绘图偶人和弹风琴偶人
2.图灵测试
艾伦·麦席森·图灵(Alan Mathison Turing,1912年6月23日—1954年6月7日,见图9-5)是英国计算机科学家、数学家、逻辑学家、密码分析学家和理论生物学家,而他更为大众所熟知的身份,是计算机科学与人工智慧之父。
1936年,图灵提出了一种抽象计算模型,即将人们使用纸、笔进行数学运算的过程进行抽象,由一个虚拟的机器替代人们进行数学运算。这就是图灵机,也被称为图灵运算。图灵机通过假设模型证明了任意复杂的计算都能通过一个个简单的操作完成,从而从理论上证明了“无限复杂计算”的可能性,直接给计算机的诞生提供了理论基础,也为研究能思考的机器提供了方向指引。
图9-5 艾伦·麦席森·图灵(Alan Mathison Turing)
3.学科诞生
1956年夏天,在常春藤名校达特茅斯学院,约翰·麦卡锡(John McCarthy)邀请了一批信息科学界的专家,共同进行了为期两个月的研讨会(成员合影如图9-6所示),目标是“精确、全面地描述人类的学习和其他智能,并制造机器来模拟”。这次达特茅斯会议被公认为人工智能(Artificial Intelligence,AI)这一学科的起源。
图9-6 研讨会成员合影
4.繁荣与低谷
达特茅斯会议后,人工智能研究的发展并非一帆风顺。与所有高新科技一样,人工智能研究的发展过程经历了挫折与挣扎、繁荣与低谷,经过了几起几落,每个兴盛期都有不同的技术出现,如图9-7所示。
图9-7 人工智能研究的发展历程
最早一次的兴起是1956年至20世纪70年代初,以控制论、信息论和系统论为理论基础,以命题逻辑、谓词逻辑等知识表达、启发式搜索为代表算法。这一时期,人们对人工智能进行前期探索。
1980年,卡内基梅隆大学为DEC公司设计了一套名为XCON的“专家系统”。这是一种采用人工智能程序的系统,可以简单地理解为“知识库+推理机”的组合。
第三次热潮是2016年一个名叫AlphaGo的机器人引发的。
9.1.2 人工智能的研究方向和方法
为了让机器像人一样思考,人工智能就必须涵盖很多大的学科。人工智能的表现形式和相关学科如下。
(1)会看:图像识别、文字识别、车牌识别。
(2)会听:语音识别、说话人识别、机器翻译。
(3)会说:语音合成、人机对话。
(4)会行动:机器人、自动驾驶汽车、无人机。
(5)会思考:人机对弈、定理证明、医疗诊断。
(6)会学习:机器学习、知识表示。
机器学习(Machine Learning)是实现人工智能的一种方法。机器学习的概念来自早期的人工智能研究者,已经研究出的算法包括决策树学习、归纳逻辑编程、增强学习和贝叶斯网络等。简单来说,机器学习就是使用算法分析数据,从中学习并做出推断或预测。与传统的使用特定指令集手写软件不同,机器学习方法使用大量数据和算法来“训练”机器,让机器学会如何自己完成任务。
深度学习(Deep Learning)是实现机器学习的一种技术。深度学习的概念源于人工神经网络的研究,含多个隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
图9-8给出利用隐藏层进行图片解码,从而实现人脸识别的原理。
图9-8 神经网络实现人脸识别的原理
图9-9所示为2010—2015年ImageNet项目冠军所用神经网络的层数和图像识别错误率。
图9-9 2010—2015年ImageNet项目冠军的相关信息
9.1.3 人工智能面临的问题
现阶段人工智能的局限性主要表现在以下5个方面。
(1)认识论的局限性。
(2)智能化方法与途径方面的局限性。
(3)数学基础的局限性。
(4)计算机模型的局限性。
(5)实现技术方面的局限性。
人工智能面临的另一个难题就是社会伦理问题。霍金、盖茨和马斯克等对人工智能特别是强人工智能,持有悲观的态度,担心人工智能发展速度将超过人类发展速度,用人类现有的知识水准无法预测并控制人工智能可能给人类社会带来的灾难。社会公众对人工智能的理解,在很大程度上依然被许多文学和影视作品所影响。
目前人们对人工智能可能造成的社会伦理问题的担忧,主要体现在以下5个方面。
(1)人和机器的边界越来越模糊,AI算不算智慧生命?
(2)利用AI进行身份标识、个性化推荐会造成算法歧视,进而影响社会群体格局。
(3)AI在对生产和生活进行管理(如自动驾驶、交通管制、自动化生产线等)时有可能引发安全问题,电影《终结者》中的审判日会不会到来?
(4)随着AI的能力日益增强,越来越多的工人会被机器人所代替,由此会引发社会经济问题和社会阶层的动荡。
(5)AI的发展需要大量人类数据作为“燃料”,因此人类隐私可能暴露在AI之下。
9.2 数据驱动的智能时代
9.2.1 人工智能与大数据
大数据的积累为人工智能的发展提供了充足的动力,如图9-10所示。爆炸性增长的数据推动着新技术的萌发和壮大,为深度学习方法训练机器提供了丰厚的数据土壤。
图9-10 大数据助力人工智能
大数据主要包括采集与预处理、存储与管理、分析与加工、可视化计算及数据安全等。大量多维、异构的数据,为人工智能提供丰富的数据积累和训练资源。
人工智能领域汇集了海量数据,传统的数据处理技术难以满足高强度、高频次的处理需求。
机器学习算法可以学习如何重现某种行为,包括收集数据、清洗数据、结构化数据等,可以大大加速整个数据处理的进程。
随着人工智能的快速应用与普及,大数据不断累积,深度学习及强化学习等算法不断优化,大数据技术将与人工智能技术更紧密地结合,强化对数据的理解、分析、发现和决策能力,从而能从数据中获取更准确、更深层次的知识,挖掘数据背后的价值,催生出新业态、新模式。
9.2.2 产业战略
人工智能是引领性的战略性技术和新一轮产业变革的核心驱动力,世界上主要发达国家都从国家层面加强了对人工智能的战略安排、顶层设计和系统协调。比较而言,美国、英国政府注重人工智能的基础研究,日本、德国偏向从应用方面促进人工智能的发展。
各发达国家都重视人工智能人才队伍的建设,完善和提升大数据、云计算等人工智能基础架构,注重引导人工智能为社会造福,预防人工智能引发就业、公平等社会问题。
虽然美国在理论研究、核心技术、基础人才、产业规模等方面都领先于其他国家,但中国正在奋起直追。我国有世界上最大的人工智能市场,在数据量上有无可比拟的优势。得益于政府的高度重视和政策支持,我国一大批AI初创企业都已经或正在跻身全球“独角兽”行列。
美国CB风险投资公司发布的《2018年人工智能发展趋势》报告显示,2017年,中国人工智能初创企业股权融资额占全球总量的48%,首次超越美国并高出10个百分点。中美人工智能热门领域企业规模对比如图9-11所示。
图9-11 中美人工智能热门领域企业规模对比
“智能+”应用范式正日趋成熟,AI向各行各业快速渗透、融合,进而重塑整个社会发展,这是人工智能驱动第四次技术革命的最主要表现方式。
从网络购物到医疗保健服务,从交通运输到游戏娱乐,人工智能已经渗透到中国人日常生活的方方面面,中国人正以远比许多发达国家民众更开放的姿态拥抱人工智能。

展开更多......

收起↑

资源列表