资源简介 (共101张PPT)第一章数据与信息目录1.1感知数据1.2数据、信息与知识1.3数据采集与编码1.4数据管理与安全1.5数据与大数据三个臭皮匠顶个诸葛亮什么是“数据”?什么是数据数据的定义关于数据定义数据是对客观事物的符号表示。表现形式文字、符号、图形、图像、声音、视频等。数字是最简单的一种数据,是对数据的一种狭义理解。单纯的数据是没有意义的。数据的表现形式还不能完全表达其内容,经过解释,数据才变得有意义。数据的种类与表现形式越来越多样化,数据在采集的方式、处理的速度等方面都有了质的飞跃,数据的含义也得到了扩展。数据的定义数据的定义计算机的数据在计算机科学中,数据是指所有能被输入到计算机并被计算机程序所处理的符号总称。文字、图形、图像、音频、视频等。结绳记事:“事大,大结其绳,事小,小结其绳,结之多少,随物众寡。”——《易九家言》数据不是现代社会所特有的。数据及其演变锲形文字电子计算机:数据处理的主要工具。甲骨文小篆楷书金文隶书行书STEP01STEP02STEP03STEP04STEP05STEP06数据及其演变草书STEP07数据与生活当今社会,数据体现出了前所未有的价值。每时每刻都有数据被人们发现、分析、利用,并创造出巨大的财富。1购物小票2线上购物数据与生活3纸质车票4线上购票数据与生活3出租汽车4滴滴出行数据与生活5纸质地图6百度地图PRESENT数据与生活数据与生活云计算、物联网、大数据等技术陆续融入生活。数据改变着人们的生活、学习、工作方式,而数据的种类和形式也在不知不觉的变化着。WehavemanyPowerPointtemplatesthathasbeenspecificallydesigned.移动网络的升级扩展了手机的应用领域,智能手机的各种应用给人们生活带来了很大便利。数据与生活人们在利用数据的同时,自身的行为也在产生数据。互联网+互联网+农业互联网+教育互联网+商业010203数据与生活互联网加速了数据的传递,通过与传统行业的深度融合,发展成了一种新的社会经济形态——互联网+数据与科学自古以来,人们通过观察与实践,获得了大量数据,这些数据不仅在生产与生活中发挥了作用,而且为一些早期的科学成果打下了基础。农历的由来(月相、季节)欧洲核子研究组织是世界上最大的物理学实验室万维网的发源地。科学研究离不开数据。数据的客观性为科学研究提供可靠的依据。欧洲核子研究组织(CERN)数据与科学据悉,中国自主研发的“神威·太湖之光”超级计算机累计使用了4万多颗“申威26010”芯片,如此多的芯片让“神威·太湖之光”超级计算机的运算速度达到了每秒12.5亿亿次的峰值计算能力,同时它还以每秒9.3亿亿次的持续计算能力,直接成为了"世界超算第一名"。数据与科学课堂小结数据的定义01数据及其演变02数据与生活03数据与科学04目录1.1感知数据1.2数据、信息与知识1.3数据采集与编码1.4数据管理与安全1.5数据与大数据信息定义信息论奠基人香农-信息是用来消除随机不确定性的东西到目前为止,信息还未有统一的定义,出于研究目的、观察角度的不同,不同的学科往往有自己的定义。信息自古就有,人类的生活一直与信息密切相关,人类通过了解信息来认识自然,利用信息进行发明创造。尽管不同的人对信息的定义可能有所不同,但所指向的都是同一对象,这些对象有些能被直观感受,有些需要借助设备或其他事物才能被感受。课堂习题1.下面关于信息的叙述,不正确的是()。A.信息是人类社会的重要资源。B.信息无处不在。C.计算机可以处理信息。D.只能在计算机中存储信息。答案:D信息特征信息的价值包括显性价值和隐性价值。信息的价值是相对的。价值性信息是可以共享的,同一种信息可以被不同接收者获取。共享性信息不能独立存在,必须依附于一定的载体。体现信息的可存储性和传递性。载体依附性信息反映事物某一特定时间内的状态,它会随着时间的推移而变化。时效性信息是可以加工处理的。可加工处理性使信息具有真伪性。可加工处理性、真伪性课堂习题2.下列关于信息的说法,正确的是()。A.电视机就是一种信息。B.一本书就是信息。C.网络就是信息。D.报纸上登载的招聘广告是信息。答案:D课堂习题3.下面选项对信息特征的理解,错误的是()。A.“增兵减灶”引出信息具有传递性和真伪性特征B.天气预报、情报等引出信息有时效性C.信息都是一成不变的D.盲人摸象引出信息具有不完整性答案:C信息定义在美国,有一位父亲怒气冲冲地跑到塔吉特卖场,质问为何将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中的女儿?后来证实,他的女儿果真怀孕了。这名女孩搜寻商品的关键词,以及在社交网站所显露的行为轨迹,使沃尔玛捕捉到了她的怀孕信息。模型发现,许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。信息定义数据中包含了什么重要的信息?什么是信息?搜索记录是数据还是信息?数据与信息有怎样的关系?阅读课本信息的特征,结合实例,举例说明信息有哪些特征?知识的定义知识知识是人类在社会实践中所获得的知识和经验的总和。也是人类在实践中认识客观世界(包括人类自身)的成果,它包括对事实、信息的描述以及在教育实践中获得技能。知识是可以继承和传递的。“站在巨人的肩膀上”——牛顿知识的定义知识:人类在社会实践中所获得的认识和经验的总和,也是人类在实践中认识客观世界(包括人类自身)的成果(对事实、信息的描述;在教育和实践中获得的技能)。知识可以继承和传递。“站在巨人的肩膀上”——牛顿知识就是力量四者关系数据数字、文字、图像、符号等,本身没有明确的意义。信息信息是数据经过储存、分析、解释后所产生的意义。知识知识更接近行动,与决策相关。Know—what,Know—why,Know—how。智慧智慧是一种更高层次的综合能力,主要表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法。01030204四者关系四者关系课堂习题4.早在远古时代,人们为了技术,居住在洞穴中的原始人用石器或骨器在墙壁上刻画图案,这些图案是()A.数据B.信息C.知识D.智慧答案:A课堂习题5.珠穆朗玛峰是喜马拉雅山脉的主峰,也是世界海拔最高的山峰,位于中国与尼泊尔边境线上。珠峰的高度,尼泊尔等国采用的雪盖高(总高)是8848米,与中国测绘工作者与1975年测量的值一致。中国采用的是2005年中国国家测绘局测量的岩面高(裸高,即地质高度)约为8844米,作为中国统一采用的标准数据一直沿用至今。”结合上述事例,下列对于数据、信息、知识的描述,正确的是()A.若在纸上单独书写“8844”这几个数字,它就已经赋予了一定的意义。B.当人们看到海拔8000多米的高度时,会联想到缺氧、寒冷等词汇,这是知识的体现。C.“珠穆朗玛峰峰顶海拔过高,不宜人类居住。”这体现了人类的智慧。D.不同国籍的人引用珠峰高度时可能会采用不同的数据,这体现了信息的真伪性。B课堂小结信息的特征01数据、信息、知识、智慧的关系02目录1.1感知数据1.2数据、信息与知识1.3数据采集与编码1.4数据管理与安全1.5数据与大数据1.3.1数据采集1.3.2数字化1.3.3数制目录1.3.4编码1.3数据采集与编码数据采集数字化数制编码思考练习传统采集方式:纸、笔现代化的采集方式:传感器、网络爬虫等数据采集数字化数制编码思考练习信息的分类:数据采集数字化数制编码思考练习注意:模拟信号和数字信号之间是可以相互转换的。转换是个什么流程?数据采集数字化数制编码思考练习数据采集数字化数制编码思考练习数的进制二进制八进制十进制十六进制进制是一种计数的方式数制包含两个基本要素:基、权理解为基的权次方例如:十进制564基数=104的权值=1005的权值=101数据采集数字化数制编码思考练习进制的标识数据采集数字化数制编码思考练习十进制的表示数据采集数字化数制编码思考练习二进制的表示数据采集数字化数制编码思考练习2的次方法宝20=121=222=423=824=1625=3226=6427=12828=25629=512210=1024数据采集数字化数制编码思考练习进制转换实践1010B=(D)111B=(D)25D=(B)65D=(B)10110010B=(D)=(O)=(H)107110011000001178262B2数据采集数字化数制编码思考练习编码(Encoding)是信息按照某种规则或格式,从一种形式转换为另一种形式的过程。计算机存储容量最小的单位是比特(bit),1位二进制数码表示1个bit1字节(Byte)=8比特(bit)1024B=1KB1024KB=1MB1024MB=1GB1024GB=1TB1024TB=1PB1024PB=1EB1024EB=1ZB1024ZB=1YB1024YB=1DB数据采集数字化数制编码思考练习数据采集数字化数制编码思考练习1.字符编码1)ASCII码(美国信息交换标准代码)二进制范围:00000000——01111111十六进制范围:00——7F十进制范围:0——255数据采集数字化数制编码思考练习1.字符编码2)汉字编码分为:外码、交换码、机内码、字形码常用的输入码:拼音码、五笔码数据采集数字化数制编码思考练习2.条形码由13为数字组成。数据采集数字化数制编码思考练习3.二维码由黑白相间的图形组成。数据采集数字化数制编码思考练习4.声音码存储容量=采样频率(Hz)x量化位数(bit)x声道数x时长(s)(单位:位)数据采集数字化数制编码思考练习4.图像编码数字图像包括:矢量图和位图图像存储容量=总像素x颜色位深度格式有:BMP、JPEG、GIF、PNG数据采集数字化数制编码思考练习5.视频编码存储空间需求大数据采集数字化数制编码思考练习1.在生活除了二进制、十进制与十六进制,我们常用的还有哪些进制?2.将1000个苹放入10个箱子。要取走1~1000中任意个数的苹果,要求不拆开箱子。应如何装箱?结合二进制思想,说明其原理。3.为了提高声音的保真度,是否可以无限制地提高采样频率与量化位数?目录1.1感知数据1.2数据、信息与知识1.3数据采集与编码1.4数据管理与安全1.5数据与大数据kongming脑洞一下,在搜索软件眼中你是什么样子?百度一下kongming极有可能,你就是一串带着各种属性标识的长长的数字。——这串数字描述了你的每一次浏览、每一次关注、每一次点击、每一次购买和每一次收藏。你每次登录搜索软件,在搜索软件上进行操作,你的数字就会跟着变化,反过来又会影响你在搜索软件上看到什么,以及你会收到什么信息。数据管理什么是数据管理?如何进行数据管理?如何有效管理数据?数据管理:利用计算机硬件和软件技术对数据进行有效收集、存储、处理和应用的过程。人工管理文件管理数据库管理树形目录结构文件夹阶段人工管理文件管理数据库管理时间20世纪50年代中期以前20世纪50年代后期至60年代中期20世纪60年代后期特点数据不保存,没有对数据进行管理的软件系统。没有文件的概念数据不具有独立性。数据可以长期保存。由文件系统管理数据,文件的形式已经多样化。数据具有一定的独立性。采用复杂的结构化的数据模型。较高的数据独立性。最低的冗余度数据控制功能。数据管理计算机一般采用树形目录结构管理文件Windows系统中采用文件夹来管理文件数据管理日常使用计算机,数据一般以文件的形式存储。在人们日常使用的计算机中,数据一般以文件的形式存储。根据编码规则的不同,文件的格式也不相同,用以区分不同类型的存储数据,如文本、图像、音频等。扩展名说明.txt纯文本文件.doc、.docxWORD文档.ppt、.pptx演示文本.xls、.xlsxEXCEL表格.exe可执行程序.htm、.html超文本标记语言文档(网页文件).pdf电子图书文档.bmp、.jpg、.gif、.png、.psd图像文件.wav、.mp3声音文件.gif、.fla、.swf动画文件.avi、.mpg、.mov、.flv视频文件数据管理WehavemanyPowerPointtemplatesthathasbeenspecificallydesigned.问题1:“记事本”软件默认保存的是.txt文件,word软件默认保存的是.docx文件,这两种文件有哪些区别?问题2:如何将word(doc、docx)文件转换成txt文件?数据管理如何管理生活中的各类数据?数据管理数据管理现在的手机功能已经和电脑一样,有时候手机上的文件也非常的多且乱,这时候就应该像电脑一样使用一款适合自己的文件管理器。一、小草文件管理器二、360文件管理器三、华为手机文件管理器四、简易文件管理五、超级文件管理器六、文件管理大师也称作行数据,是由二维表结构来进行逻辑表达和实现的数据。比如财务系统、学生成绩管理系统、校园一卡通01数据管理结构化数据02非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,是不方便用数据库维逻辑表来表现的数据。包括各类格式的办公文档、文本、图片、网页、音频、视频等。数据管理03半结构化数据介于结构化数据和非结构化数据之间的数据,具有一定的结构性。比如存储学生的简历。不像学生基本信息那样一致每个学生的简历大不相同。有的学生简历很简单,有的学生的简历却很复杂。数据管理数据安全经常接到卖房电话、贷款电话,他们怎么知道我们的号码?网站推送,怎么那么合我们心意?威胁数据安全的因素数据防护手段异地容灾数据备份磁盘列阵硬盘驱动器损坏操作失误黑客入侵感染计算机病毒遭受自然灾害数据安全通过加密算法和加密密钥将明文转变为密文对于数据安全,不仅要做好防护上的安全,还应提高数据本身的安全。数据解密通过解密算法和解密密钥将密文转变为明文数据加密数据校验是为保证数据的完整性进行的一种验证操作。通常用一种指定的算法对原始数据计算出一个校验值,接收方按照同样的算法计算出一个校验值,如果两次计算所得的校验值相同,则说明数据是完整的。数据安全文件的MD5校验将整个文件当作个大文本信息,通过其不可逆的字符串变换算法,产生唯一的MD5信息摘要并提供给用户。用户下载完文件以后,通过专用程序计算下载文件的MD5校验码,比对前后的校验数据,判断下载文件是否完整。数据安全TOPICHEADERHEREWehavemanyPowerPointtemplatesthathasbeenspecificallydesigned.数据安全人们在生活中越来越依赖于智能手机,手机中不仅存储了联系人、照片、视频等个人数据,还有电子银行、支付宝以及微信钱包等账户信息,如果存有这些信息的手机丢失,将可能造成很大损失。如何才能将因手机丢失而造成的可能损失降到最小?课堂小结数据管理01数据安全02目录1.1感知数据1.2数据、信息与知识1.3数据采集与编码1.4数据管理与安全1.5数据与大数据1.5.1大数据的概念1.5.2大数据的特征目录1.5.3大数据思维1.5.4大数据对社会的影响1.5数据与大数据概念特征思考练习思维影响13我们需要具备什么样的思维2对社会有些什么影响4大数据,你从哪来你是谁概念特征思考练习思维影响中国网民数量:7.51亿半年增长率:2.7%中国注册网站数量:344.3万个手机网民:7.236亿占网民总数:96.3%月均网络交易:16亿笔每日新发微博数量:1亿+条注册微博用户数:2.9071亿发布的网页数量:866亿页年增速:~40%网络直播用户:3.43亿占网民总数:47.1%概念特征思考练习思维影响很多人还没搞清楚什么是PC互联网,移动互联来了;我们还没搞清楚移动互联的时候,大数据时代又来了!——马云概念特征思考练习思维影响大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。全球信息咨询机构国际数据公司(IDC)对大数据的技术定义是:通过高速捕捉、发现或分析,从大容量数据中获取价值的一种新的技术架构。所谓“大数据”(bigdata)指的是这样一种现象:一个公司日常运营所生成和积累用户行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面。”这些数据量是如此之大,已经不是以我们所熟知的多少G和多少T为单位来衡量,而是以P(1000个T),E(一百万个T)或Z(10亿个T)为计量单位,所以称之为大数据。大数据概念概念特征思考练习思维影响数据类型多越来越多非结构化数据;音频、食品,地理位置信息等多类型数据对数据处理能力提出更高要求。数据价值高海量数据带来了巨大的商业价值。数据之间关联性支持深层的数据挖掘。大数据的特点-4V理论数据处理速度快对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。数据规模大从TB跃升到PB甚至EB。一组公式:1024GB=1TB;1024TB=1PB;1024PB=1EB。概念特征思考练习思维影响IBMC&PIndustry需求海量数据存储技术实时数据处理技术数据高速传输技术搜索技术描述分布式文件系统流计算引擎服务器/存储间高速通信文本检索、智能搜索、实时搜索技术Hadoop,x86/MPPMapReduceStreamingDataInfiniBandEnterpriseSearch数据分析技术大数据涉及的关键技术TextAnalyticsEngine自然语言处理、文本情感分析、VisualDataModeling机器学习、聚类关联、数据模型概念特征思考练习思维影响顾客一次购买商品1面包、黄油、尿布、牛奶2咖啡、糖、小甜饼、鲑鱼3面包、黄油、咖啡、尿布、牛奶、鸡蛋4面包、黄油、鲑鱼、鸡5鸡蛋、面包、黄油6鲑鱼、尿布、牛奶7面包、茶叶、糖、鸡蛋8咖啡、糖、鸡、鸡蛋9面包、尿布、牛奶、盐10茶叶、鸡蛋、小甜饼、尿布、牛奶品种计数项:品种面包6牛奶5尿布5鸡蛋5黄油4糖3咖啡3鲑鱼3小甜饼2鸡2茶叶2盐1总计41概念特征思考练习思维影响《大数据时代》这部书算是易懂的,因为它是从宏观的角度讲了大数据时代带来的思维变革,还有很多丰富详实的案例,但并不涉及数据处理细节那些琐碎的东西,所以对于非专业人士来讲读起来并不困难甚至可以说是有趣的。概念特征思考练习思维影响什么是数据分析大数据时代的核心价值——数据分析概念特征思考练习思维影响数据分析有哪些类型描述性数据分析探索性验证性对比分析法平均分析法交叉分析法初级数据分析高级数据分析相关分析因子分析回归分析概念特征思考练习思维影响明确区分大数据思维与传统的思维方式。例如:方式传统思维方式大数据思维方式上课方式黑板、粉笔多媒体、PPT出行方式人工取票APP购买、身份证一卡通销售方式传统商铺网上购物商城、淘宝~概念特征思考练习思维影响大数据的价值体现在以下几个方面:1)对许多顾客供给产品或服务的企业可以运用大数据进行精准营销2)做小而美形式的中小微企业可以运用大数据做服务转型3)面对互联网压力之下有必要转型的传统企业需求与时俱进充沛运用大数据的价值概念特征思考练习思维影响数据给我们带来的好处1、大数据便利我们的生活:自助缴水、电、燃气、电视费,汽车摇号、手机充值、违章查询、公积金查询、手机代开发票、查询法院案子进展……这是运用大数据促进保证和改善民生的典型事例。此外,大数据还运用到智能家居中,智能照明体系等。概念特征思考练习思维影响2、大数据便利我们看病:到目前为止,大数据最强大的应用就是电子医疗记录的收集。每一个病人都有自己的电子记录,包括个人病史、家族病史、过敏症以及所有医疗检测结果等。大数据收集病人信息,可以尽早发现疾病,对于患者来说,不但降低了身体健康受损的风险,同时也能够减少医疗支出。另一个创新是可穿戴设备的应用,这些设备能够实时汇报病人的健康状况。这些新的分析设备具备同样的功能,但能在医疗机构之外的场所使用,降低了医疗成本,病人在家就能获知自己的健康状况,同时还获得智能设备所提供的治疗建议。数据给我们带来的好处概念特征思考练习思维影响3、大数据便利我们的出行:现在,人们的出行越来越离不开大数据的协助,运用电子地图,初来乍到的游客可以在生疏的城市自由行走;繁忙一天的上班族可以查询最快回家的交通方法;出租车司机经过语音导航,知晓前方路程状况,防止堵车或超速违章……大数据仍是缓解交通压力的利器,它可以猜测未来交通状况,为改善交通状况供给优化方案,这有助于交通部门进步对路程交通的把控才干,防止缓和解交通拥堵。数据给我们带来的好处概念特征思考练习思维影响4、利用大数据提升自己:大数据技能不只能够提高人们使用数据的效率,并且能够实现数据的再使用和重复使用,进而大大降低交易成本,提升人们开发自我潜能的空间。加米谷大数据培训机构,大数据分析与挖掘零基础班,预报名中。数据给我们带来的好处概念特征思考练习思维影响大数据的弊端1、个人数据隐私与安全大数据会记录你的浏览习惯,购买习惯,常用淘宝支付宝这些软件的人,你的消费能力、购物习惯、活动产所、收入情况、生活质量、年龄、身高、体重、鞋码、三围、口味等,都是可以分析出来的这些基本囊括了我们的生活。个人数据安全就成了一个大问题,一旦数据泄露(或被买卖),可能会对用户人身财产、国家和公司的安全造成威胁。概念特征思考练习思维影响大数据的弊端2、大数据杀熟杀熟,即同样的商品或服务,老客户看到的价格反而比新客户要贵出许多。近两年来包括滴滴出行、携程、飞猪、京东、美团、淘票票等多家互联网平台均被曝疑似存在“杀熟”情况,涵盖在线差旅、在线票务、网络购物、交通出行等多个领域,特别是OTA(OnlineTravelAgent)在线差旅平台较为突出。大数据技能自身不只能够迅速衍生为新兴信息产业,还能够同云计算、物联网和才智工程技能联动,支撑一个信息技能的新时代。加米谷大数据培训。概念特征思考练习思维影响1.学生学籍系统中存放着大量的学生数据,这些数据是否属于大数据?为什么?2.在处理数据时,往往会选择“抽样数据”或“全样本数据”进行分析,请比较这两种分析方式的特点,并举例说明。 展开更多...... 收起↑ 资源预览