资源简介 (共14张PPT)(1)了解大数据基础知识;(2)了解大数据采集与分析方法。专题七 初识大数据考纲要求一.大数据基础知识1.大数据的概念 大数据(big data)是指无法在可承受的时间范围内用常规软件工具进行捕捉、 管理和处理的数据集合。大数据体量巨大,从TB级别,跃升到PB级别,1PB=1024TB,今后甚至用到EB(1EB=1024PB),ZB(1ZB=1024EB)等更大的单位。大数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动,乃至经济运行机制、社会生活方式和国家治理产生重要影响。2.大数据的应用 大数据的意义在于,人们从庞杂的数据中挖掘出有价值的数据,并运用于科研、管理、农业、金融、医疗和教育等各个社会领域,为生活、生产和社会发展服务。当前,大数据的应用非常广泛,如金融领域,银行可以根据用户的年龄、资产规模、理财偏好等,对用户群进行精准定位,分析出潜在的金融服务需求;如电商领域,淘宝、京东等电商平台利用大数据技术,对用户信息进行分析,从而为用户推送用户感兴趣的产品,以刺激消费;智慧城市建设方面,通过大数据,政府部门得以感知社会的发展变化需求,从而更加科学化、精准化、合理化的为市民提供相应的公共服务以及资源配置;如交通领域,通过大数据时时了解道路车流量和交通状况,有助于交通部门提高对道路交通的把控能力,防止和缓解交通拥堵,提供更加人性化的服务;如教育领域,通过大数据进行学习分析,能够为每位学生创设一个量身定做的个性化课程,为学生的多年学习提供一个富有挑战性而非逐渐厌倦的学习计划等等。一.大数据基础知识3.大数据的特点 大数据通常具有 5V 特征,也就是 Volume(数据量)、Variety(多样性)、Velocity(速度)、Value(价值)、Veracity(真实性),此外还具有可变性、复杂性等特征。(1)数据量巨大。大数据的体量很大,且数据集合的规模还在不断扩大。随着信息技术的大规模普及和应用,教育、商业、工业、科学研究、医疗等各行各业所产生的数据量都呈现出指数增长的趋势。(2)多样性。大数据来自多种数据源,数据类型繁多和格式非常丰富,如网络日志、视频、图片、音频等。随着智能设备、社交网络等的流行,机器和传感器数据(如设备日志、地理位置信息)、社交数据(如网站用户行为记录数据)、电商数据(商品数据、交易记录、消费记录)等各种新类型数据越来越多。(3)处理速度快。由于数据量增长速度快,大数据处理速度也必须快,且时效性要求高。大数据往往以数据流的形式动态地、快速地产生,需要在一定的时间限度下得到及时处理。(4)价值密度低。大数据的价值密度是比较低的。在数据量呈指数增长的同时,隐藏在海量数据里的有用信息却并没有以相应比例增长,这使人们获取有用信息的难度加大。以监控视频为例,在长时间连续不间断的监控过程中,有用的数据可能仅仅占一两秒时间。大数据技术就是要从价值密度低的海量数据中快速挖掘出有价值的信息。(5)真实性。大数据的真实性主要包括数据的可信性、真伪性、来源和信誉、有效性等。二.大数据采集与分析方法要从海量的数据中发现和创造价值,取决于大数据分析与数据挖掘的能力。随着计算机运算能力、数据采集与存储技术的持续改进,大数据分析与数据挖掘能力得到迅猛发展,使得先前未知或应用价值不明确的信息被发现和利用。大数据处理流程主要是指从海量数据中获取需要的信息并进行加工分析得到有用的知识的过程。大数据处理通常在大数据平台上进行,大数据处理流程一般包括四大步骤:数据采集与预处理、数据存储、数据挖掘及数据呈现。1.大数据采集 大数据的采集是指利用多个数据库来接收发自客户端,如网站、App或者传感器(摄像机、雷达、卫星)发出的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Access等来存储每一笔事务数据。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户进行访问和操作,比如火车票售票网站和淘宝网,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。二.大数据采集与分析方法2.大数据分析 大数据分析是指对大规模的数据进行分析,常用的数据分析方法有:统计分析、数据挖掘、描述性分析、预测性分析、指导性分析和诊断性分析等。面对海量的数据,为了搜索、处理、分析、归纳和总结其深层次的规律,大数据分析应运而生。它的应用日益丰富,例如实时公交系统根据用户当前位置,迅速定位最近的公交站点,查找系统中公交车辆的位置数据,选出经过该站点所有线路车辆的即将到站信息,使用户可以直观地在手机上查看车辆实时位置。用户和车辆的位置信息通过卫星定位系统、Wi-Fi热点和基站的位置确定。 因为大数据的量大到不能再用使用常规的方法进行存储和处理,所以大数据分析与普通的数据分析也有所区别。大数据分析的一般流程如图4-7-1所示。大数据分析带来价值的同时,也在隐私保护、安全问题等方面带来危机。因此,合理、健康地使用大数据,遵循“数据道德”是我们必备品质。二.大数据采集与分析方法课后练习1.要对校运会各参赛队的积分制表并进行积分统计和排序,可以使用( )。A.WPS Office表格 B.PhotoshopC.Powerpoint 2010 D.Flash2.用WPS Office 2019之表格创建的工作簿文件的文件格式是( )。A.dps B.et C.pptx D.wps3.以下不属于WPS Office 2019之表格的基本功能的是 ( )。 A.数据处理 B.数据统计 C.文稿编辑 D.数据分析4.单元格地址“D3”表示该单元格位于工作表中的( )。A.第3行第D列 B.第D行第3列 C.第D行第D列 D.第3行第3列5.单元格地址C2:D4包含的单元格数目是 ( )。A.8 B.2 C.4 D.66.某工作表中有出生年月,姓名,单价字段,其中单价字段的数据类型应定义为( )。A.文本 B.备注 C.货币 D.日期型7.某单元格的内容都变成###,产生的因为是( )。A.行高不够 B.列宽不够 C.数据损坏 D.类型不匹配8.欲在单元格D3中输入公式C2×20,正确的输入法是( )。A.C2*20 B.“= C2*20 ” C.=C2*20 D.=C2×20课后练习9.将D1单元格的公式=B1+C1复制到D2单元格,将得到公式( )。A.=B1+C1 B.=B2+C2 C.=C1+D1 D.=C1+C210.函数=Average (A3:A5)的作用是( )。A.求A3和A5两个单元格的平均值B.求A3、A4和A5三个单元格的和C.求A3和A5两个单元格的和D.求A3、A4和A5三个单元格的平均值11.求单元格区域C1:D4的最大值的函数是( )。A.=SUM(C1:D4) B.=MIN(C1:D4)C.=COUNT(C1:D4) D.=MAX(C1:D4)12.在校运会报名表中,欲显示“女生”中参赛“铅球”的记录,可以通过( )。A.筛选 B.排序 C.查询 D.选择13.要快速找出成绩表中成绩最好的前20名学生,合理的方法是( )。A.进行分类汇总 B.只能一条一条看C.对成绩表进行排序 D.要求成绩输入人员严格按高低分录入14.在学生成绩表中,欲按高分到低分显示数据,可以通过( )。A.分类汇总 B.升序排序 C.降序排序 D.自动筛选课后练习16.某市统计部门要制作图表分析教育、医疗、基建等各项支出分别占GDP的份额,应该选择的图表类型是( )。A.饼图 B.折线图 C.条形图 D.散点图17.制作图表的数据源发生变化时,则相应的图表( )。A.手动跟随变化 B.自动跟随变化C.不会跟随变化 D.不受任何影响18. 大数据起源于( )。A.电信 B.互联网 C.金融 D.电子表格19. 大数据的特点不包括( )。A.数据规模大 B.数据类型多C.数据价值密度高 D.数据处理速度快20. 以下不属于大数据应用的是( )。A.基于淘宝购物记录分析用户的购买习惯B.基于学校的图书管理系统分析每类图书借阅量C.基于美团的消费记录分析各地居民饮食口味D.基于传感器感知的海量数据分析自然灾害的危害程度21.以下数据可以称为大数据的是( )。A.10000KB的数据量 B.1000MB的数据量C.100GB的数据量 D.100PB的数据量课后练习22.以下关于大数据的说法中,不正确的是( )。A.大数据的处理离不开云计算B.从网络上搜索得到的数据都可以称为大数据C.大数据在电商、电信、金融等各行业都有巨大的社会价值和产业空间D.大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合23.通过互联网采集大数据一般是利用( )。A.人工 B.下载工具 C.电子邮件 D.网络机器人程序24.通过分析,从大量数据中寻找规律,又被称为数据库知识发现,这种技术称为( )。A.数据挖掘 B.数据统计 C.对比分析 D.数据调查25.大数据分析方法包括( )。①数据统计 ②诊断性分析 ③预测性分析 ④数据挖掘A.①③ B.①②③ C.②③④ D.①②③④参考答案题号 答案 题号 答案 题号 答案 题号 答案 题号 答案1 A 2 B 3 C 4 A 5 D6 C 7 B 8 C 9 B 10 D11 D 12 A 13 C 14 C 15 B16 A 17 B 18 B 19 C 20 B21 D 22 B 23 D 24 A 25 D综合实践假定你是风光公司的管理人员,请你根据以下任务要求,完成对“wps\数据处理\风光公司职工管理.et”文件中“职工信息表”“职工奖金表”“职工工资表”“职工考核表”的处理。【任务一】 完成对“职工信息表”的编辑和美化1.将A1:I1单元格合并后居中,字体设为黑体,字号为18;2.将A1单元格字体颜色设为红色,单元格背景填充颜色为“深灰绿,着色3,浅色40%;3.按格式完成对单元格区域B4:B15中工号的自动填充;4.将“姓名”列与“工龄”列两列内容对调;5.将表格第1行至15行的行高设为20磅,A列至I列的列宽设为10字符;6.给A2:I15单元格区域添加双实线外边框,颜色为红色,细单实线内边框,颜色为蓝色;7.利用条件格式下的“突出显示单元格规则”,将单元格区域H3:H15中包含“本科”的数据设为“绿填充色深绿色文本”;8.将单元格区域I3:I15的条件格式设置为“项目选取规则”中“高于平均值”的“浅红填充色深红色文本”;9.将单元格区域A2:I15套用表格样式的“表样式浅色13”,勾选“表包含标题”;10.完成操作并保存。综合实践【任务二】完成对“职工奖金表”的数据计算和处理1.在第1行的前面插入一行,并输入标题“四季度职工奖金统计”;2.分别用函数计算每个人四个季度奖金的总奖金,结果存放在G3:G15;3.分别用函数计算1至4季度的平均奖金,结果存放在C16:F16单元格,并设置为数值型,保留1位小数;4.分别用函数计算1至4季度的最大奖金,结果存放在C17:F17单元格; 5.对数据区域A2:G15,按主关键字“部门”升序,次关键字“总奖金”降序的方式排序;6.给G3:G15单元格区域设置条件格式为“数据条”,“渐变填充”组中的“红色数据条”;7.利用自动筛选方法,选出部门为“生产部”,总奖金大于2500的记录;8.完成操作并保存。【任务三】完成对“职工工资表”的数据汇总和分析1.计算每个职工的应发工资(应发工资=基本工资+生活补贴+岗位津贴);2.计算每个职工的个人所得税(人所得税=应发工资×20%);3.计算每个职工的应扣款(应扣款=水费+电费+个人所得税);4.计算每个职工的实发工资(实发工资=应发工资-应扣款);5.对数据区域A2:L15,按主关键字“部门”降序排序;综合实践6.对数据表分类汇总,分类字段为“部门”,汇总项为“实发工资”,汇总方式为求和;7.对分类汇总后的数据表,选择“部门”和“实发工资”列(即单元格区域C2:C19和L2:L19)做一个“二维饼图”下的“饼图”,图表标题为“各部门实发工资比例图”,套用“布局2”;8.完成操作并保存。【任务四】完成对“职工考核表”的数据计算和处理(标有“*”的题目供参加一级考试的同学参考)1.计算每个人的累计积分,累计积分等于四个季度积分的和;2.计算每个人的年度考核奖(年度考核奖=5×累计积分);*3.使用RANK()函数对每个人的累计积分按降序次序排名,结果存放在K3:K15单元格区域;*4.使用IF()函数求每个人的考核等级,若累计积分大于350,考核等级为“优秀”,否则为“合格”;*5.使用COUNTIF()函数求考核等级为“优秀”的人数,结果存放在单元格M3;*6.对数据区域A2:L15,筛选出“上海”分公司,“财务部”,年度考核奖大于1700的记录,条件区域设在A16:C17,筛选结果存放在A18:L21单元格区域;7.完成操作并保存。 展开更多...... 收起↑ 资源预览