资源简介 (共27张PPT)5.1 认识大数据我们身处大数据时代1了解大数据的概念, 能判断某些场景是否应用了大数据。3学习目标2理解大数据的特征, 明晰传统数据与大数据的区别。知道大数据对日常生活的影响, 能有意识地规避个人信息安全隐患。大数据(big data)是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的数据资产。什么是大数据?(从大数据产生的角度)任务1:阅读案例,与小组成员讨论交流,从案例中归纳出大数据有哪些特征。大数据的特征案例1互联网时代,我们每天接触的资讯量相当于15世纪的人一生的资讯总量,且全球数据量正以大爆发的速度持续增长,预计到2024年全球数据总量将达143ZB。换算一下,若这143ZB全部是电影,按每部电影1GB计算,全国14亿人每天24小时不停地观看,大约需要50年才能看完。案例2案例3案例5我国的“天网”系统是世界上最大的监控网络,有超过2000万个摄像头。车站、银行、交通路口等要害位置的视频监控24小时不停运转,但所收集到的数据绝大多数是无用的。对公安机关破案来说,几十个小时的监控画面中有用的可能只有几秒。案例4微信上每天约有400亿条信息被发送,每秒信息发送量超过450万条。微信信息类型多种多样,包括数字、文字、图像、声音、视频、文件、地理位置信息、表情、红包、转账信息、聊天记录、名片信息等各种类型。世界上每台汽车都会实时发送信息给制造商,发送频率一般为每15秒至1分钟一条。通过分析报文,汽车制造商能实时掌握汽车信息、了解汽车状况。以丰田汽车为例,2022年丰田全球销量为1050万台,也就是说,仅2022年售出的汽车每分钟就会发回至少1050万条报文。大数据是与人类的网络行为伴随产生的,物联网、云计算、移动互联网、车联网、手机、电脑、导航系统、遍布全球各个角落的各种各样的传感器……,都是大数据的来源或承载方式。世界上每时每刻都有不计其数的数据在源源不断产生,数量巨大到无法完全统计。量大量大、更新快量大、更新快量大、类型多、更新快量大、无用数据多大数据的“4V”特征:数据体量巨大大量(Volume)数据类型多样多样(Variety)混杂着大量无价值或价值很小的数据低价值密度(Value)数据的更新变化速度快高速(Velocity)根据信息存储全球领导厂商EMC公司的界定,规模至少在10TB左右的数据集合才能被称为大数据。若你的手机拍出的照片每张约5MB。你每天拍100张照片并保存下来,要存满10TB大约需要多少年?(提示:1TB=1024GB=1024*1024MB)任务2:通过计算感受大数据有多“大”求解过程:所需年数=数据总量/(每张照片的数据量*每天拍的照片数*365天)=10TB/(5MB*100*365)=10*1024*1024*1024MB /(5MB*100*365)≈57.5(年)分布式并行计算分布式存储大数据的特征(从存储与计算的角度)案例2:分布式计算工程 Folding@home将巨大的计算任务拆解,分配世界各地的志愿者,在志愿者的计算机不忙碌时调用其中央处理器进行计算。目前该工程的计算速度已与世界上最快的超级计算机算力相当,超过了每秒100亿亿次。分布式惊人的算力案例1:2003年,人类第一次破译人体基因密码的时候,辛苦工作了十年才完成了三十亿对碱基对的排序。大约十年之后,采用分布式处理的世界范围内的基因仪15分钟就可以完成同样的工作。大数据时代的思维方式大数据时代的预言家维克托 迈尔 舍恩伯格全量思维容错思维相关性思维大数据时代的思维方式全量思维趋向于收集和分析与某事物相关的所有事物,而不是只依靠抽样所得的少量样本数据。大数据时代的思维方式容错思维适当忽略微观层面的精确度,适当追求模糊,只要掌握了大致的发展方向即可。相关性思维不再热衷于寻找因果关系,而注重寻找事物间的相关关系,重要的是探求“是什么”,而不是“为什么”(大数据的互联网思维特征)(“样本渐趋于总体”特征)(“精确让位于模糊”特征)(“相关性重于因果”特征)《撑阳伞的女人》(法国印象派大师莫奈的名作)容错思维全量思维案 例 体现的思维方式用户在社交网络上发送信息并不遵循严格的语法规则,很多语句不完整、有语法错误或拼写错误,但仍然可以被信息接收方理解,也仍然能被信息服务商分析和使用,为其创造价值。美国一家公司将收集到的大量二手汽车数据进行分析,发现橙色汽车有质量问题的可能性只有其他颜色车的一半。面对分析结果,二手车经销商们并不去想”为什么“,他们想的是快去收购橙色二手车,或者把仓库里的二手车刷成橙色。新冠肺炎疫情防控期间,如果有一例确诊,就要追溯与之有关的所有人员。大数据技术支持的全样本分析能在最短的时间里找到几乎所有的相关人员。沃尔玛公司发现飓风来临前手电筒等应急用品的销量增加,蛋挞销量也增加。于是他们总在风暴前把蛋挞放在飓风用品销售区附近。任务3:分析案例所体现的思维方式。容错思维相关性思维全量思维、相关性思维相关性思维任务4:我国第七次人口普查产生的数据属于大数据吗?我国每十年开展一次人口普查,统计全国各地人口的数量、年龄、性别、职业、受教育程度、住房情况等。2020年第七次人口普查的对象超过14亿人,动用的普查工作人员超过700万,全面采用电子化数据采集方式,最终形成了巨大的数字化普查数据。请结合大数据的特征分析:人口普查的数据算不算大数据?任务4:我国第七次人口普查产生的数据属于大数据吗?人口普据不是大数据!人口普查的特征 是否相符 大数据的特征普查的对象超过14亿人 √ 数据量大产生的速度相对较慢 × 产生速度快数据类型少 × 数据类型多数据结构简单 × 数据结构复杂准确性非常高 × 价值密度低用传统方法即可分析和处理 × 无法用传统方法处理动用的工作人员超过700万 × 通常由机器自动产生人口普查的数据不是大数据!大数据对日常生活的影响使人们的日常生活更为便捷1.方便支付2.方便出行3.方便购物4.方便医疗5.更精准的产品推介我们浏览网页时跳出来的商品广告,有些正与你的购物需求匹配。精准推介是如何实现的?第1步大数据给我们画像第2步网站向商家发出投放广告的竞价邀约第3步商家竞价第4步广告投放大数据对日常生活的影响对人们日常生活产生负面影响1.个人信息泄露2.信息伤害与诈骗2021年11月1日起,《中华人民共和国个人信息保护法》开始实施。不得过度收集个人信息不得非法买卖、提供或者公开他人信息不得进行“大数据杀熟”在公共场所安装图像采集等设备应设置显著提示标识……请同学们自主总结本节课内容,并画出思维导图。课堂小结思维导图自我评价请对照本节课的学习目标,对目标达成情况进行自我评价。学 习 目 标 目标达成情况 (达成/基本达成/未达成) 对未达成目标的跟进措施了解大数据的概念理解大数据的特征明晰传统数据与大数据的区别知道大数据对日常生活的影响能有意识地规避大数据带来的安全隐患课后作业作业1:阅读大数据时代的开山之作、英国作家维克托 迈尔 舍恩伯格的《大数据时代》,更全面深入的了解大数据,写出至少三点阅读感悟并分享到网络空间中。作业2:每个人是大数据的受益者和使用者,也是大数据的提供者和来源。用户的个人信息在用户不知情、未授权的情况下被大公司收集、分析并用来盈利,是否合理?若你认为不合理,请提出改进建议。 展开更多...... 收起↑ 资源预览