资源简介 专题04 数据处理与应用【学习目标】理解数据处理的重要性:使学生能够理解数据在现代信息社会中的应用价值,以及准确处理数据对于数据分析结果的影响。掌握基本的数据整理技巧:教授学生如何识别和处理数据缺失、重复、异常、逻辑错误和格式不一致等问题,确保数据的质量和可用性。熟悉常用数据处理工具:介绍Excel等常用数据处理软件的基本操作,包括公式的应用、单元格引用、算术及文本运算符的使用,以及函数的应用等。【思维导图】【知识梳理】知识点一:数据整理1.常见的数据问题及其处理方法:(1)数据缺失:数据集中普遍存在的问题,一般可能是数据丢失或数据本身不完整处理方法:忽略或采用平均值、中间值或概率统计值填充。(2)数据重复:在多数据源合并时经常出现,导致资源冗余和浪费。处理方法:进一步审核的基础上进行合并或删除。(3)异常数据:数据集中的某些数据不符合一般规律,例:健康系统显示体温到达50摄氏度。处理方法:这些有可能是要去掉的噪声,也有可能是含有重要信息的数据对象。(4)逻辑错误:属性与实际不符,违背业务规则或逻辑,例:某人的生日为13月40日处理方法:对应的字段需要设置取值范围判断。(5)格式不一致:多出现在数据来源多样的系统中处理方法:将不同格式的数据转换成统一格式后再进行处理。2.常用的数据处理和统计分析工具有Excel、 SPSS、SAS、 MATLAB等软件,也可以通过R、Python、Java等计算机语言编程进行数据处理。3.常见的图表类型有:柱形图、折线图、饼图、雷达图、散点图、气泡图等。知识点二:大数据处理1.大数据处理的基本思想:“分治思想”,即将一个复杂的问题拆分成两个或多个相同或相似的子问题,找到求这几个问题的解法之后,再找出合适的方法把它们组合成求整个问题的解法。2.大数据处理的数据类型:(1)静态数据:在处理时已经收集完成、在计算时不会发生改变的数据处理方法:批处理(2)流数据:不间断地、持续地到达的实时数据。流数据的价值会随着时间的流逝降低。处理方法:流计算或实时分析计算(3)图数据:现实世界中以图形式展现的数据。如社交网络、道路交通等处理方法:图计算3.批处理Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批量计算。Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。(1)分布式文件系统(HDFS):将大规模海量数据以文件的形式、用多个副本保存在不同的存A储节点中,并用分布式系统管理。HDFS是一个高度容错性的文件系统,云盘、网盘的底层一般采用HDFS实现。(2)分布式数据库(HBase): HBase建立在HDFS提供的底层存储基础上,采用基于列的存储方式,主要存储韭结构化和半结构化的数据,具有良好的横向扩展能力。(3)分布式并行计算模型(MapReduce): MapReduce是一种分布式并行编程模型,能够进行大规模的并行计算。其核心处理思想是将任务分解并分发到多个节点上进行并行处理,最后汇总输出。4.流计算流计算主要用于处理流数据,如大型购物网络的广告推荐、社交网络的个性化推荐等。处理流数据的软件主要有Twitter Storm, Heron, Yahoo!S4等。Storm和S4是目前较为流行的开源分布式实时计算系统。5.图计算现实世界中的很多数据以图的形式呈现,或者是需要转换为图后才能分析。目前图处理的软件主要分为两类:图数据库和并行图处理系统。知识点三:编程处理数据利用pandas模块处理数据利用matplotlib模块绘图利用pathon分析数据实践知识点四:编程处理数据1.文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。2.典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。3.中文分词方法(1)基于词典的分词方法:用词典中的词语进行比对。案例: Python中的jieba库(2)基于统计的分词方法:根据上下文相邻字出现的频率统计。(3)基于规则的分词方法:根据现有资料和规律学习实现分词。4.特征提取方法(1)根据专家知识挑选有价值的特征。(约等于人工分析)(2)用数学建模的方法构造评估函数自动选取特征。(目前大多采用)5.结果呈现方式:(1)标签云:用文字大小形式表现词语的重要性(2)文本情感分析:根据分析颗粒度可以分为词语级、语句级、整篇文章级三类。知识点五:数据可视化1,数据可视化是将数据以图形、图像等形式表示、直接呈现数据中蕴含信息的处理过程。2,可视化的作用:快速观察与追踪数据、实时分析数据、增强数据的解释力和吸引力等。3.可视化的基本方法(1)有关时间趋势的可视化:展示随时间的推移而变化的数据,可采用柱形图、折线图等。(2)有关比例的可视化:展示各部分的大小及其占总体比例关系的数据,可以采用饼图、环形图(也称面包圈图)等。(3)有关关系的可视化:探究具有关联性数据的分布关系,可以使用散点图、气泡图等。(4)有关差异的可视化:包含多种变量的对象与同类之间的差异和联系,可以采用雷达图。(5)有关空间关系的可视化:地理数据或者基于地理数据的分析结果可以运用不同颜色或图表直接在地图上进行展示。知识点六:大数据的典型应用1.大数据应用领域:随着大数据在各行业的应用,数据成为核心资产。目前,大数据广泛应用于着金融、交通、环境、医疗、能源、农业等领域,极大地促进了各行业的发展。2.大数据在电子商务方面的应用;精准营销基于用户购买行为挖掘用户偏好;仓储管理实现商品自动补货;供应链管理实现最优配送路径;智能网站分析用户后向用户智能推荐商品。【题型精讲】例1在数据处理与应用中,数据整理的目的是什么?A. 提高数据存储量B. 检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量C. 加快数据处理速度D. 扩大数据来源【答案】B【讲解】数据整理的目的是为了确保数据的准确性和可用性,具体包括以下几点:检测和修正错漏的数据:在数据收集过程中,可能会出现输入错误、遗漏或其他形式的误差,数据整理有助于发现并修正这些错误,提高数据的准确性。整合数据资源:当数据来自不同的来源时,数据整理可以帮助合并这些数据,确保数据的一致性和完整性,便于后续分析。规整数据格式:不同来源的数据可能有不同的格式,数据整理可以将这些数据转换为统一的格式,便于处理和分析。提高数据质量:通过上述步骤,数据整理最终可以提高数据的整体质量,为后续的数据分析和决策提供坚实的基础。例2在Excel软件中,如何进行数据的计算?A. 使用文本连接运算符"&"B. 使用算术运算符如^、*、/等C. 使用函数如SUM、AVERAGE等D. 所有以上都包括【答案】D【讲解】在Excel软件中进行数据计算,可以使用多种方法,包括但不限于:使用算术运算符:Excel支持使用常见的算术运算符进行基本的数学运算,如加(+)、减(-)、乘(*)、除(/)以及乘方(^)等。使用函数:Excel提供了大量的内置函数,如SUM用于求和、AVERAGE用于计算平均值、MIN和MAX用于查找最小值和最大值等,这些函数可以进行更复杂的数学和统计计算。使用文本连接运算符"&":虽然主要用于文本处理,但"&"运算符也可以用来组合文本字符串,有时在处理包含数字的文本数据时会用到。【强化训练】1.大数据处理的分治思想主要解决什么问题?A. 数据存储空间不足B. 网络传输带宽瓶颈C. 计算资源分配不均D. 机器故障和网络故障风险2.在智能交通系统中,哪个子系统负责实时向交通参与者提供道路交通等信息?A. 交通信息服务系统B. 交通管理系统C. 电子收费系统D. 公共交通系统3.Python编程在数据处理中的应用示例是什么?A. wordcount ={"word": "word", "frequency": "1"}B. for word in open(filename, 'r').read(): wordcount[word]+=1C. wordcount[word]=1000M+wordcount[word]D. wordcount = {}; wordcount[word] += filename[word]4.Tableau工具主要用于什么类型的可视化分析?A. 实时数据分析B. 静态数据批处理计算C. 流数据实时计算D. A和C都包括5.文档内容,下列哪项不是数据可视化的作用?A. 快捷观察与追踪数据动态变化过程B. 根据已知指标预测另一指标的变化趋势C. 根据用户年龄推荐最适合的运动项目D. 根据用户购买行为进行个性化商品推荐6.根据文档内容,哪种图表类型适合展示时间序列数据的趋势变化?A. 饼图B. 散点图C. 柱形图或折线图D. 气泡图7.根据文档内容,以下哪个不属于大数据处理的基本方法?A. 根据字段和记录进行重复数据的检测和处理B. 根据已有属性集构造新属性的转换C. 根据用户喜好推荐商品列表的生成算法设计D. 根据业务规则进行逻辑错误的检测和修正。参考答案D【详解】在处理大数据时,采用分治思想主要是因为数据量巨大,简单的表格处理软件无法满足需求。这种思想将一个复杂的问题分成两个或更多个相同或相似的子问题,找到求这几个子问题的解法后,再组合成整个问题的解法。如果这些子问题还难以解决,可以继续分解为更小的子问题,直至可以直接求出解。这样能够有效应对机器故障、网络故障的风险。2.A【详解】智能交通系统中的交通信息服务系统建立在完善的信息采集、处理和传输系统上。它通过安装在道路、车辆上的传感器和传输设备,实时向交通参与者提供道路交通状况、公共交通信息、换乘信息等出行相关信息,并能根据车辆目的地、行驶习惯、路面情况推荐行驶路线。3.B【详解】在Python中进行数据处理的一个典型应用是统计文本文件中每个单词出现的频率。上述代码示例展示了如何打开一个文本文件(假设名为filename),逐行读取内容,并使用字典结构wordcount来累加每个单词的计数。这是处理大量文本数据的基础操作之一。4.D【详解】Tableau是一款强大的数据可视化工具,适用于多种数据分析场景。它不仅可以用于实时数据分析,帮助用户快速了解当前的数据动态变化过程,还可以用于静态数据的批处理计算,对历史数据进行分析。Tableau支持丰富的图表类型,如柱形图、折线图、饼图等,适用于展示时间序列数据的趋势变化。5.C【详解】虽然基于用户的年龄推荐适合的运动项目是一种常见的个性化服务,但它并不是数据可视化的主要作用之一。数据可视化的核心作用包括快捷观察与追踪数据的动态变化过程、根据已知指标预测另一指标的变化趋势以及根据用户购买行为进行个性化商品推荐等。6.C【详解】时间序列数据通常用来描述随时间变化的趋势,因此柱形图或折线图是展示这类数据的理想选择。柱形图通过柱子的高度直观展示不同时间段的数据值大小;而折线图则通过连接各点形成的线条显示数据随时间变化的走向和趋势。C【详解】虽然根据用户喜好推荐商品列表的生成算法设计是一个常见的应用,但它并不属于大数据处理的基本方法。大数据处理的基本方法包括根据字段和记录进行重复数据的检测和处理、根据已有属性集构造新属性的转换以及根据业务规则进行逻辑错误的检测和修正等。 展开更多...... 收起↑ 资源预览