资源简介 一、 常用表格数据的处理1. 数据整理(1)数据整理的目的:检测和修正错漏的数据,整合数据资源,规整数据格式,提高数据质量。(2)常见的数据问题有数据缺失、数据重复、数据异常、逻辑错误、格式不一致等。数据问题 处理方法数据缺失 ①忽略含有缺失值的实例或属性 ②采用平均值、中间值或概率统计值来填充数据重复 可以通过COUNTIF、“条件格式”和排序功能进行查找,在审核后进行合并或删除等处理数据异常 指数据集中不符合一般规律的数据对象,它可能是要去掉的噪声,也可能是含有重要信息的数据对象逻辑错误 数据集中的属性值与实际值不符,或违背业务规则或逻辑。可通过数据验证功能进行检查格式不一致 可通过数据转换形成一个合适的形式。数据转换通常包括属性数据类型的转换、根据已有属性集构造新属性的转换、将不同来源的相同属性的定义及其值进行统一标准化表达的转换等2. 数据计算(1)常用的表格数据处理和统计分析的工具有Excel、SPSS、SAS、MATLAB等软件,也可以通过R、Python、Java等计算机语言编程进行数据处理。(2)使用Excel软件进行数据计算①运用公式进行数据计算,公式是以“=”开头,由常数、函数、单元格引用和运算符组成的式子。②Excel运算符Excel运算符分为算术运算符、比较运算符和文本连接运算符。运算符类型 符号 功能算术运算符 ^、%、*、/、+、- 进行基本的数学运算比较运算符 =、<、>、>=、<=、 < > 比较两个值,结果为True或False文本连接运算符 & 连接一个或多个文本字符串,生成一段文本③Excel函数函数语法 功能SUM(number1, [number2], …) 求参数的和AVERAGE(number1, [number2], …) 求参数的平均值MIN(number1, [number2], …) 返回参数列表中的最小值MAX(number1, [number2], …) 返回参数列表中的最大值注:参数可以是数字、单元格或单元格区域④使用Excel软件进行数据计算的一般方法:分析表格数据→生成抽象的计算模型→计算→分析计算结果,描述其含义。3. 数据图表呈现(1)常见的图表类型有柱形图、折线图、饼图、雷达图、散点图、气泡图等。其中柱形图用于比较数据大小;折线图用于描述数据变化的趋势;饼图用于描述数据构成的百分比;雷达图用于多项指标的比较;散点图、气泡图用于反映变量之间的关联或分布趋势。(2)使用Excel软件创建图表来呈现数据的一般方法:分析表格数据→选择图表类型→创建图表→检查图表→描述数据特征。4. 大数据处理的分治思想处理大数据时,一般采用分治思想。分治就是把一个复杂的问题分成两个或更多相同或相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题仍然难以解决,可以再把它们分成几个更小的子问题,以此类推,直至可以直接求出解为止。5. 大数据处理类型和架构数据类型 数据特征 处理方式 软件或平台静态数据 处理时已收集完成,计算时不会发生改变 批处理计算 Hadoop、Spark等流数据 不间断、持续到达的,具有时效性,比如根据路况实时更新导航路线 流计算 Storm、Heron等图数据 现实世界中以图的形式呈现的或者是可以转换为图再分析的一些数据,如社交网络、道路交通等 图计算 Pregel、GraphX等6. 批处理计算(1)Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。①分布式文件系统HDFS概述:HDFS是谷歌文件系统(GFS) 的开源实现。功能:将大规模海量数据以文件的形式,用多个副本保存在不同的存储节点中,并用分布式系统进行管理。HDFS是一个具有高度容错性的系统,适合部署在廉价的机器上。目前,云盘、网盘的底层一般采用HDFS来实现。②分布式数据库HBase概述:HBase是一个高可靠、高性能、可伸缩、分布式的列式数据库,是谷歌BigTable数据库的开源实现。功能:HBase建立在HDFS提供的底层存储基础上,采用基于列的存储方式,主要用来存储非结构化数据和半结构化数据,具有良好的横向扩展能力,可管理PB级的大数据。③分布式并行计算模型MapReduce概述:MapReduce是一种分布式并行计算模型,能够处理大规模数据集的并行运算,主要由Map(映射) 和Reduce(归纳) 两个函数构成。功能:MapReduce的核心处理思想是将任务分解并分发到多个节点上进行处理,最后汇总输出。(2)Spark是一种与Hadoop相似的、应用较广的开源分布式计算架构。Spark利用了内存来存储中间结果,运行速度比Hadoop快很多。7. 流计算(1)流计算系统可以简单、高效、可靠地实现实时数据的获取、传输和存储,在与数据库(如Hadoop)、编程语言等整合后可开发出功能强大的实时计算与分析应用。(2)目前,处理流数据的软件系统主要有IBM InfoSphere Streams、Twitter Storm、Yahoo!S4、银河流数据处理平台(淘宝)、Facebook Puma等。8. 图计算(1)现实世界中的很多数据是以图的形式呈现的,或者是可以转换为图再分析的,如社交网络、网络浏览与购买行为、传染病的传播路径等。(2)目前通用的图处理软件主要包括两类:一类是图数据库,如Neo4j、InfiniteGraph、OrientDB等;另一类是并行图处理系统,如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。9. 实时处理与批处理的整合(1)概述:Twitter开源了其大数据处理系统Summingbird, 该系统实现了批处理和流计算在一个平台架构下的整合(Hadoop+Storm)。(2)优点:开发者在同一个平台上既可以做批处理,也可以做流计算,还可以进行两种模式的混合使用。平台的整合缩短了批处理与流处理之间的切换延迟时间,有利于减少系统的开销,降低使用成本。【例1】 下列关于分治思想的说法,错误的是( D )A. 处理大数据时,一般采用分治思想B. 对于复杂的问题,可以不断将其划分成一个个小问题,直至可以求解C. 运用分治思想,可以提升数据的处理速度D. 运用分治思想,系统容错性得不到保障【解析】 由于数据量过大,所需的计算机数量也极多,因此可以将同一份数据发给不同的计算机进行处理,并由一台或多台计算机负责管理,这样既可以保证结果的正确性,又可以避免机器故障带来的问题。【例2】 下列关于大数据的说法,正确的是( C )A. 大数据肯定可以用Hadoop来处理B. 对图结构的数据,一般采用流计算模式进行处理C. 对于静态数据,可以用批处理计算D. 实时处理与批处理不能实现整合【解析】 本题主要考查大数据的相关知识。通过使用Hadoop,用户可以利用集群的存储和处理能力,并实现大数据的分布式处理,但不是所有数据都可以用Hadoop来处理;对图结构的数据,一般采用图计算来实现;静态数据是用批处理计算来处理的,而现在Twitter实现了批处理和实时处理的整合。【例3】 关于大数据处理,下列说法中错误的是( B )A. 处理大数据时,一般采用分治思想B. 对图结构的数据,一般采用流计算模式进行处理C. 处理文本数据时需要将非结构化的文本原始状态转化成结构化的数据D. 数据的可视化可以帮助用户更快捷地观察与追踪数据【解析】 本题主要考查大数据处理。处理大数据时,一般采用分治思想;对图结构的数据,一般采用图计算模式进行处理;处理文本数据时需要将非结构化的文本转化成结构化数据;数据可视化可以帮助用户更快捷地观察与追踪数据。1. 收集到全班学生的各科成绩后,班主任王老师除了计算各科平均分,还想用众数来了解班上学生的成绩情况。这属于数据处理过程中的( C )A. 数据采集 B. 数据整理C. 数据分析 D. 数据可视化【解析】 本题主要考查数据处理的过程。收集到全班学生的各科成绩后,班主任王老师除了计算各科平均分,还想用众数来了解班上学生的成绩情况。这属于数据处理过程中的数据分析。2. 下列应用场景中,不包含大数据处理的是( D )A. 网购平台的“猜你喜欢” B. 物流配送C. 智能交通网络 D. 入校新生基本信息的统计【解析】 本题主要考查大数据处理的应用。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。结合选项可知,入校新生基本信息的统计不涉及大数据处理。3. 大数据技术中,能从规模巨大的数据中分析并提取出具有潜在价值的信息的技术是( B )A. 采集技术 B. 数据分析与挖掘技术C. 预处理技术 D. 可视化技术【解析】 本题主要考查大数据技术。数据分析与数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,分析并提取隐含在其中的、人们事先不知道的、但具有潜在价值的信息和知识的过程。4. 小区里有的垃圾箱垃圾堆得太多而溢出,有的垃圾箱垃圾却很少。经过研究后,小明同学整理数据,将原因与建议写成文字,准备交给物业。这属于数据处理过程中的( A )A. 撰写研究报告 B. 数据整理C. 数据分析 D. 数据可视化【解析】 本题主要考查数据处理的过程。小明同学整理数据,将原因与建议写成文字,准备交给物业。这属于数据处理过程中的撰写研究报告环节。5. 从数据处理的过程来看,在数据采集之前要做的是( A )A. 明确数据需求 B. 统一数据格式C. 数据可视化 D. 分析数据【解析】 本题主要考查数据处理的描述。从数据处理的过程来看,在数据采集之前要明确数据需求。6. 根据Weather Co的特定数据,结合女性所处的准确位置和天气,可投放高精度的精准广告。对于在高温、湿热的地区查看天气的女性,就应该向她推送使头发柔顺的洗发水广告;而如果她处于湿度低的地区,头发没有弹性,那么就应该向她推送使头发富有弹性的洗发水广告。该案例属于大数据处理中的( D )A. 可视化表达 B. 数据采集C. 大数据服务 D. 挖掘分析【解析】 本题主要考查大数据处理过程。分析题干可知,该案例属于大数据处理中的挖掘分析。7. “大事化小、小事化了”体现出的问题求解的思想是( C )A. 递推法 B. 穷举法C. 分治法 D. 归纳法【解析】 本题主要考查分治算法。分治算法的基本思想是将一个规模为n的问题分解为k个规模较小的子问题,这些子问题相互独立且与原问题性质相同,求出子问题的解,就可得到原问题的解。“大事化小、小事化了”,体现出的问题求解的思想是分治法。8. 分治的设计思想,是将一个难以直接解决的大问题,分割成一些较小的同类问题,并各个击破,最终达到解决问题的目的。关于分治法能解决的问题所具有的特征,下列说法中错误的是( B )A. 该问题可以分解为若干个规模较小的相同或相似的子问题B. 该问题的规模足够大C. 该问题的规模缩小到一定程度后就可以很容易地解决D. 各个子问题的解可以合并为原问题的解【解析】 本题主要考查算法与问题解决。分治策略是对于一个规模为n的问题,若该问题可以容易地解决(比如规模n较小),则直接解决;否则将其分解为k个规模较小的子问题,这些子问题互相独立且与原问题形式相同,递归地解这些子问题,然后将各子问题的解合并得到原问题的解,该问题的规模缩小到一定程度就可以很容易地解决。(共24张PPT)一、 常用表格数据的处理信息技术 必修1 数据与计算数据处理与应用第四章知识过关1. 数据整理(1)数据整理的目的:检测和修正错漏的数据,整合数据资源,规整数据格式,提高数据质量。(2)常见的数据问题有数据缺失、数据重复、数据异常、逻辑错误、格式不一致等。数据问题 处理方法数据缺失 ①忽略含有缺失值的实例或属性 ②采用平均值、中间值或概率统计值来填充数据重复 可以通过COUNTIF、“条件格式”和排序功能进行查找,在审核后进行合并或删除等处理数据异常 指数据集中不符合一般规律的数据对象,它可能是要去掉的噪声,也可能是含有重要信息的数据对象逻辑错误 数据集中的属性值与实际值不符,或违背业务规则或逻辑。可通过数据验证功能进行检查格式不一致 可通过数据转换形成一个合适的形式。数据转换通常包括属性数据类型的转换、根据已有属性集构造新属性的转换、将不同来源的相同属性的定义及其值进行统一标准化表达的转换等2. 数据计算(1)常用的表格数据处理和统计分析的工具有Excel、SPSS、SAS、MATLAB等软件,也可以通过R、Python、Java等计算机语言编程进行数据处理。(2)使用Excel软件进行数据计算①运用公式进行数据计算,公式是以“=”开头,由常数、函数、单元格引用和运算符组成的式子。②Excel运算符Excel运算符分为算术运算符、比较运算符和文本连接运算符。运算符类型 符号 功能算术运算符 、%、*、/、+、- 进行基本的数学运算比较运算符 =、<、>、>=、<=、 < > 比较两个值,结果为True或False文本连接运算符 & 连接一个或多个文本字符串,生成一段文本③Excel函数函数语法 功能SUM(number1, [number2], …) 求参数的和AVERAGE(number1, [number2], …) 求参数的平均值MIN(number1, [number2], …) 返回参数列表中的最小值MAX(number1, [number2], …) 返回参数列表中的最大值注:参数可以是数字、单元格或单元格区域④使用Excel软件进行数据计算的一般方法:分析表格数据→生成抽象的计算模型→计算→分析计算结果,描述其含义。3. 数据图表呈现(1)常见的图表类型有柱形图、折线图、饼图、雷达图、散点图、气泡图等。其中柱形图用于比较数据大小;折线图用于描述数据变化的趋势;饼图用于描述数据构成的百分比;雷达图用于多项指标的比较;散点图、气泡图用于反映变量之间的关联或分布趋势。(2)使用Excel软件创建图表来呈现数据的一般方法:分析表格数据→选择图表类型→创建图表→检查图表→描述数据特征。4. 大数据处理的分治思想处理大数据时,一般采用分治思想。分治就是把一个复杂的问题分成两个或更多相同或相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题仍然难以解决,可以再把它们分成几个更小的子问题,以此类推,直至可以直接求出解为止。5. 大数据处理类型和架构数据类型 数据特征 处理方式 软件或平台静态数据 处理时已收集完成,计算时不会发生改变 批处理计算 Hadoop、Spark等流数据 不间断、持续到达的,具有时效性,比如根据路况实时更新导航路线 流计算 Storm、Heron等图数据 现实世界中以图的形式呈现的或者是可以转换为图再分析的一些数据,如社交网络、道路交通等 图计算 Pregel、GraphX等6. 批处理计算(1)Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。①分布式文件系统HDFS概述:HDFS是谷歌文件系统(GFS) 的开源实现。功能:将大规模海量数据以文件的形式,用多个副本保存在不同的存储节点中,并用分布式系统进行管理。HDFS是一个具有高度容错性的系统,适合部署在廉价的机器上。目前,云盘、网盘的底层一般采用HDFS来实现。②分布式数据库HBase概述:HBase是一个高可靠、高性能、可伸缩、分布式的列式数据库,是谷歌BigTable数据库的开源实现。功能:HBase建立在HDFS提供的底层存储基础上,采用基于列的存储方式,主要用来存储非结构化数据和半结构化数据,具有良好的横向扩展能力,可管理PB级的大数据。③分布式并行计算模型MapReduce概述:MapReduce是一种分布式并行计算模型,能够处理大规模数据集的并行运算,主要由Map(映射) 和Reduce(归纳) 两个函数构成。功能:MapReduce的核心处理思想是将任务分解并分发到多个节点上进行处理,最后汇总输出。(2)Spark是一种与Hadoop相似的、应用较广的开源分布式计算架构。Spark利用了内存来存储中间结果,运行速度比Hadoop快很多。7. 流计算(1)流计算系统可以简单、高效、可靠地实现实时数据的获取、传输和存储,在与数据库(如Hadoop)、编程语言等整合后可开发出功能强大的实时计算与分析应用。(2)目前,处理流数据的软件系统主要有IBM InfoSphere Streams、Twitter Storm、Yahoo!S4、银河流数据处理平台(淘宝)、Facebook Puma等。8. 图计算(1)现实世界中的很多数据是以图的形式呈现的,或者是可以转换为图再分析的,如社交网络、网络浏览与购买行为、传染病的传播路径等。(2)目前通用的图处理软件主要包括两类:一类是图数据库,如Neo4j、InfiniteGraph、OrientDB等;另一类是并行图处理系统,如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。9. 实时处理与批处理的整合(1)概述:Twitter开源了其大数据处理系统Summingbird, 该系统实现了批处理和流计算在一个平台架构下的整合(Hadoop+Storm)。(2)优点:开发者在同一个平台上既可以做批处理,也可以做流计算,还可以进行两种模式的混合使用。平台的整合缩短了批处理与流处理之间的切换延迟时间,有利于减少系统的开销,降低使用成本。典例精选【例1】 下列关于分治思想的说法,错.误.的是( )A. 处理大数据时,一般采用分治思想B. 对于复杂的问题,可以不断将其划分成一个个小问题,直至可以求解C. 运用分治思想,可以提升数据的处理速度D. 运用分治思想,系统容错性得不到保障【解析】 由于数据量过大,所需的计算机数量也极多,因此可以将同一份数据发给不同的计算机进行处理,并由一台或多台计算机负责管理,这样既可以保证结果的正确性,又可以避免机器故障带来的问题。D【例2】 下列关于大数据的说法,正确的是( )A. 大数据肯定可以用Hadoop来处理B. 对图结构的数据,一般采用流计算模式进行处理C. 对于静态数据,可以用批处理计算D. 实时处理与批处理不能实现整合【解析】 本题主要考查大数据的相关知识。通过使用Hadoop,用户可以利用集群的存储和处理能力,并实现大数据的分布式处理,但不是所有数据都可以用Hadoop来处理;对图结构的数据,一般采用图计算来实现;静态数据是用批处理计算来处理的,而现在Twitter实现了批处理和实时处理的整合。C【例3】 关于大数据处理,下列说法中错.误.的是( )A. 处理大数据时,一般采用分治思想B. 对图结构的数据,一般采用流计算模式进行处理C. 处理文本数据时需要将非结构化的文本原始状态转化成结构化的数据D. 数据的可视化可以帮助用户更快捷地观察与追踪数据【解析】 本题主要考查大数据处理。处理大数据时,一般采用分治思想;对图结构的数据,一般采用图计算模式进行处理;处理文本数据时需要将非结构化的文本转化成结构化数据;数据可视化可以帮助用户更快捷地观察与追踪数据。B自我检测1. 收集到全班学生的各科成绩后,班主任王老师除了计算各科平均分,还想用众数来了解班上学生的成绩情况。这属于数据处理过程中的( )A. 数据采集 B. 数据整理C. 数据分析 D. 数据可视化【解析】 本题主要考查数据处理的过程。收集到全班学生的各科成绩后,班主任王老师除了计算各科平均分,还想用众数来了解班上学生的成绩情况。这属于数据处理过程中的数据分析。C2. 下列应用场景中,不.包.含.大数据处理的是( )A. 网购平台的“猜你喜欢” B. 物流配送C. 智能交通网络 D. 入校新生基本信息的统计【解析】 本题主要考查大数据处理的应用。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。结合选项可知,入校新生基本信息的统计不涉及大数据处理。D3. 大数据技术中,能从规模巨大的数据中分析并提取出具有潜在价值的信息的技术是( )A. 采集技术 B. 数据分析与挖掘技术C. 预处理技术 D. 可视化技术【解析】 本题主要考查大数据技术。数据分析与数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,分析并提取隐含在其中的、人们事先不知道的、但具有潜在价值的信息和知识的过程。B4. 小区里有的垃圾箱垃圾堆得太多而溢出,有的垃圾箱垃圾却很少。经过研究后,小明同学整理数据,将原因与建议写成文字,准备交给物业。这属于数据处理过程中的( )A. 撰写研究报告 B. 数据整理C. 数据分析 D. 数据可视化【解析】 本题主要考查数据处理的过程。小明同学整理数据,将原因与建议写成文字,准备交给物业。这属于数据处理过程中的撰写研究报告环节。A5. 从数据处理的过程来看,在数据采集之前要做的是( )A. 明确数据需求 B. 统一数据格式C. 数据可视化 D. 分析数据【解析】 本题主要考查数据处理的描述。从数据处理的过程来看,在数据采集之前要明确数据需求。A6. 根据Weather Co的特定数据,结合女性所处的准确位置和天气,可投放高精度的精准广告。对于在高温、湿热的地区查看天气的女性,就应该向她推送使头发柔顺的洗发水广告;而如果她处于湿度低的地区,头发没有弹性,那么就应该向她推送使头发富有弹性的洗发水广告。该案例属于大数据处理中的( )A. 可视化表达 B. 数据采集C. 大数据服务 D. 挖掘分析【解析】 本题主要考查大数据处理过程。分析题干可知,该案例属于大数据处理中的挖掘分析。D7. “大事化小、小事化了”体现出的问题求解的思想是( )A. 递推法 B. 穷举法C. 分治法 D. 归纳法【解析】 本题主要考查分治算法。分治算法的基本思想是将一个规模为n的问题分解为k个规模较小的子问题,这些子问题相互独立且与原问题性质相同,求出子问题的解,就可得到原问题的解。“大事化小、小事化了”,体现出的问题求解的思想是分治法。C8. 分治的设计思想,是将一个难以直接解决的大问题,分割成一些较小的同类问题,并各个击破,最终达到解决问题的目的。关于分治法能解决的问题所具有的特征,下列说法中错.误.的是( )A. 该问题可以分解为若干个规模较小的相同或相似的子问题B. 该问题的规模足够大C. 该问题的规模缩小到一定程度后就可以很容易地解决D. 各个子问题的解可以合并为原问题的解【解析】 本题主要考查算法与问题解决。分治策略是对于一个规模为n的问题,若该问题可以容易地解决(比如规模n较小),则直接解决;否则将其分解为k个规模较小的子问题,这些子问题互相独立且与原问题形式相同,递归地解这些子问题,然后将各子问题的解合并得到原问题的解,该问题的规模缩小到一定程度就可以很容易地解决。B 展开更多...... 收起↑ 资源列表 一、 常用表格数据的处理.docx 一、 常用表格数据的处理.pptx