资源简介 (共27张PPT)我们毕业啦其实是答辩的标题地方第四章 数据处理与应用数据处理的过程数据采集数据分析数据整理数据呈现传感器、网络爬虫等。采集到的数据会有缺失、重复或异常。数据整理的目的是对数据进行校验和标准化。对比分析法、评均分析法、结构分析法等。以图形、动画等方式直观地呈现数据分析的结果。数据采集方法传感器采集网络采集搜索引擎爬虫调查问卷采集已有网页数据精确抓取网络数据需要人提供的数据采集物理世界的数据数据采集数据采集到的数据,是怎样保存的呢?常见的数据保存形式是云存储、数据库、文件。数据保存文件格式保存,最常见的是txt、csv格式。csv文件也是一种保存了数据的文本文件,其中的数据通常以英文逗号分隔开。excel、wps等表格软件可以兼容打开该格式的文件。下图是学生体质健康数据的部分原始数据,观察该数据存在什么问题。缺失数据为空错误数据不准确重复重复的数据非标准数据单位格式不一致数据整理需求1、存在重复数据!——去重2、数据太多了,我们只需要某个城市数据!——筛选3、日期格式不正确!——标准化4、现有缺失数据!——尽可能补缺数据整理整理目的整理方法问题数据去重勘误补漏重复数据非标准化数据错误数据缺失数据数据整理数据分析作用:了解事物的现状数据分析数据分析数据分析作用:剖析事物的发展历程数据分析作用:预测事物未来走向数据分析平均分析法:是指运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。多用于比较同类现象在不同地区、不同行业、不同类型单位等之间的差异程度,分析现象之间的依存关系;也可以对某一现象在不同时间的水平进行比较,以说明现象的发展规律及趋势。平均工资、平均年龄、平均身高、平均分平均分析法数据分析对比分析法:也叫比较分析法,通常用于从数量上展示 和说明研究对象规模大小,水平高低等。对比分析法分为横向和纵向对比两大类。数据分析横向对比对比分析法——纵向对比同类数据不同时间的上的对比结构分析法:也称构成分析法,是将各个部分与总体进行对比,是分析事物内部的结构和部分与整体之间关系的方法。用Excel软件进行数据分析在Excel软件中,可以应用公式进行数据的计算。公式是以“=”开头,由常数、函数单元格引用和运算符组成的式子。公式不仅用于计算,更重要的是构建计算模型。单元格引用是指对工作表中的单元格或单元格区域的引用。(1)默认情况下,单元格相对引用,如 A1;(2)单元格绝对引用(如果公式所在单元格的位置改变,绝对引用保持不变),如 $A$1 ;(3)绝对引用列,如 $A1(锁定列);(4)绝对引用行,如 A$1(锁定行);(3)连续的单元格区域弓用,如A2:D5;(4)不续的单元格区域引用,如A2:A5,D2:D5。算术运算符有~、%、*、/、+、-,用于进行基本的数学运算。比较运算符有=、>、<>=、<=、<>,用于比较两个值,结果为逻辑值TRUE 或 FALSE。文本连接运算符“&”可以连接一个或多个文本字符串,生成一段文本。用Excel软件进行数据分析Excel常用函数语法如下:(1)求参数和函数: =SUM(number1,number2,…)(2)求参数平均值函数:=AVERAGE(number1,number2,…)(3)求参数列表中最小值:=MIN(number1,number2,…)(4)求参数列表中最大值:=MAX(number1,number2,…)参数可以是数字、单元格或单元格区域(5)条件求和函数:=SUMIF(条件所在区域,条件,求和区域)(6)条件平均函数:=AVERAGEIF(条件所在区域,条件,实际计算区域)(7)条件计数函数:=COUNTIF(计数区域,条件)(8)排名函数:=rank(参与排名的数值,排名的数值区域,排名方式)(9)条件判断函数:=IF(条件,“真值”,“假值”)用Python软件进行数据分析pandas模块处理数据pandas模块处理数据pandas模块处理数据图表 词云数据可视化可视化的常见形式用词频表现文本特征常用图表类型介绍-折线图折线图可以显示随时间而变化的连续数据,常用于分析相等时间间隔下数据的发展趋势。常用图表类型介绍-柱形图柱形图通常用于显示一定范围内数据的变化情况或用于各项数据的比较。常用图表类型介绍-饼图饼图用于显示各部分数据在总数据中的大小和比例关系。常用图表类型介绍-散点图用于表示若干数据系列中各数值之间的关系,以便判断两个变量中间是否存在某种关联。常用图表类型介绍-雷达图雷达图用来比较每个数据相对中心的数据变化,适用于多维数据的呈现。用表格软件绘制图表操作步骤:1、打开表格文件文件2、选中需要绘图的数据区域。3、点击“插入”菜单,选择“柱形图”的第一个图形。 展开更多...... 收起↑ 资源预览