资源简介 第四章 数据处理与应用一、常用的表格数据处理1、数据整理的目的是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。2、日常简单的数据处理可以使用Excel软件完成, 专业的数据处理和统计分析工具有SPSS、SAS、MATLAB等,也可以通过R、Python、Java等计算机语言编程进行数据处理。3、在Excel软件中,可以用公式或函数进行数据的计算。公式和函数都是以“=”开头。4、单元格引用是指对工作表中的单元格或单元格区域的引用。默认情况下,单元格引用是相对的,如A1;单元格绝对引用,如$A$1;连续的单元格区域引用,如A2:D5;不连续的单元格区域引用,如A2:A5,D2:D5。5、算术运算符有^、%、*、/、十、-,用于进行基本的数学运算。比较运算符有=、>、<、 >=、<=、<>,用于比较两个值,结果为逻辑值TRUE或FALSE。文本连接运算符"&", 可以连接一个或多个文本字符串,生成一段文本。6、Excel内置函数函数名 使用 说明SUM SUM(A1:A10) 求和AVERAGE AVERAGE(A1:A10) 求平均值MAX MAX(A1:A10) 求最大值MIN MIN(A1:A10) 求最小值COUNT COUNT(A1:A10) 求数量RANK RANK(A1,A1:A10) 求排名7、相对引用与绝对引用:Excel中对单元格的引用可以是相对的,也可以是绝对的,相对的例如A1:A10,绝对引用一般用$符号标识,例如$A1就是锁定列,在填充的时候A不会随着单元格位置的变换而变换,同理A$1就是锁定行,$A$1就是锁定行列。8、图表是用视觉形式向人们展示数据的一种方法。 常见的图表类型有柱形图(对比数据大小)、 折线图(变化趋势)、 饼图(占比)、 雷达图、 散点图、 气泡图。9、生成图表的步骤:先选取数据区域,再插入图表,选择图表类型10、图表数据区域:1)、在表格中找到图表x轴对应的数据2)、在表格中找到图表y轴对应的数据3)、在表格中找到图例对应的数据4)、高平齐长对正二、大数据处理架构1、大数据具有数据量大、数据来源与类型多样、处理速度快等特点。2、处理大数据时,一般采用分治思想。3、处理大数据的基本方法有批处理计算(静态数据)、流计算(流数据或实时数据)、图计算(图数据)三种。4、分布式计算 (Distributed Computing) 是把一个需要非常巨大的计算能力才能解决的问题 分成许多小部分, 然后把这些部分分配给许多计算机进行处理, 最后把这些计算结果综合起来得到最终的结果。5、并行处理(Parallel Processing)是计算机系统中能同时执行两个或更多处理的一种计算方法。6、Windows的文件系统采用FAT32或 NTFS, Linux的文件系统为 Ext2/Ext3/Ext4。7、HBase是一个高可靠、高性能、 可伸缩、分布式的列式数据库。8、Map Reduce是一种分布式并行编程模型, 能够处理大规模数据集的并行运算。三、使用pandas处理数据1、pandas提供了Series和DataFrame两种数据结构。使用这两种数据结构,可完成数据的整理、计算、统计、分析及简单可视化。2、在Python中引入pandas模块的方法:import pandas as pd3、Series是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引 (index),索引值默认是从0起递增的整数。列表、字典等可以用来创建Series数据结构, 与列表不同的是,Series的索引可以指定,类型可以为字符串型。4、创建Series样例如下图5、通过索引可以选取Series对象中的值, 通过赋值语句可以修改Series对象中的值。如:s1[0]=168 、s2["s01 "]=168, 可将sl、s2对象中的“ 166"改为“ 168 ”。6、DataFrame是一种二维的数据结构由1个索引列(index)和若干个数据列组成,每个数据列可以是不同的类型。 DataFrame可以看作是共享同一个index 的Series 的集合。 创建DataFrame对象的方法很多, 通常用一个相等长度的列表或字典来创建。如下图7、Pandas也可以读取Excel、csv等文件,使用read_excel函数和read_csv函数代码如下图8、访问属性:格式:对象名.属性名如:df.index(访问索引) df.columns(访问列标题)df.values(访问值) df.T(行列转置)9、选取列:使用列标题(设列标题为姓名)将列标题当成属性:df.姓名将列表题当成索引:df[“姓名”]10、选取行取满足某些条件的行:df[df.语文>100]取前n行:df.head(n)取后n行:df.tail(n)取某几行:df[m:n]取索引为m到n-1的行11、取值df.at[行标签,列标签]插入列df.insert(loc=1,column=”政治”,value=[78,98,60])#插入一个新的列,位置是第二列,列标题为“政治”,值分别为78,98,60。若value=98,则说明这一列的每一个值都是98。插入行df.append({“姓名”:”小红”,”语文”:105,”英语”:107},ignore_index=True)#插入一行,索引在df对象的索引上往后递增一个。删除删除行:df.drop(0,axis=0)#删除索引为0的行,axis=0表示行,默认删除列:df.drop(“姓名”,axis=1)#删除姓名列,axis=1表示列注意:axis=1在排序和求和等函数使用时表示行,axis=0表示列排序按索引排序:sort_index(ascending=True) #ascending=True表示升序,默认。按值排序:sort_values(“语文”,ascending=False)#按语文成绩降序排序ascending=False表示降序。不改变原DataFrame对象的函数:drop()、append()、sort_index()、sort_values()df.drop(0,axis=0,inplace=True)#inplace=True替换原DataFrame对象17、DataFrame常用函数sum() 求和 mean()求平均值 count()计数 max()求最大值 min()求最小值describe()返回各列的计数、平均值、标准差、最大值、最小值等四、使用matplotlib绘图1、matplotlib是一个绘图库 ,使用其中的pyplot子库所提供的函数可以快速绘图和设置图 表的坐标轴、 坐标轴刻度、图例等。常用绘图函数如下表函数 说明figure() 创建一个新的图表对象,并设置为当前绘图对象,会自动创建plot() 绘制线形图scatter() 绘制散点图bar() 绘制垂直柱形图barh() 绘制水平柱形图title() 设置图表标题xlim(),ylim() 设置XY轴取值范围xlabel(),ylabel() 设置XY轴的标签legend() 显示图例,与label配合使用show() 显示所有的图表对象,必须要写,否则图表不显示import matplotlib.pyplot as plt #导入matplotlib的pyplot子库plt.plot(x,y,label=”英语”,color=”red”,linewidth=5)#label设置图例上显示的文字,和legend()配合起来使用。#color设置图表颜色。#linewidth设置线条粗细,垂直柱形图用width,水平柱形图用height。2、调用DataFrame中自带的plot函数生成图表、df.plot(kind=”line”) #生成线形图、df.plot(kind=”scatter”) #生成散点图、df.plot(kind=”bar”) #生成垂直柱形图、df.plot(kind=”barh”) #生成水平柱形图5)、df[3:5].plot(x=”姓名”,y=”语文”,kind=”bar”) #选择df对象的第4到5行数据,取“姓名”列为x轴数据,取“语文”列为y轴数据,生成垂直柱形图。四、文本数据处理及数据可视化1、文本数据处理是大数据处理的重要分支之一, 目的是从大规模的文本数据中提取出符合需要的、 感兴趣的和隐藏的信息。 目前, 文本数据处理主要应用在搜索引擎、 情报分析、 自动摘要、 自动校对、 论文查重、 文本分类、 垃圾邮件过滤、 机器翻译、 自动应答等方面。2、文本处理的一般步骤:文本内容是非结构化的数据, 要从大量的文本中提取出有用的信息, 需要将文本从无结构的原始状态转化为结构化的、 便于计算机处理的数据。 典型的文本处理过程主要包括:分词、 特征提取、 数据分析、 结果呈现。3、分词的三种方法基于词典的分词方法(Python的jieba模块)、基于统计的分词方法、基于规则的分词方法。4、标签云用词频表现文本特征, 将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。5、文本情感分析是指通过计算机技术对文本的主观性、 观点、 情绪、 极性进行挖掘和分析, 对文本的情感倾向做出分类判断6、数据可视化的作用:快捷观察与追踪数据、实时分析数据、增强数据的解释力与吸引力。7、数据可视化的基本方法:有关时间趋势的可视化(折线图、柱形图)、有关比例的可视化(饼图、环形图)、有关关系的可视化(散点图(2-3个变量)、气泡图(3-4个变量))、有关差异的可视化(雷达图)、有关空间关系的可视化(地图)。8、数据可视化的工具:用于数据可视化的工具有大数据魔镜、Gephi、Tableau等,也可以使用Python、R等 计算机语言编写程序实现数据的可视化9、智慧交通包括:交通信息服务系统、交通管理系统、电子收费系统。10、大数据在电子商务的使用:精准营销、供应链管理、智能网站。 展开更多...... 收起↑ 资源预览