第4章 数据处理与应用 知识点梳理 2021-2022学年浙教版(2019)高中信息技术必修一《数据与计算》

资源下载
  1. 二一教育资源

第4章 数据处理与应用 知识点梳理 2021-2022学年浙教版(2019)高中信息技术必修一《数据与计算》

资源简介

第四章 数据处理与应用
一、常用的表格数据处理
1、数据整理的目的是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。
2、日常简单的数据处理可以使用Excel软件完成, 专业的数据处理和统计分析工具有SPSS、SAS、MATLAB等,也可以通过R、Python、Java等计算机语言编程进行数据处理。
3、在Excel软件中,可以用公式或函数进行数据的计算。公式和函数都是以“=”开头。
4、单元格引用是指对工作表中的单元格或单元格区域的引用。默认情况下,单元格引用是相对的,如A1;单元格绝对引用,如$A$1;连续的单元格区域引用,如A2:D5;不连续的单元格区域引用,如A2:A5,D2:D5。
5、算术运算符有^、%、*、/、十、-,用于进行基本的数学运算。比较运算符有=、>、<、 >=、<=、<>,用于比较两个值,结果为逻辑值TRUE或FALSE。文本连接运算符"&", 可以连接一个或多个文本字符串,生成一段文本。
6、Excel内置函数
函数名 使用 说明
SUM SUM(A1:A10) 求和
AVERAGE AVERAGE(A1:A10) 求平均值
MAX MAX(A1:A10) 求最大值
MIN MIN(A1:A10) 求最小值
COUNT COUNT(A1:A10) 求数量
RANK RANK(A1,A1:A10) 求排名
7、相对引用与绝对引用:Excel中对单元格的引用可以是相对的,也可以是绝对的,相对的例如A1:A10,绝对引用一般用$符号标识,例如$A1就是锁定列,在填充的时候A不会随着单元格位置的变换而变换,同理A$1就是锁定行,$A$1就是锁定行列。
8、图表是用视觉形式向人们展示数据的一种方法。 常见的图表类型有柱形图(对比数据大小)、 折线图(变化趋势)、 饼图(占比)、 雷达图、 散点图、 气泡图。
9、生成图表的步骤:先选取数据区域,再插入图表,选择图表类型
10、图表数据区域:
1)、在表格中找到图表x轴对应的数据
2)、在表格中找到图表y轴对应的数据
3)、在表格中找到图例对应的数据
4)、高平齐长对正
二、大数据处理架构
1、大数据具有数据量大、数据来源与类型多样、处理速度快等特点。
2、处理大数据时,一般采用分治思想。
3、处理大数据的基本方法有批处理计算(静态数据)、流计算(流数据或实时数据)、图计算(图数据)三种。
4、分布式计算 (Distributed Computing) 是把一个需要非常巨大的计算能力才能解决的问题 分成许多小部分, 然后把这些部分分配给许多计算机进行处理, 最后把这些计算结果综合起来得到最终的结果。
5、并行处理(Parallel Processing)是计算机系统中能同时执行两个或更多处理的一种计算方法。
6、Windows的文件系统采用FAT32或 NTFS, Linux的文件系统为 Ext2/Ext3/Ext4。
7、HBase是一个高可靠、高性能、 可伸缩、分布式的列式数据库。
8、Map Reduce是一种分布式并行编程模型, 能够处理大规模数据集的并行运算。
三、使用pandas处理数据
1、pandas提供了Series和DataFrame两种数据结构。使用这两种数据结构,可完成数据的整理、计算、统计、分析及简单可视化。
2、在Python中引入pandas模块的方法:import pandas as pd
3、Series是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引 (index),索引值默认是从0起递增的整数。列表、字典等可以用来创建Series数据结构, 与列表不同的是,Series的索引可以指定,类型可以为字符串型。
4、创建Series样例如下图
5、通过索引可以选取Series对象中的值, 通过赋值语句可以修改Series对象中的值。如:s1[0]=168 、s2["s01 "]=168, 可将sl、s2对象中的“ 166"改为“ 168 ”。
6、DataFrame是一种二维的数据结构由1个索引列(index)和若干个数据列组成,每个数据列可以是不同的类型。 DataFrame可以看作是共享同一个index 的Series 的集合。 创建DataFrame对象的方法很多, 通常用一个相等长度的列表或字典来创建。如下图
7、Pandas也可以读取Excel、csv等文件,使用read_excel函数和read_csv函数代码如下图
8、访问属性:
格式:对象名.属性名
如:df.index(访问索引) df.columns(访问列标题)
df.values(访问值) df.T(行列转置)
9、选取列:使用列标题(设列标题为姓名)
将列标题当成属性:df.姓名
将列表题当成索引:df[“姓名”]
10、选取行
取满足某些条件的行:df[df.语文>100]
取前n行:df.head(n)
取后n行:df.tail(n)
取某几行:df[m:n]取索引为m到n-1的行
11、取值
df.at[行标签,列标签]
插入列
df.insert(loc=1,column=”政治”,value=[78,98,60])
#插入一个新的列,位置是第二列,列标题为“政治”,值分别为78,98,60。若value=98,则说明这一列的每一个值都是98。
插入行
df.append({“姓名”:”小红”,”语文”:105,”英语”:107},ignore_index=True)
#插入一行,索引在df对象的索引上往后递增一个。
删除
删除行:df.drop(0,axis=0)#删除索引为0的行,axis=0表示行,默认
删除列:df.drop(“姓名”,axis=1)#删除姓名列,axis=1表示列
注意:axis=1在排序和求和等函数使用时表示行,axis=0表示列
排序
按索引排序:sort_index(ascending=True) #ascending=True表示升序,默认。
按值排序:sort_values(“语文”,ascending=False)#按语文成绩降序排序ascending=False表示降序。
不改变原DataFrame对象的函数:drop()、append()、sort_index()、sort_values()
df.drop(0,axis=0,inplace=True)#inplace=True替换原DataFrame对象
17、DataFrame常用函数
sum() 求和 mean()求平均值 count()计数 max()求最大值 min()求最小值
describe()返回各列的计数、平均值、标准差、最大值、最小值等
四、使用matplotlib绘图
1、matplotlib是一个绘图库 ,使用其中的pyplot子库所提供的函数可以快速绘图和设置图 表的坐标轴、 坐标轴刻度、图例等。常用绘图函数如下表
函数 说明
figure() 创建一个新的图表对象,并设置为当前绘图对象,会自动创建
plot() 绘制线形图
scatter() 绘制散点图
bar() 绘制垂直柱形图
barh() 绘制水平柱形图
title() 设置图表标题
xlim(),ylim() 设置XY轴取值范围
xlabel(),ylabel() 设置XY轴的标签
legend() 显示图例,与label配合使用
show() 显示所有的图表对象,必须要写,否则图表不显示
import matplotlib.pyplot as plt #导入matplotlib的pyplot子库
plt.plot(x,y,label=”英语”,color=”red”,linewidth=5)
#label设置图例上显示的文字,和legend()配合起来使用。
#color设置图表颜色。
#linewidth设置线条粗细,垂直柱形图用width,水平柱形图用height。
2、调用DataFrame中自带的plot函数生成图表
、df.plot(kind=”line”) #生成线形图
、df.plot(kind=”scatter”) #生成散点图
、df.plot(kind=”bar”) #生成垂直柱形图
、df.plot(kind=”barh”) #生成水平柱形图
5)、df[3:5].plot(x=”姓名”,y=”语文”,kind=”bar”) #选择df对象的第4到5行数据,取“姓名”列为x轴数据,取“语文”列为y轴数据,生成垂直柱形图。
四、文本数据处理及数据可视化
1、文本数据处理是大数据处理的重要分支之一, 目的是从大规模的文本数据中提取出符合需要的、 感兴趣的和隐藏的信息。 目前, 文本数据处理主要应用在搜索引擎、 情报分析、 自动摘要、 自动校对、 论文查重、 文本分类、 垃圾邮件过滤、 机器翻译、 自动应答等方面。
2、文本处理的一般步骤:文本内容是非结构化的数据, 要从大量的文本中提取出有用的信息, 需要将文本从无结构的原始状态转化为结构化的、 便于计算机处理的数据。 典型的文本处理过程主要包括:分词、 特征提取、 数据分析、 结果呈现。
3、分词的三种方法基于词典的分词方法(Python的jieba模块)、基于统计的分词方法、基于规则的分词方法。
4、标签云用词频表现文本特征, 将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。
5、文本情感分析是指通过计算机技术对文本的主观性、 观点、 情绪、 极性进行挖掘和分析, 对文本的情感倾向做出分类判断
6、数据可视化的作用:快捷观察与追踪数据、实时分析数据、增强数据的解释力与吸引力。
7、数据可视化的基本方法:有关时间趋势的可视化(折线图、柱形图)、有关比例的可视化(饼图、环形图)、有关关系的可视化(散点图(2-3个变量)、气泡图(3-4个变量))、有关差异的可视化(雷达图)、有关空间关系的可视化(地图)。
8、数据可视化的工具:用于数据可视化的工具有大数据魔镜、Gephi、Tableau等,也可以使用Python、R等 计算机语言编写程序实现数据的可视化
9、智慧交通包括:交通信息服务系统、交通管理系统、电子收费系统。
10、大数据在电子商务的使用:精准营销、供应链管理、智能网站。

展开更多......

收起↑

资源预览