资源简介 (共23张PPT)第四章 数据处理与应用4.2 大数据处理4.2.2 编程处理数据学习目标掌握pandas模块的两种数据结构Series和DataFrame。学习使用pandas模块对数据进行编辑、计算、统计、分析。能选用合适的方法和软件对数据进行简单可视化。掌握运用matplotlib的pyplot子库的方法,学习和体会编程处理数据的方法和优势。使用Python语言编程进行数据分析和挖掘,可以调用Python的扩展模块。Python常用数据处理拓展模块:Numpy模块:科学运算的基础库,主要提供科学计算中常用的随机数、数组运算等基础函数。Scipy模块:基于numpy构建的一个模块,增强了在高等数学、信号处理、图像处理、统计等方面的处理能力。Pandas模块:基于numpy实现,提供了大量处理数据的函数和方法,能方便地操作大型数据集。Matplotlib模块:绘图库,使用pyplot子库中的函数快速绘图和设置图表坐标轴、坐标轴刻度、图例等。知识点一:利用pandas模块处理数据新课讲授pandas提供了Series和DataFrame两种数据结构,可完成数据整理、计算、统计、分析及简单可视化。在Python中引入pandas模块的方法如下:import pandas as pdPython模块的导入——import语句:导入函数或模块到python代码中,实现代码复用。可为模块或函数指定别名。import 模块名调用:模块名.函数名()from 模块名 import 函数名调用:函数名()import mathmath.sqrt(64)from math import sqrtsqrt(64)import 模块名 as 别名调用:别名.函数名()from 模块名 import 函数名 as 别名调用:别名()import math as sxsx.sqrt(64)from math import sqrt as sqsq(64)1.一维数据结构——Series包含一个数组的数据(values)和一个与数据关联的索引(index),索引值默认是从0起递增的整数。列表、字典等能用来创建Series数据结构,与列表不同的是,Series的索引可以指定,类型可以为字符串型。(1)创建Series对象(2)查看Series对象中的数据2.二维数据结构——DataFrame由1个索引列(index)和若干个数据列组成,每个数据列可以是不同的类型。DataFrame可以看作是共享同一个index的Series的集合。行索引类似于关系表中每行的编号,列标题类似于表格的列名(也称为字段)。(1)创建DataFrame对象(2)查看DataFrame对象中的数据(3)DataFrame常用函数DataFrame数据结构提供了丰富的函数,这些函数可以用来进行行、列编辑和统计计算等。知识点二:利用matplotlib模块绘图matplotlib是一个绘图库,使用其中的pyplot子库所提供的函数可以快速绘图和设置图表的坐标轴、坐标轴刻度、图例等。在Python中引入matplotlib的pyplot子库的方法为:import matplotlib.pyplot as plt1.有Python程序段如下:import pandas as pdpd1 = pd.Series([1,2,3,4])print(pd1.index)该程序段运行后输出结果为( )A. B. C. D.0 1 1 21 2 2 32 3 3 43 4 4 5随堂练习A2. 某DataFrame对象df,其中包含10个数据行和11个数据列,下列语句中能查看df对象中数据行的是( )A.df.indexB.df.columnsC.df.tail()D.df.count()C 展开更多...... 收起↑ 资源预览