4.2.2大数据处理_利用pandas模块处理数据 课件(共36张PPT) 浙教版高中信息技术必修一

资源下载
  1. 二一教育资源

4.2.2大数据处理_利用pandas模块处理数据 课件(共36张PPT) 浙教版高中信息技术必修一

资源简介

(共36张PPT)
利用pandas模块处理数据
常用数据处理模块
numpy模块:科学计算的基础库。
pandas模块:处理表格数据的库。
matplotlib模块:绘图库,可快速绘制图表。
导入pandas模块:
import pandas as pd
Pandas数据结构
Series数据结构:
一维数据结构,包含一组数据和一个与数据关联的行索引(index)。索引值默认从0开始递增。
Series数据结构
创建Series对象
列表创建Series数据结构。
import pandas as pd
s=pd.Series([166,178,180])
#创建Series对象时指定行索引
import pandas as pd
s=pd.Series([166,178,180],index=[“s01”,”s02”,”s03”])
Series数据结构
创建Series对象
字典创建Series数据结构。
字典的键作为行索引
import pandas as pd
a={“s01”:166,”s02”:178,”s03”:180}
s=pd.Series(a)
Series数据结构
常用属性
index:获取索引
values:获取数据
import pandas as pd
s=pd.Series([166,178,180],index=[“s01”,”s02”,”s03”])
for i in s.index:
print(i)
for j in s.values:
print(j)
Series数据结构
查看和修改Series对象中的数据
import pandas as pd
s=pd.Series([166,178,180],index=[“s01”,”s02”,”s03”])
print(s [“s01”]) #输出行索引为“s01”的值
s[“s01”]=170 #修改行索引为“s01” 的值为170
s[“s04”]=190 #添加新的数据
Pandas数据结构
DataFrame数据结构:
二维数据结构,由一个行索引、列标题和数据组成的数据结构。行索引默认从0开始
01
姓名 性别
张三 男
列标题
行索引
数据
李丽 女
DataFrame数据结构
创建DataFrame对象
通过相等长度的列表创建DataFrame数据结构。行索引默认从0开始
import pandas as pd
data=[[“张三”, “男”],[“李丽”, “女”]]
s=pd.DataFrame(data,columns=[“姓名”,”性别”])
01
姓名 性别
张三 男
李丽 女
DataFrame数据结构
创建DataFrame对象
通过相等长度的字典创建DataFrame数据结构。
字典的键作为列标题,字典的值作为数据
import pandas as pd
data={“姓名”:[“张三”,”李四”],”性别”:[“男”,”男”]}
s=pd.DataFrame(data)
DataFrame数据结构
读取文件创建DataFrame数据结构。
Excel
Pandas
DataFrame数据结构
创建DataFrame对象
读取二维数据文件创建DataFrame数据结构。
import pandas as pd
df=pd.read_csv(“2.csv”)
常用属性显示索引、列标题及值:
df.index:行索引
DataFrame数据结构
常用属性显示索引、列标题及值:
df.columns:列标题
DataFrame数据结构
常用属性显示索引、列标题及值:
df.values:获取数据
DataFrame数据结构
常用属性显示索引、列标题及值:
d.T:行列转置
DataFrame数据结构
1、读取excel文件创建二维数据结构s
2、获取行索引
3、获取列标题
4、获取数据
二维数据结构,行索引默认从___开始
DataFrame数据结构
检索一列数据:
df.列名 df[“列名”]
检索多列数据:
df[[“列名”,”列名”,”列名”]]
DataFrame数据结构
某列数据扩大或缩小c倍:
df.列名*c df.列名/c
列数据进行计算(不可有空单元格)
df.列名+df.列名
DataFrame数据结构
检索行数据:
df [开始行索引:结束行索引]

df.loc[行索引]
DataFrame数据结构
筛选满足条件的若干行数据:
df[条件]
注:筛选满足多个条件时用连接符号:且用&,或用|,条件用()
df[(df.学校==“一中”)&( df.成绩>=99 )]
DataFrame数据结构
检索具体某个单元格的数据:
①df.at[行索引,"列名"]
②df["列名"][行索引] ,df.列名[行索引]
5、获取一列数据,获取多列数据
6、获取某行数据
7、筛选成绩大于90的若干行数据
8、检索具体某个单元格的数据
DataFrame数据结构
一、排序
①df. sort_values(“列名”,ascending=True/False,inplace=True/False)
排序方式:
True升序,False降序
不写默认升序
是否修改原数据:
True修改,False不修改
不写默认不修改
将排序结果重新赋值给变量时不需要修改原数据
df1=df. sort_values(“成绩”,ascending=False)
DataFrame数据结构
二、删除
①df. drop(行索引,inplace=True/False)
②df.drop(“列名”,axis=1, inplace=True/False)
将排序结果重新赋值给变量时不需要修改原数据
df1=df.drop(“人数”,axis=1)
不写默认不修改
DataFrame数据结构
三、分组
df.groupby(“列名”,as_index=True/False)
是否作为行索引
默认是True
DataFrame数据结构
1、按成绩列降序排序,赋给df1
2、删除成绩列,赋给df1
3、删除第三行,赋给df1
4、按班级分组求和,且班级不作为行索引
常用函数
①插入一列数据:df.insert(列位置,列标题,数据)
如df.insert(3,“测试”,data)
或df[“新增列名”]=数据
②追加函数:
df1=df.append({“学校”:”五中”,”分数”:85,人数:“7”},ignore_index=True)
DataFrame数据结构
常用函数
①统计非空数据项
df.count() #返回非空数据项的数量
DataFrame数据结构
②求和、求最大值、求最小值、求平均值
df.sum() #求某一列、某些列和
df.max() df.min() #返回最大值或最小值
df.mean() #求某一列、某些列平均值
DataFrame数据结构
③ df[“总分”]= df.sum(axis=1)
求某行数字的和
【全适用】
DataFrame数据结构
④df[“总分”]=df.成绩+df.人数
求某行数字的和
【单元格有空值不可用】
常用函数
④找出DataFrame的前/后多少行
df.head(2) #前两行
df.tail(2) #后两行
df.head() 参数不写,默认取前五行
DataFrame数据结构
4、插入一列数据
5、统计非空数据项个数、求平均值
6、取前两行、取后两行
7、按行求和

展开更多......

收起↑

资源预览