4.2.2大数据处理_利用pandas模块处理数据课件(共36张PPT) 浙教版高中信息技术必修一

资源简介

(共36张PPT)
利用pandas模块处理数据
常用数据处理模块
numpy模块：科学计算的基础库。
pandas模块：处理表格数据的库。
matplotlib模块：绘图库，可快速绘制图表。
导入pandas模块：
import pandas as pd
Pandas数据结构
Series数据结构：
一维数据结构，包含一组数据和一个与数据关联的行索引（index）。索引值默认从0开始递增。
Series数据结构
创建Series对象
列表创建Series数据结构。
import pandas as pd
s=pd.Series([166,178,180])
#创建Series对象时指定行索引
import pandas as pd
s=pd.Series([166,178,180],index=[“s01”,”s02”,”s03”])
Series数据结构
创建Series对象
字典创建Series数据结构。
字典的键作为行索引
import pandas as pd
a={“s01”:166,”s02”:178,”s03”:180}
s=pd.Series(a)
Series数据结构
常用属性
index：获取索引
values：获取数据
import pandas as pd
s=pd.Series([166,178,180],index=[“s01”,”s02”,”s03”])
for i in s.index:
print(i)
for j in s.values:
print(j)
Series数据结构
查看和修改Series对象中的数据
import pandas as pd
s=pd.Series([166,178,180],index=[“s01”,”s02”,”s03”])
print(s [“s01”]) #输出行索引为“s01”的值
s[“s01”]=170 #修改行索引为“s01” 的值为170
s[“s04”]=190 #添加新的数据
Pandas数据结构
DataFrame数据结构：
二维数据结构，由一个行索引、列标题和数据组成的数据结构。行索引默认从0开始
01
姓名性别
张三男
列标题
行索引
数据
李丽女
DataFrame数据结构
创建DataFrame对象
通过相等长度的列表创建DataFrame数据结构。行索引默认从0开始
import pandas as pd
data=[[“张三”, “男”],[“李丽”, “女”]]
s=pd.DataFrame(data,columns=[“姓名”,”性别”])
01
姓名性别
张三男
李丽女
DataFrame数据结构
创建DataFrame对象
通过相等长度的字典创建DataFrame数据结构。
字典的键作为列标题，字典的值作为数据
import pandas as pd
data={“姓名”：[“张三”,”李四”],”性别”：[“男”,”男”]}
s=pd.DataFrame(data)
DataFrame数据结构
读取文件创建DataFrame数据结构。
Excel
Pandas
DataFrame数据结构
创建DataFrame对象
读取二维数据文件创建DataFrame数据结构。
import pandas as pd
df=pd.read_csv(“2.csv”)
常用属性显示索引、列标题及值：
df.index：行索引
DataFrame数据结构
常用属性显示索引、列标题及值：
df.columns：列标题
DataFrame数据结构
常用属性显示索引、列标题及值：
df.values：获取数据
DataFrame数据结构
常用属性显示索引、列标题及值：
d.T：行列转置
DataFrame数据结构
1、读取excel文件创建二维数据结构s
2、获取行索引
3、获取列标题
4、获取数据
二维数据结构，行索引默认从___开始
DataFrame数据结构
检索一列数据：
df.列名 df[“列名”]
检索多列数据：
df[[“列名”,”列名”,”列名”]]
DataFrame数据结构
某列数据扩大或缩小c倍：
df.列名*c df.列名/c
列数据进行计算（不可有空单元格）
df.列名+df.列名
DataFrame数据结构
检索行数据：
df [开始行索引：结束行索引]
或
df.loc[行索引]
DataFrame数据结构
筛选满足条件的若干行数据：
df[条件]
注：筛选满足多个条件时用连接符号：且用&，或用|，条件用（）
df[（df.学校==“一中”）&（ df.成绩>=99 ）]
DataFrame数据结构
检索具体某个单元格的数据：
①df.at[行索引，"列名"]
②df["列名"][行索引] ，df.列名[行索引]
5、获取一列数据，获取多列数据
6、获取某行数据
7、筛选成绩大于90的若干行数据
8、检索具体某个单元格的数据
DataFrame数据结构
一、排序
①df. sort_values(“列名”，ascending=True/False，inplace=True/False)
排序方式：
True升序，False降序
不写默认升序
是否修改原数据：
True修改，False不修改
不写默认不修改
将排序结果重新赋值给变量时不需要修改原数据
df1=df. sort_values(“成绩”，ascending=False)
DataFrame数据结构
二、删除
①df. drop(行索引，inplace=True/False)
②df.drop(“列名”,axis=1, inplace=True/False)
将排序结果重新赋值给变量时不需要修改原数据
df1=df.drop(“人数”,axis=1)
不写默认不修改
DataFrame数据结构
三、分组
df.groupby(“列名”，as_index=True/False)
是否作为行索引
默认是True
DataFrame数据结构
1、按成绩列降序排序，赋给df1
2、删除成绩列，赋给df1
3、删除第三行，赋给df1
4、按班级分组求和，且班级不作为行索引
常用函数
①插入一列数据：df.insert(列位置，列标题，数据)
如df.insert(3，“测试”，data)
或df[“新增列名”]=数据
②追加函数：
df1=df.append({“学校”：”五中”,”分数”:85，人数：“7”}，ignore_index=True)
DataFrame数据结构
常用函数
①统计非空数据项
df.count（） #返回非空数据项的数量
DataFrame数据结构
②求和、求最大值、求最小值、求平均值
df.sum() #求某一列、某些列和
df.max() df.min() #返回最大值或最小值
df.mean() #求某一列、某些列平均值
DataFrame数据结构
③ df[“总分”]= df.sum(axis=1)
求某行数字的和
【全适用】
DataFrame数据结构
④df[“总分”]=df.成绩+df.人数
求某行数字的和
【单元格有空值不可用】
常用函数
④找出DataFrame的前/后多少行
df.head(2) #前两行
df.tail(2) #后两行
df.head() 参数不写，默认取前五行
DataFrame数据结构
4、插入一列数据
5、统计非空数据项个数、求平均值
6、取前两行、取后两行
7、按行求和

展开更多......

收起↑

请用微信扫码

4.2.2大数据处理_利用pandas模块处理数据 课件(共36张PPT) 浙教版高中信息技术必修一

4.2.2大数据处理_利用pandas模块处理数据 课件(共36张PPT) 浙教版高中信息技术必修一

4.2.2大数据处理_利用pandas模块处理数据课件(共36张PPT) 浙教版高中信息技术必修一

4.2.2大数据处理_利用pandas模块处理数据课件(共36张PPT) 浙教版高中信息技术必修一