4.2.2 编程处理数据课件(共29张PPT)-2023—2024学年浙教版（2019）高中信息技术必修1

资源简介

(共29张PPT)
第四章数据处理与应用
4.2 大数据处理
4.2.2 编程处理数据
学习目标
掌握pandas模块的两种数据结构Series和DataFrame。
学习使用pandas模块对数据进行编辑、计算、统计、分析。
能选用合适的方法和软件对数据进行简单可视化。
掌握运用matplotlib的pyplot子库的方法，学习和体会编程处理数据的方法和优势。
使用Python语言编程进行数据分析和挖掘，可以调用Python的扩展模块。
Python常用数据处理拓展模块：
Numpy模块：
科学运算的基础库，主要提供科学计算中常用的随机数、数组运算等基础函数。
Scipy模块：
基于numpy构建的一个模块，增强了在高等数学、信号处理、图像处理、统计等方面的处理能力。
Pandas模块：
基于numpy实现，提供了大量处理数据的函数和方法，能方便地操作大型数据集。
Matplotlib模块：
绘图库，使用pyplot子库中的函数快速绘图和设置图表坐标轴、坐标轴刻度、图例等。
知识点一：利用pandas模块处理数据
新课讲授
pandas提供了Series和DataFrame两种数据结构，可完成数据整理、计算、统计、分析及简单可视化。
在Python中引入pandas模块的方法如下：
import pandas as pd
Python模块的导入——import语句：
导入函数或模块到python代码中，实现代码复用。可为模块或函数指定别名。
import 模块名
调用：模块名.函数名（）
from 模块名 import 函数名
调用：函数名（）
import math
math.sqrt(64)
from math import sqrt
sqrt(64)
import 模块名 as 别名
调用：别名.函数名（）
from 模块名 import 函数名 as 别名
调用：别名（）
import math as sx
sx.sqrt(64)
from math import sqrt as sq
sq(64)
1.一维数据结构——Series
包含一个数组的数据（values）和一个与数据关联的索引（index），索引值默认是从0起递增的整数。列表、字典等能用来创建Series数据结构，与列表不同的是，Series的索引可以指定，类型可以为字符串型。
（1）创建Series对象
（2）查看Series对象中的数据
（3）Series对象的检索和修改
1.输出索引为0的值：
print(s2[0])
166
2.输出索引为's01'的值：
print(s2["s01"])
166
3.修改索引为2的值为190：
s2[2]=190
4.输出values小于180的行：
print(s2[s2<180])
2.二维数据结构——DataFrame
由1个索引列（index）和若干个数据列组成，每个数据列可以是不同的类型。DataFrame可以看作是共享同一个index的Series的集合。行索引类似于关系表中每行的编号，列标题类似于表格的列名（也称为字段）。
（1）创建DataFrame对象
用相等长度的字典创建：
（1）创建DataFrame对象
用相等长度的列表创建：
import pandas as pd
data=[[1,2,3],[3,4,5],[6,7,8]]
df1=pd.DataFrame(data,index=['a','b','c'],columns=['e','f','g'])
print(df1)
e f g
a 1 2 3
b 3 4 5
c 6 7 8
（1）创建DataFrame对象
读取二维数据文件创建：read_excel()函数读取Excel文件；read_csv()函数读取CSV文件
DataFrame对象导出到二维数据文件：to_excel()函数导出到Excel文件保存数据；to_csv()函数导出到CSV文件保存数据。
import pandas as pd
data=[[1,2,3],[3,4,5],[6,7,8]]
df1=pd.DataFrame(data,columns=['e','f','g'])
df1.to_csv('data.csv')
（2）对DataFrame对象的检索或修改
按照字段名称选取列：
df1['姓名'] #选取1列数据
df1[['姓名','借阅次数']] #选取2列或多列数据
按照字段位置选取列和行：
df.loc[0,:] #选取第1行的数据
df.loc[[0,1],:] #选取第1、2行的数据
选取满足条件的行：
df1[df1['借阅次数']>50] #选取df1对象中'借阅次数'大于50的数据行
根据行索引和列标签选取单个值：
df.at[0,'a'] #选取df对象第1行、'a'列的值
（3）DataFrame常用函数
DataFrame数据结构提供了丰富的函数，这些函数可以用来进行行、列编辑和统计计算等。
函数说明备注函数说明备注
count() 非空（NaN）数据项的数量 drop() 删除 axis=0/1默认为0（行）
不改变
sun() mean() 和平均值 axis=0/1默认为0纵向 append() 插入(追加行) 不改变
ignore_index默认为False使用原来的索引列
max() min() 最大值最小值 insert() 插入(追加列) 改变
describe() 各列的基本描述统计值包含计数、平均数、标准差、最大值、最小值及4分位差 rename() 修改列名或者索引默认不改变
head(n) tail(n) 前n行记录后n行记录 n省略默认5行 concat() 合并DataFrame对象不改变
groupby() 分组 as_index缺省默认True为新索引列不改变 set_value() 根据行标签和列标签设置单个值改变
sort_values() 排序ascending缺省默认True为升序 axis=0/1默认为0纵向不改变（inplace=True会改变，默认为False ） plot() 绘图
知识点二：利用matplotlib模块绘图
matplotlib是一个绘图库，使用其中的pyplot子库所提供的函数可以快速绘图和设置图表的坐标轴、坐标轴刻度、图例等。
在Python中引入matplotlib的pyplot子库的方法为：
import matplotlib.pyplot as plt
figure()语法说明
figure(num=None,figsize=None,dpi=None,facecolor=None,edgecolor=None,frameon=True）
num：图像编号或名称，数字为编号，字符串为名称。
figsize：接收元组类型的值，使用两个整数作为元素，指定图像的宽和高，单位是英寸。
dpi：图像分辨率，即每英寸多少个像素，缺省值为80。
facecolor：背景颜色，它只能接收字符串类型的颜色英文单词。
edgecolor：边框颜色
frameon：是否显示边框，接收的值True或False
代码示例如下所示：
import matplotlib.pyplot as plt
fig = plt.figure(num='标题',figsize =(4, 3),dpi=240,facecolor='orange',edgecolor='pink'，frameon=False)
plt.show()
plot()语法说明
color：指定线条的颜色。
linewidth：指定线条的宽度(磅)。
label：给线条指定一个图例名称。
代码示例如下所示：
import matplotlib.pyplot as plt
x=[0,1,2,3,4,5]
y=[1,6,2,5,3,4]
plt.plot(x,y,label='y',color='r',linewidth=2)
plt.legend() #显示图例
plt.show()
1.有Python程序段如下：
import pandas as pd
pd1 = pd.Series([1,2,3,4])
print(pd1.index)
该程序段运行后输出结果为（）
A. B. C. D.
0 1 1 2
1 2 2 3
2 3 3 4
3 4 4 5
随堂练习
A
2. 某DataFrame对象df，其中包含10个数据行和11个数据列，下列语句中能查看df对象中数据行的是（）
A.df.index
B.df.columns
C.df.tail()
D.df.count()
C

展开更多......

收起↑

请用微信扫码

4.2.2 编程处理数据 课件(共29张PPT)-2023—2024学年浙教版（2019）高中信息技术必修1

4.2.2 编程处理数据 课件(共29张PPT)-2023—2024学年浙教版（2019）高中信息技术必修1

4.2.2 编程处理数据课件(共29张PPT)-2023—2024学年浙教版（2019）高中信息技术必修1

4.2.2 编程处理数据课件(共29张PPT)-2023—2024学年浙教版（2019）高中信息技术必修1