第四章 数据处理与应用 课件 (共74张PPT) 2022—2023学年浙教版(2019)高中信息技术必修1

资源下载
  1. 二一教育资源

第四章 数据处理与应用 课件 (共74张PPT) 2022—2023学年浙教版(2019)高中信息技术必修1

资源简介

(共74张PPT)
高中信息技术必修一第四单元
大数据具有数据量大、数据来源与类型多样、处理速度快等特点,简单的表格处理软件已经无法满足大数据的处理需求,同时,大数据技术、理论和处理方法也在不断发展,为大数据的处理提供了越来越有力的支持。
大数据特征
1、数据体量大
2、速度快
3、数据类型多
4、价值密度低(数据非常多,但有用的只有一小部分)
静态数据:在处理时已收集完成、在计算时不会发生改变的数据
流数据:不间断地、持续地达到的实时数据,随着时间的流逝,流数据的价值也随着降低。
数据缺失
数据重复
数据异常
逻辑错误
格式不一
序号 姓名 性别 语文 数学 英语 总分 日期
1 小唐 男 98 120 125 343 2023-2-17
2 李好 5002354 78 112 125 315 2023-2-17
3 王小牛 女 100 98 2023-2-17
4 张三 女 170 100 200 470 2.17
5 麻花 女 96 52 68 216 2023-2-17
6 小唐 男 98 120 125 343 2023-2-17
1、字母代表列、数字代表行
2、单元格书写方式:列在前,行在后。例如:A25
3、单元格区域书写方式。A2:A11,A2:E5
数据计算——公式
公式的格式: = 表达式
其中表达式有运算符号,常量,单元格地址,函数以及括号组成。
=B4+100
=(A1+B1)/2
=B4*A4
例如:
=A2+B2
例题:某班级约定,每周进行操行评定,分为4个项目,回答问题、作业提交,迟到和早退。回答问题正确加2分,作业提交获得优加2分,迟到一次扣3分,早退一次扣5分。下表部分同学的操行评定情况。使用公式在F2单元格中,计算出操行总分
求和
求平均值
求最小值
求最大值
SUM( )
AVERAGE( )
MIN( )
MAX( )
函数定义
格式: 函数名(参数1,参数2……)
函数其实是一些预定义的公式,它们使用称为参数的特定数值按特定的顺序进行计算。
COUNTIF( )
指定区域中符合条件的单元格计数
SUMIF( )
指定范围中符合条件的值求和
AVERAGEIF( )
指定条件求平均值函数
Rank( )
大小排序
例:=sum(A2:A16)
例:=rank(A2 , A$2:A$16)
数据的计算——函数
使用函数计算高一一班的总分,和400米的最高分
RANK 函数:用来排名排序的函数
Number(数值):给谁排序就填谁
Ref(引用):参与排序的所有范围(一定要锁定!)
排位方式:0或忽略为降序,非零值为升序
行填充(横向填充):锁定列
列填充(竖向填充):锁定行
A B C
1 操作题 总分 排名
2 50 50
3 50 50
4 48.3 48.3
5 48.1 48.1
6 47 47
7 46.5 46.5
8 46.5 46.5
某学校高一年级一次月考结束后,老师用电子表格软件对数据进行处理,如图所示:
课堂练习-非选择题
请回答以下问题:
(1)该数据表是按照________科目进行________排列。
(2)该数据表中第二位同学没有总分,如果要用公式计算此同学的总分,公式为=________
(3)已知该校高一年级共有 200 名学生都参加了考试,要对全年级学生按照总分进行排名(相同分数名次需相同) ,可用到Rank函数,则在H3单元格中应该输入的Rank函数参数为________
降序
课堂练习
数学
D4+E4+F4+G4
=Rank(C3,C$3:C$202)
Countif函数:指定区域中符合条件的单元格计数
格式:=countif(数据区域,条件) “注意:区域要锁定”
在2017年,在建设高等院校“211工程”和“985工程”的基础上,国家推进“双一流”大学的建设,如图所示是西南三省211大学名单:
课堂练习
(1) 在电子表格软件中,我们一般通过 COUNTIF 函数计算区域中满足给定条件的单元格的个数。在上表的单元格F3 中,通过“COUNTIF(C3:C9,E3)”函数得到云南省的211 大学数量是1,COUNTIF函数中统计“云南省”211大学个数的数据区域是________
(2)得到云南省的 211 大学数量后,张华通过自动填充的方式,得到四川省的211大学个数为4,结果与实际不符,应该将单元格F3的函数修改为________
(3)如果要直观地表示各个省份 211 大学数量,可以应用哪种图表方式________
C3:C9
课堂练习
=COUNTIF(C$3:C$9,E3)
柱形图
格式:=SUMIF(计算区域,判断条件,求和区域)
sumif函数:按条件求和
“注意:区域要锁定”
高二年级的10位同学参加数学竞赛,成绩如下:
课堂练习
73
(1)在上表的G7单元格中,通过函数求出10 位同学的平均分是80.9,则应在该单元格输入的函数是________
(2) AVERAGEIF 是指定条件求平均值函数,上表所示的G3单元格就是通过 AVERAGEIF 函数求出指导教师是“王老师”的所有学生的平均成绩。如果用该函数求出 “刘老师”指导学生的平均分,则函数第二个参数应该填________
(3)如果要通过自动填充的方式得到G4和G5 单元格的值,则G3 单元格的函数式子应该改为: ________
=AVERAGE(C3:C12)
课堂练习
F4
=AVERAGEIF(D$3:D$12,F3, C$3:C$12)
If函数
格式:=if(条件判断,“结果为真的返回值”,“结果为假的返回值”)
Eg:=if(成绩>90,“优秀”, “合格”)
3. 高三年级的10位学生参加学校的物理竞赛,成绩如下:
课堂练习
94
(1)通过观察上表,获得一等奖的判断条件是:________
(2)物理老师通过电子表格软件的“IF函数”快速得到了学生的等级,那么“赵杰” 同学所获得“等级”单元格的函数编辑栏内的函数应该是: ________
(3)物理老师想把表中数据复制到新建数据表中进行编辑,但不想连同D列中的函数粘贴到新表,比较恰当的方式是: ________ (A.在新表中手动输入;B、选择性粘贴为数值C、选择性粘贴为图片)
成绩>=90分
课堂练习
=IF(C8>=90,“一等奖” ,“二等奖”)
B
P110 Excel表格
图表是用视觉形式向人们展示数据的一种方法。常见的图表类型有柱形图、折线图、饼图、雷达图、散点图、气泡图等。
注意:数值——柱形图;趋势——折线图;比例——饼图
项目较多——雷达图
图表呈现
python模块的小名儿
import 还有更多详细的用法,主要有以下两种:导入整个模块时,也可以为模块指定别名。
import 模块名1 [as 别名1]…
例如:import pandas as pd
pd.series( )
from 模块名 import 函数名1 [as 别名1],…
例如:from pandas import DataFrame as df
df ( )
pandas处理数据
数据处理可以使用现成的软件或平台,也可以通过编写程序实现。Python语言丰富的标准模块和扩展库提供了许多高效灵活的函数,可以帮助我们较好地进行数据整理。pandas主要用于数据的处理和分析。
pandas数据结构
1. Series(序列)
Series类似于一维数组,由一个数组的数据和一个与数据关联的索引(index),索引值默认是从0起递增的整数。
import pandas as pd
index:表示索引
pandas数据结构
2. DataFrame(数据值,行标签,列标签)
DataFrame是一种类似于关系表的表格型数据结构,DataFrame对象是一个二维表格,由1个索引列(index)和若干个数据列组成。其中,每列中的元素类型必须一致,而不同的列可以拥有不同的元素类型。
pandas数据结构
常用绘图函数
plot( )绘制线形图。
bar( )绘制垂直柱形图。
barh( )绘制水平柱形图。
scatter( )绘制散点图。
title( ) 设置图表的标题。
show( )显示创建的所有绘图对象。
Matplotlib——绘图
turtle——绘图
Import turtle as mypen
For x in range(40,0,-10):
mypen.circle(x)
Mypen.done( )
Import turtle as mypen
For x in range(4):
mypen.forward(50)
mypen.left(90)
Mypen.done( )
Import turtle as mypen
For x in range(3):
mypen.forward(50)
mypen.left(60)
Mypen.done( )
1、典型的文本处理过程主要包括
文本数据源→分词→特征提取→数据分析→结果呈现等。
2、中文分词分为:
基于词典(对比)
基于统计(频率)
基于规则(计算机模拟人的理解)
3、文本数据分析与应用
(1)标签云(大小和颜色表示关键词出现频次)
文本数据处理
1.可视化的基本方法
(1)有关时间趋势的可视化:可以采用柱形图、折线图等。
(2)有关比例的可视化:可以采用饼图、环形图(也称面包圈图)等。
(3)有关关系的可视化:可以使用散点图、气泡图等。
(4)有关差异的可视化:可以采用雷达图。
(5)有关空间关系的可视化:运用不同颜色或图表直接在地图上进行展示。
数据可视化 P133
横向对比分析法:是指对同类的两个或两个以上的事物进行的比较(同一学期,小王和小明俩人的成绩比较)
课堂练习
纵向对比分析法: 比较同一事物在不同时期的形态,是指对一个事物的历史、现状,乃至未来进行的比较。(不同学期,小明的单科成绩的比较)
平均分析法:指应用平均数对经济税源、税收现象进行比较分析的统计分析方法
结构分析法:是指对经济系统中各组成部分及其对比关系变动规律的分析
1.学习小组在调查同学的爱好情况,通过问卷收集了一些数据,小明负责去除数据中的重复部分,小明所做的工作是数据处理的哪一步( )
A.数据收集
B.数据整理
C.数据分析
D.数据呈现
B
课堂练习
P108 数据处理
1.学习小组在调查同学的爱好情况,通过问卷收集了一些数据,小明负责去除数据中的重复部分,小明所做的工作是数据处理的哪一步( )
A.数据收集
B.数据整理
C.数据分析
D.数据呈现
B
课堂练习
P108 数据处理
课堂练习
2.如图所示,某景区 2020 年某一周的人园游客数量图表,根据图表分析,下列结
论错误的是( )。
A.该图表是折线图
B.该图表是雷达图
C.周六的人园游客数量最多
D.为了分散一周游客人园数量,可以在周三举行门票打折活动
B
P134 可视化的基本方法
B
3. IF函数是电子表格软件中用来做条件判断的函数,单元格A2的值是90,如果在 A3 输入“=IF (A2 >=90,“合格”,“不合格”)”,确定后得到的结果是( )。
A.合格 B.不合格 C.90 D. NULL
A
课堂练习
P110 函数语法
4.在用电子表格软件处理某地部分市场菜篮子价格数据,如图所示。计算表中“平均值”列数据:选择单元格输入函数 (公式),然后用自动填充功能完成其他单元格平均值的计算。则I3 单元格中可使用的函数(公式)为( )
A.=SUM(C3,H3)/6
B. = (3.5+3+3+3+3+3)/6
C.=C3+D3+E3+F3+G3+H3/6
D.=AVERAGE(C3:H3)
D
课堂练习
P110 函数语法
5.某慈善总会接收抗击新型冠状病毒感染肺炎的捐赠物资,使用电子表格软件进行数据处理,若要统计“分类捐助总量”的数据,统计“N95口罩”的总量可修改F4单元格中的公式,并对G4:H4进行自动填充,统计出“84消毒液”和“医用防护服的总量,则F4单元格中的公式应修改为( )
[提示:SUMIF函数用于对区域中满足条件的单元格求和。例如:=SUMIF(B3: B3126,F3,C3:C3126)表示求 B3:B3126 区域中所有“N95 口罩”的总量]
A.=SUMIF(B3:$B3126,F3,$C3:$C3126)
B. =SUMIF(B$3:B$3126,F3,C$3:C$3126)
C. =SUMIF($B3:$B3126,F3,C$3:C$3126)
D. =SUMIF(B$3:B$3126,F3,$C3:$C3126)
A
课堂练习
P110 函数语法
课堂练习
6.学校体育教师对某班级进行三个项目的测试,部分同学体育成绩如下表:
图中数据存在的问题主要为( )。
A. 数据缺失
B. 数据重复
C. 数据逻辑错误
D. 数据格式不一致
B
课堂练习
P108 常见数据问题
7. 学校体育老师分别在8月3日和8月4 日对运动队队员进行体育测试,队员的体育成绩如下表:
图中数据存在的问题主要为( )。
A.数据缺失
B.数据重复
C.数据格式不一致
D.以上问题都存在
C
课堂练习
P108 常见数据问题
8. IBM副总裁Dietrich曾说过“可以利用社交平台数据获得用户对每个产品的评价,但是往往上百条记录中只有很少一部分真正讨论这款产品”。这主要体现了大数据的( )特征
A.数据体量大
B.数据类型多
C.数据变化速度快
D. 价值密度低
课堂练习
P114 大数据处理
D
10.下列关于“大数据”与“传统数据”的说法错误的是( )。
A.大数据的种类繁多,有短信、微信、视频、语音、电子邮件等产生的各种数据,也有各种传感器在交通监测、安防监测等过程中产生的大量数据
B.传统数据很难做到全样本数据的采集
C.所有数据都适合通过“大数据技术”进行处理种分析属
D.采集到的大数据会存在“数据冗余”的现象
课堂练习
C
P115 静态数据、流数据
11. 2020 年11月1日,正式开始第七次全国人口普查,普查信息除了普查员登记获取外,还可以通过手机小程序自主填报获取。后者的数据采集方式是( )。
A.实验数据采集
B.传感器采集
C.网络爬虫
D.网络数据采集
D
课堂练习
数据采集
12. 小明想要查看云南省近三年的气温数据,下列哪种方式最合适( )
A.百度搜索关键词
B.图书馆查阅资料
C.咨询地理老师
D.访问“国家气象科学数据中心”网站查看
D
课堂练习
数据采集
13. 智能手环可以检测使用者的心率、记录运动步数等,那么智能手环的功能体现了( )数据采集的应用。
A.统计报表
B.网络爬虫
C.传感器
D.实验数据采集
C
课堂练习
数据采集
14. 下列关于数据整理的说法错误的是( )
A.数据整理的目的是对数据进行校验和标准化
B.CSV 文件将数据表格存储为纯文本
C. 采集的数据只能保存为 CSV 文件
D.整理数据可以通过编写程序实现
C
课堂练习
P108 P126数据整理
15. Python 编程中的 pandas库常用来对数据进行预处理,分析下面的 Python 程序:程序运行以后输出的结果是 ( )。
RangeIndex (start =0, stop=3, step=1)
B. RangeIndex (start =0, stop=4, step=1)
C. 1 3 5 ok
D. 1 3 5
B
课堂练习
P120 pandas模块
16.我们在用 Python 进行数据分析的时候,经常会用到 pandas 库中的 DataFrame,这是类似于( )的数据结构。
A.一维表格
B.二维表格
C.三维表格
D.四维表格
B
课堂练习
P121 DataFrame
17. 在用 Python 编程对数据进行分析的时候,代码 pandas. DataFrame. sum( )执行的操作是( )。
A.返回所有列的和
B.返回所有行的和
C.返回所有数据中的最大值
D.返回所有数据中的最小值
A
课堂练习
P110 函数语法
18. 自新冠病毒感染肺炎疫情暴发以来,网络某大数据平台通过可视化数据图表实时更新全球疫情,如图是2020 年某一天的全球确诊病例情况。在对数据进行分析时,该种分析属于( )。
A.横向对比分析法
B.纵向对比分析法
C.平均分析法
D.结构分析法
A
课堂练习
P134
19.下列关于中文分词方法的描述中,属于基于词典的分词方法的是( )
A.在分析句子时与词典中的词语进行对比,词典中出现的就划分为词
B.依据上下文中相邻字出现的频率,同时出现的次数越高就越可能组成一个词
C. 让计算机模拟人的理解方式,根据大量的资料和规则进行学习,然后分词
D.依据词语与词语之间的空格进行分词
A
课堂练习
P129 中文分词
20. matplotlib库中的 pyplot 子库主要用来绘制图表,其中用来绘制散点图的函数是( )
A. plot ()
B. scatter()
C. title ()
D. show()
B
课堂练习
P125 常用的绘图函数
21.学校篮球队想给队员做一个学期的训练数据分析,数据包括了体能和技术中的8个小项,较为适合的数据图表呈现方式是( )。
A.折线图
B. 散点图
C. 热力图
D.雷达图
D
课堂练习
P134 可视化基本方法
22. 2020年10月29 日,党的十九届五中全会在北京闭幕,大会通过的公报文本的词云图如下,下列说法正确的是 ( )。
A.对文本分词后可直接创建词云图,无须特征提取
B.词云图必须显示该数据集包含的全部词语
C.通过词云图显示,词语“发展”比“体系”的出现频率高
D.最能表现文本特征的词有“建设”“国家”“实力”
C
课堂练习
P130 标签云
4. 在2017年,在建设高等院校“211工程”和“985工程”的基础上,国家推进“双一流”大学的建设,如图所示是西南三省211大学名单:
课堂练习
(1) 在电子表格软件中,我们一般通过 COUNTIF 函数计算区域中满足给定条件的单元格的个数。在上表的单元格F3 中,通过“COUNTIF(C3:C9,E3)”函数得到云南省的211 大学数量是1,COUNTIF函数中统计“云南省”211大学个数的数据区域是________
(2)得到云南省的 211 大学数量后,张华通过自动填充的方式,得到四川省的211大学个数为4,结果与实际不符,应该将单元格F3的函数修改为________
(3)如果要直观地表示各个省份 211 大学数量,可以应用哪种图表方式________
C3:C9
课堂练习
COUNTIF(C$3:C$9,E3)
P110 Excel表格
柱形图
5.现有5 名篮球队员在联赛中的比赛数据,如下图所示。
课堂练习
(1)上图右侧所示的图表类型是________ ;该图表呈现了周旋岷、成果汝两名队员的数据。则系列1和系列2 分别是________ (A. 周旋岷和成果汝;B. 成果汝和周旋岷)。
(2)通过电子表格软件对数据进行分析,计算5 名队员各项数据的平均值可以用到的函数是________
(3)如果把队员“高贤”的5. 项数据放在 Python 程序中的一个列表中,则代码为“GX= [6.8,1.9,2.1,1.90.4]”,那么GX [3]的值为_______
课堂练习
P110 Excel表格
雷达图
A
AVERAGE
1.9
6.学校的物理学习小组通过实验,得到了5 组弹簧伸长度 ΔX 和拉力F的数据。他们想利用 Python 编程绘制数据图进行相关结论的验证。
课堂练习
ΔX/cm 0.5 1 1.5 2 2.5
F /N 0.49 1.02 1.47 2.02 2.51
(1)通过 Python 编程对上述得到的数据进行了图形化表达,得到了如上图所示的图表,此图表我们称之为_______
(2)得到上图以后,同学们在程序第6 行加入了 pyplot.plot(ΔX,F)指令后,运行后将会出现什么效果_______
(3)pyplot 库中的函数常用来快速绘图和设置图表,则 pyplot 是哪一个库的子库: _______。(A. jieba;B. matplotlib; C. pandas)
课堂练习
P125 常用绘图函数
散点图
散点连线
B
7.高三5班毕业后,班长小明收集了同学们的信息后,做了一个班级通讯录。通讯录的内容包括:姓名、QQ、手机号、录取大学、大学所在城市5 项内容。
(1)小明是通过网络问卷的方式收集同学们的信息,则这种数据采集方式属于_______
(2)小明将网络问卷后台的数据导出后生成了一张CSV表格,他将数据整理后直接发在了微信朋友圈,他的这种做法对吗 请简要分析原因。_______
网络数据采集法
课堂练习
P108 数据
不对,包含个人信息的数据不应该直接公布,可以选择邮箱或者私信发送
(3)小明把同学们的“大学所在城市”这项数据导入词云图软件中,生成一个词云图,根据词云图可以知道,小明的同学去哪个城市上大学的最多 _______
北京
课堂练习
P130 标签云
8.词云图是目前常用的关键词可视化数据表达方式,下图是一个词云图示例。
课堂练习
P130 标签云
(1)词云图通常使用文字的_______和_______来表示关键词出现的频次示例词云图应该是对__________小说中人物出现频次进行分析后的结果。
(2)制作词云的方法很多,我们常用Python编程进行词云制作,则编写程序的指令顺序应该是__________ ( 分词; 导人文本; 保存词云图片; 特征提取,数据分析)。

课堂练习
P128 文本数据处理的过程
P130 标签云
颜色
大小
三国演义
9.在利用 Python 编程中,常常使用 matplotlib 库进行函数绘制,下图所示是通过8组数据绘制得到的曲线图像及部分代码。
课堂练习
P125 常用绘图函数
(1)绘制函数图主要用到matplotlib 库的子库是______
(2)上述 Python 程序的第9 行应该填写的关键代码是______
(3)通过观察这8 组数据的曲线变化趋势,推测此图像函数是______
pyplot
课堂练习
plt.plot(x,y)
Y=1/x
10.利用 Python编程处理数据的时候,经常会用到pandas库,其中一维数据结构是 Series,二维结构是 DataFrame。
import pandas
s= pandas.Series([6,8,9])
print(s[1])
(1)根据给出的 Python代码,运行结果是______
(2)如果运行的结果是6,则第3行代码应该是______
(3)将第3 行代码修改为 print(s.sum()),则运行结果是______
8
课堂练习
P120 121 Series DataFrame
print(s[0]);
23
11.某地图软件公司通过收集用户的定位数据,可以得到某一区域的人口流量大数据。如图所示是云南石林景区某两天的游客流量图。
课堂练习
(1)游客流量大数据可以报据使用手机地图软件的游客进行实时更新,这主要体观了大数据的___________________特征。
(2)上述图表我们称为______
(3)采集到国庆节放假前后两天的数据,通过______分析法直观呈现两天游客流量的情况。
数据变化速度快
课堂练习
折线图
P134 可视化的基本方法
对比
12.利用 Python 编程进行数据处理的时候,常用到pandas 库。如下图所示,通过调用pandas 库进行城市用水量的整理。
(1)上述代码中的“years”变量的数据类型是______
(2)上述代码运行后的结果是______
列表或list
课堂练习
A市2018年用水量:38
(3)加入哪条指令后会得到以下结果______
课堂练习
B
A.print (df. loc()); B. print (df); C. print (all) ;
13. 利用 Python 编程进行数据处理的时候,常用到 pandas库。如下图所示,通过调用 pandas 库进行成绩的整理。
课堂练习
列表或list
(1)上述代码中的“name”变量的数据类型是______
(2)在上述代码中添加“print(df.loc ["张华","数学"])”指令可以输出张的数学成绩为88,如果添加代码“print (df.loc["李明","英语"])”,则得到的结果是______
(3)第一行程序的注释可以写为______
96
导入pandas库

展开更多......

收起↑

资源预览