8.3.1分类变量与列联表(大单元教学课件)(共31张PPT)(人教A版2019选择性必修第三册)

资源下载
  1. 二一教育资源

8.3.1分类变量与列联表(大单元教学课件)(共31张PPT)(人教A版2019选择性必修第三册)

资源简介

(共31张PPT)
人教A版(2019)选择性必修第三册
第八章 成对数据的统计分析
8.3.1分类变量与列联表
目录
学习目标
01
情景导入
02
新知探究
03
课本例题
04
05
课本练习
06
题型探究
方法归纳
08
07
课本习题
课堂小结
1.了解 探究分类变量之间关系的方法
2.制作、理解 2×2列联表,用频率分析法、图形分析法探究两个分类变量之间的关系
3.能够对统计数据进行简单整理、初步分析提升数学抽象、数据建模及数据分析素养
学习目标
饮用水的质量是人类普遍关心的问题,根据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人.
问题 人的身体健康状况与饮用水的质量之间有关系吗?

情景导入
变量
数值变量
分类变量
如何利用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法.我们先看下面的具体问题.
情景导入
例:人的身高;100米短跑所用时间;产品月销量
数值变量的取值为实数.其大小和运算都有实际含义.
两个数值变量之间的关系:回归分析法;
例:班级;性别;是否经常锻炼;是否每年体检
分类变量的取值可以用实数来表示;这些数值只作为编号使用,用来表示不同的类别;并没有通常的大小和运算意义.
例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示
某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
新知探究
性别
锻炼
合计
不经常(Y=0)
经常(Y=1)
女生(X=0)
192
331
523
男生(X=1)
128
473
601
合计
320
804
1124
方法1——由频率估计概率
????0=经常锻炼的女生数女生总数=331523≈0.633
?
????1=经常锻炼的男生数男生总数=473601≈0.787
?
????1>????0
?
结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼。
性别 在体育锻炼的经常性方面 是否存在差异呢?
性别
锻炼
合计
不经常(Y=0)
经常(Y=1)
女生(X=0)
192
331
523
男生(X=1)
128
473
601
合计
320
804
1124
方法2——借助条件概率
性别
锻炼
总计
不经常(Y=0)
经常(Y=1)
女生(X=0)
192
331
523
男生(X=1)
128
473
601
总计
320
804
1124
????(????=1|????=0)=????(????=1,????=0)????(????=0)=331523≈0.633
?
????(????=1|????=1)=????(????=1,????=1)????(????=1)=473601≈0.787
?
????(????=1|????=1)>????(????=1|????=0)
?
结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼。
性别 在体育锻炼的经常性方面 是否存在差异呢?
方法3——借助等高堆积条形图
性别
锻炼
总计
不经常(Y=0)
经常
(Y=1)
女生(X=0)
192
331
523
男生(X=1)
128
473
601
总计
320
804
1124
?
?
性别 在体育锻炼的经常性方面 是否存在差异呢?
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存. 我们将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数.
组别
甲(Y=0)
乙(Y=1)
合计
A(X=0)
a
b
a+b
B(X=1)
c
d
c+d
合计
a+c
b+d
a+b+c+d
概念归纳
例1 为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.
我们将所给数据整理成表
学校
数学成绩
合计
不优秀(Y=0)
优秀(Y=1)
甲校(X=0)
33
10
43
乙校(X=1)
38
7
45
合计
71
17
88
例题讲解
由等高堆积条形图可知,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
由2×2列联表可得,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为
作出等高堆积条形图如图示.
{5940675A-B579-460E-94D1-54222C63F5DA}
甲校
乙校
1.0
0.8
0.6
0.4
0.0
0.2
优秀
不优秀
学校
数学成绩
合计
不优秀(Y=0)
优秀(Y=1)
甲校(X=0)
33
10
43
乙校(X=1)
38
7
45
合计
71
17
88
思考 你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的. 有可能出现这种情况: 在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的. 这就是说,样本的随机性导致了两个频率间出现较大差异. 在这种情况下,我们推断出的结论就是错误的. 后面我们将讨论犯这种错误的概率大小问题.
1. 成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即老师的名声与学生的水平之间有关联. 你能举出更多的描述生活中两种属性或现象之间关联的成语吗?
解:例如水涨船高、登高望远等.
课堂练习
2. 例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件概率?为什么?
解:不能. 因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性. 在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具有随机性,这种推断可能犯错误. 因此,随机抽样数据不足以确定与X和Y有关的所有概率和条件概率.
3. 根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语. 那么
(1) 吸烟是否对每位烟民一定会引发健康问题?
(2) 有人说吸烟不一定引起健康问题,因此可以吸烟. 这种说法对吗?
解:(1) 从已掌握的知识来看,吸烟会损害身体的健康. 但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果. 吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者. 因此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题.
(2) 这种说法不正确. 虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一定引起健康问题,因此可以吸烟”的说法是不对的.
4. 假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如下的列联表:
性别
锻炼
合计
不经常
经常
女生
5
15
20
男生
6
18
24
合计
11
33
44
(1) 据此推断性别因素是否影响学生锻炼的经常性;
(2) 说明你的推断结论是否可能犯错,并解释原因.
性别
锻炼
合计
不经常(Y=0)
经常(Y=1)
女生(X=0)
5
15
20
男生(X=1)
6
18
24
合计
11
33
44
(1) 据此推断性别因素是否影响学生锻炼的经常性;
(2) 说明你的推断结论是否可能犯错,并解释原因.
解: (1)根据列联表中的数据,计算得男女生中不经常锻炼和经常锻炼的频率分别为
通过对比发现,男生中不经常锻炼和经常锻炼的频率与女生中不经常锻炼和经常锻炼的频率分别相等,依据频率稳定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1). 因此,可以认为性别对体育锻炼的经常性没有影响.
(2) 推断可能犯错误. 因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误.
【例1】某大学通过随机询问100名性别不同的大学生是否爱好某项运动后发现:爱好该项运动的男生有40人,接受调查的45名女生中有25人不爱好该项运动.请作出2×2列联表.
解:列表如下:
题型1 列2×2联表
是否爱好
性别
合计


爱好
40
20
60
不爱好
15
25
40
合计
55
45
100
题型探究方法归纳
分清类别是作列表的关键步骤.表中排成两行两列的数据是调查得来的结果.
题型2 用2×2列联表分析两分类变量间的关系
解:2×2列联表如下:
饮食情况
年龄
合计
在六十岁以上
在六十岁以下
以蔬菜为主
43
21
64
以肉类为主
27
33
60
合计
70
54
124
【例3】某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.
题型3 用等高堆积条形图分析两分类变量间的关系
解:作列联表如下:
考前心情
性格
合计
内向
外向
紧张
332
213
545
不紧张
94
381
475
合计
426
594
1 020
相应的等高堆积条形图如图所示:





图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.
利用等高堆积条形图判断两个分类变量是否相关的步骤
【例4】某工厂有工人1 000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人).现用分层随机抽样的方法(按A类、B类分两层)从该工厂的工人中抽取100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表:
表1:A类工人生产能力的频数分布表
规范答题样板
生产能力分组
[110,120)
[120,130)
[130,140)
[140,150)
人数
8
x
3
2
表2:B类工人生产能力的频数分布表
生产能力分组
[110,120)
[120,130)
[130,140)
[140,150)
人数
6
y
27
18
(1)确定x,y的值;
(2)完成下面2×2列联表:
工人类别
生产能力分组
合计
[110,130)
[130,150)
A类
?
?
?
B类
?
?
?
合计
?
?
?
【解题思路探究】第一步,审题.审结论明确解题方向,确定x,y的值,可用分层随机抽样解决.
审条件,挖解题信息,已知工厂中A,B类工人的人数和抽取工人数,进行分层随机抽样,可直接计算A,B类工人样本数.
第二步,确定解题步骤.
分层随机抽样确定A,B类工人抽取数→求x,y的值→完成列联表.
第三步,规范解答.
解:(1)∵从该工厂的工人中抽取100名工人,且该工厂中有250名A类工人,750名B类工人,
∴要从A类工人中抽取25名,从B类工人中抽取75名,
∴x=25-8-3-2=12,y=75-6-27-18=24.
工人类别
生产能力分组
合计
[110,130)
[130,150)
A类
20
5
25
B类
30
45
75
合计
50
50
100
(2)根据所给的数据可以完成列联表,如下表所示:
1.2×2列联表 —— 给出了两个分类变量数据的交叉分类频数
2.判断两个分类变量之间是否具有关联性的三种方法
图形分析法
频率分析法
条件概率法
这样得出的结论是否会出现错误呢?是由什么引起的?
课堂小结

展开更多......

收起↑

资源预览