第八章 §8.3 列联表与独立性检验(课件+导学案)

资源下载
  1. 二一教育资源

第八章 §8.3 列联表与独立性检验(课件+导学案)

资源简介

(共99张PPT)
第八章
<<<
§8.3
列联表与独立性检验
1.理解独立性检验的基本思想及其实施步骤.
2.能利用等高堆积条形图、2×2列联表探讨两个分类变量的关联.
3.了解随机变量χ2的含义及作用.
4.通过对数据的处理,提高解决实际问题的能力.
学习目标
有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.为此,世界卫生组织固定每年5月31日为世界无烟日.那么这些疾病与吸烟有怎样的关系呢?
导 语
一、分类变量与列联表
二、等高堆积条形图的应用
随堂演练
三、独立性检验的综合应用
内容索引
课时对点练

分类变量与列联表
数值变量:数值变量的取值为 ,其大小和运算都有实际含义.
分类变量:我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为 ,分类变量的取值可以用 表示.
实数
分类变量
实数
分类变量的取值可以用实数来表示,例如男性,女性可以用1,0表示,学生所在的班级可以用1,2,3来表示.这些数值只作编号使用,并没有通常的大小和运算意义.分类变量是相对于数值变量来说的.
注 意 点
<<<
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了
9 965人,其中,不吸烟的7 817人中有42人患肺癌,吸烟的2 148人中有49人患肺癌,试分析吸烟是否对患肺癌有影响.
我们在研究“吸烟与患肺癌的关系”时,需要关注哪些量呢?请补全表格,并完成问题(1)(2).
问题1
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 42 7 817
吸烟者 49 2 148
合计 9 965
(1)在非吸烟者中患肺癌的比例为         ;
(2)在吸烟者中患肺癌的比例为    .
提示 吸烟患肺癌的人数;不吸烟患肺癌的人数;吸烟不患肺癌的人数;不吸烟不患肺癌的人数.
(1)0.54% (2)2.28%
说明:吸烟者和非吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 7 775 42 7 817
吸烟者 2 099 49 2 148
合计 9 874 91 9 965
2×2列联表
定义一对分类变量X和Y,我们整理数据如表所示:
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的 ;最后一列的前两个数分别是事件{X=0}和{X=1}的 ;中间的四个数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的 ;右下角格中的数n是 .
频数
频数
频数
样本容量
 在研究某种药物对“H1N1”病毒的治疗效果时,进行了动物试验,得到以下数据:对150只动物进行药物治疗,其中132只动物存活,18只动物死亡,对150只动物进行常规治疗,其中114只动物存活,36只动物死亡.请根据以上数据建立一个2×2列联表.
例 1
2×2列联表如表所示:
治疗方法 治疗效果 合计
存活 死亡
药物治疗 132 18 150
常规治疗 114 36 150
合计 246 54 300
作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.




 为了解对某班学生经常打篮球和性别是否有关,对该班40名学生进行了问卷调查,得到如下的2×2列联表.
跟踪训练 1
性别 打篮球 合计
经常 不经常
男生 m 4 20
女生 8 20
合计 n 40
则m=   ,n=   .
16
16
依题意可得列联表如下.
性别 打篮球 合计
经常 不经常
男生 16 4 20
女生 8 12 20
合计 24 16 40
故m=n=16.

等高堆积条形图的应用
问题1中“为调查吸烟是否对患肺癌有影响”,我们还能够从图形中得到吸烟与患肺癌之间的关系吗?
问题2
提示 从图形中可得出吸烟者患肺癌的可能性大.
1.等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
2.观察等高堆积条形图发现与相差很大,就判断两个分类变量之间有关系.
 为了解铅中毒与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如表所示.
例 2
试画出列联表的等高堆积条形图,分析铅中毒病人组和对照组的尿棕色素阳性数有无差别,铅中毒与尿棕色素为阳性是否有关系.
组别 尿棕色素 合计
阳性数 阴性数
铅中毒病人组 29 7 36
对照组 9 28 37
合计 38 35 73
等高堆积条形图如图所示.
其中两个浅色条的高分别代表铅中毒
病人组和对照组样本中尿棕色素为阳
性的频率.
由图可以直观地看出铅中毒病人组与对照组的尿棕色素为阳性的频率差异明显,因此铅中毒与尿棕色素为阳性有关系.




(1)收集数据,统计结果.
(2)列出2×2列联表,计算频率.
(3)画等高堆积条形图,直观分析.
利用等高堆积条形图判断两个分类变量是否有关联的步骤
 某矿石粉厂生产一种矿石粉时,数天内就有部分工人患职业性皮肤炎.在生产季节期间,随机抽取车间工人抽血化验,75名穿新防护服的工人中5例阳性,70例阴性,28名穿旧防护服的工人中10例阳性,18例阴性,请用等高堆积条形图判断这种新防护服对预防工人职业性皮肤炎是否有效.(注:显阴性即未患皮肤炎)
跟踪训练 2
2×2列联表如表所示.
防护服 皮肤炎 合计
阳性例数 阴性例数
穿新防护服 5 70 75
穿旧防护服 10 18 28
合计 15 88 103
相应的等高堆积条形图
如图所示.
图中两个深色条的高分别表示穿新、旧防护服样本中呈阳性的频率,从图中可以看出,穿旧防护服呈阳性的频率明显高于穿新防护服呈阳性的频率.因此,可以认为新防护服对预防这种皮肤炎有效.

独立性检验的综合应用
提示 假设H0表示{X=1}和{Y=1}无关(通常称H0为零假设).
由2×2列联表,如何假设事件{X=1}和{Y=1}之间的关系?
问题3
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
提示 相互独立.
在问题3中,假若分类变量X与Y没有关联,则{X=1}与{Y=1},{X=0}与{Y=1},{X=0}与{Y=0},{X=1}与{Y=0}有什么关系?
问题4
1.独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“ ”,简称 .
2.χ2=__________________,其中n=a+b+c+d.
卡方独立性检验
独立性检验
(1)χ2越小,独立性越强,相关性越弱;χ2越大,独立性越弱,相关性越强.
(2)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2注 意 点
<<<
 (1)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,年龄低于40岁的占60%,记录其年龄和是否佩戴安全头盔的情况,得到2×2列联表如表所示.
例 3
①完成上面的列联表;
年龄 安全头盔 合计
佩戴 未佩戴
低于40岁 540
不低于40岁
合计 880 1 000
年龄低于40岁的有1000×60%=600(人),
完成2×2列联表如表所示.
年龄 安全头盔 合计
佩戴 未佩戴
低于40岁 540 60 600
不低于40岁 340 60 400
合计 880 120 1 000
②依据小概率值α=0.01的独立性检验,能否认为遵守佩戴安全头盔与年龄有关?
附:χ2=,其中n=a+b+c+d.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
零假设为H0:遵守佩戴安全头盔与年龄无关,
由公式得χ2==≈5.682<6.635=x0.01,
∴根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,
因此可以认为H0成立,
即认为遵守佩戴安全头盔与年龄无关.
(2)为了了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查,得到如下列联表.
已知从这30名学生中随机抽取1人,抽到肥胖学生的概率为.
①请将上面的列联表补充完整;
肥胖 碳酸饮料 合计
常喝 不常喝
肥胖者 2
不肥胖者 18
合计 30
因为从这30名学生中随机抽取1人,抽到肥胖学生的概率为,
所以这30名学生中,肥胖学生的人数为30×=8,完善2×2列联表如表所示.
肥胖 碳酸饮料 合计
常喝 不常喝
肥胖者 6 2 8
不肥胖者 4 18 22
合计 10 20 30
②依据小概率值α=0.005的独立性检验,能否认为肥胖与常喝碳酸饮料有关?
附:χ2=,其中n=a+b+c+d.
α 0.100 0.050 0.010 0.005
xα 2.706 3.841 6.635 7.879
零假设为H0:肥胖与常喝碳酸饮料无关,
由公式得χ2=≈8.523>7.879=x0.005,
依据小概率值α=0.005的独立性检验,推断H0不成立,即认为肥胖与常喝碳酸饮料有关.




(1)零假设:即先假设两变量无关.
(2)计算χ2:套用χ2的公式求得χ2值.
(3)查临界值:结合所给小概率值α查得相应的临界值xα.
(4)下结论:比较χ2与xα的大小,并作出结论.
独立性检验的一般步骤
 某省进行高中新课程改革,为了解教师对新课程教学模式的使用情况,某教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
①根据以上数据建立一个2×2列联表;
跟踪训练 3
2×2列联表如表所示:
教师年龄 对新课程教学模式的态度 合计
赞同 不赞同
老教师 10 10 20
青年教师 24 6 30
合计 34 16 50
②试根据小概率值α=0.01的独立性检验,分析对新课程教学模式的态度与教师年龄是否有关系.
附表:
α 0.05 0.01 0.005
xα 3.841 6.635 7.879
零假设为H0:对新课程教学模式的态度与教师年龄无关.
由公式得
χ2=≈4.963<6.635=x0.01,
根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为对新课程教学模式的态度与教师年龄无关.
1.知识清单:
(1)分类变量.
(2)2×2列联表,等高堆积条形图.
(3)独立性检验、χ2公式.
2.方法归纳:数形结合.
3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题.
随堂演练

1
2
3
4
1.某厂家为了解顾客对改进后产品的满意度,随机调查了相同数量的男、女顾客,经统计有的男顾客“不满意”,有的女顾客“不满意”,若依据小概率值α=0.01的独立性检验,认为对产品是否满意与性别有关,则调查的总人数可能为
参考公式:χ2=,其中n=a+b+c+d.
附表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.150 B.168 C.192 D.156

1
2
3
4
依题意,设男、女顾客的人数各为12x.
建立2×2列联表如表所示:
χ2==,
由题意可知≥6.635,所以24x≥179.145.
满意 不满意 合计
男生 10x 2x 12x
女生 8x 4x 12x
合计 18x 6x 24x
2.(多选)如图是调查某地区男、女中学生对数学的态度的等高堆积条形图,阴影部分表示喜欢数学的百分比,由图可以看出
A.性别与喜欢数学无关
B.女生中喜欢数学的百分比约为80%
C.男生比女生喜欢数学的可能性大
D.男生中不喜欢数学的百分比约为40%
1
2
3
4


1
2
3
4
由题图知女生中喜欢数学的百分比约为20%,男生中不喜欢数学的百分比约为40%,男生比女生喜欢数学的可能性大,故A,B不正确,C,D正确.
3.考察棉花种子经过处理与生病之间的关系,得到如表中的数据:
1
2
3
4
依据小概率值α=0.1的独立性检验,根据以上数据可得出
A.种子经过处理与生病有关
B.种子经过处理与生病无关
C.种子经过处理决定生病
D.种子经过处理与生病有关的推断犯错误的概率不超过0.1
生病 棉花种子 合计
处理 未处理
得病 32 101 133
不得病 61 213 274
合计 93 314 407

1
2
3
4
χ2=≈0.164<2.706=x0.1,依据小概率值α=0.1的独立性检验,认为种子经过处理与生病无关.
4.在如表所示的2×2列联表中,d=   .
1
2
3
4
24
性别 外语 合计
会 不会
男 a b 20
女 6 d
合计 18 50
1
2
3
4
由题意得
所以a=12,b=8,d=24.
课时对点练

1.对于分类变量X与Y的随机变量χ2,下列说法正确的是
A.χ2越大,“X与Y有关联”的可信程度越小
B.χ2越小,“X与Y有关联”的可信程度越小
C.χ2越接近于0,“X与Y无关联”的可信程度越小
D.χ2越大,“X与Y无关联”的可信程度越大
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
基础巩固

对于分类变量X与Y的随机变量χ2,χ2越大,“X与Y有关联”的可信程度越大;χ2越小,“X与Y有关联”的可信程度越小.
2.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
年龄 体检 合计
每年体检 未每年体检
老年人 a 7 c
年轻人 6 b d
合计 e f 50
已知抽取的老年人、年轻人各25名,则对列联表数据的分析错误的是
A.a=18 B.b=19 C.c+d=50 D.e-f=2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
由题意得,a+7=c=25,6+b=d=25,a+6=e,7+b=f,e+f=50,
所以a=18,b=19,c+d=50,e=24,f=26,
则e-f=-2.
3.为考察A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高堆积条形图.根据图中信息,在下列各项中,说法最佳的一项是
A.药物B的预防效果优于药物A的预防
效果
B.药物A的预防效果优于药物B的预防
效果
C.药物A,B对该疾病均有显著的预防
效果
D.药物A,B对该疾病均没有预防效果

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
根据两个表中的等高堆积条形图知,药物A实验显示不服药与服药时患病差异明显比药物B实验大,所以药物A的预防效果优于药物B的预防效果.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
4.某课外兴趣小组通过随机调查,利用2×2列联表和χ2独立性检验研究数学成绩优秀是否与性别有关.计算得χ2=6.748,经查阅临界值表知P(χ2≥6.635)=0.01,则下列判断正确的是
A.每100个数学成绩优秀的人中就会有1名是女生
B.若某人数学成绩优秀,那么他为男生的概率是0.01
C.依据小概率值α=0.01的独立性检验,认为“数学成绩优秀与性别无关”
D.在犯错误的概率不超过1%的前提下,认为“数学成绩优秀与性别有关”

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
∵χ2=6.748≥6.635=x0.01,∴依据小概率值α=0.01的独立性检验,认为“数学成绩优秀与性别有关”,即在犯错误的概率不超过1%的前提下,认为“数学成绩优秀与性别有关”.
5.(多选)有两个分类变量X,Y,其2×2列联表如表所示:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
其中a,15-a均为大于5的整数,若依据小概率值α=0.05的独立性检验,认为X,Y有关,则a的值为
A.6 B.7 C.8 D.9

X Y 合计
Y1 Y2
X1 a 20-a 20
X2 15-a 30+a 45
合计 15 50 65

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
由题意可知
χ2=
=≥3.841=x0.05,根据a>5,
且15-a>5,a∈Z,得当a=8或a=9时满足题意.
6.(多选)某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关联,面向学生开展了一次随机调查,其中参加调查的男、女生人数相同,男生中喜欢攀岩的占80%,女生中不喜欢攀岩的占70%,则
参考公式:χ2=.
A.参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男、女生人数均为100,则依据小概率值α=0.001的独立性检验,
认为喜欢攀岩和性别有关联
D.从样本估计总体的角度看,参与调查的男、女生人数越多,得出“喜欢攀岩与
性别有关联”这一结论的可信度越高
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
由题意设参加调查的男、女生人数均为m,则得到如下2×2列联表:
所以参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多,参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数少,故A正确,B错误;
性别 攀岩 合计
喜欢 不喜欢
男生 0.8m 0.2m m
女生 0.3m 0.7m m
合计 1.1m 0.9m 2m
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
由列联表中的数据,计算得到
χ2==,
当m=100时,
χ2==≈50.505>10.828=x0.001,
所以当参与调查的男、女生人数均为100时,依据小概率值α=0.001的独立性检验,认为喜欢攀岩和性别有关联,故C正确;
根据公式,m越大,χ2也越大,所以得出“喜欢攀岩与性别有关联”这一结论的可信度越高,D正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
7.如图是调查某学校高一年级男、女学生是否喜欢徒步运动而得到的等高堆积条形图,阴影部分表示喜欢徒步的频率.已知该年级男生500人、女生400人(假设所有学生都参加了调查),现从所有
喜欢徒步的学生中用比例分配的分层随机抽样的方
法抽取23人,则抽取的男生人数为  .
15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
根据等高堆积条形图可知,喜欢徒步的男生人数为0.6×500=300,喜欢徒步的女生人数为0.4×400=160,所以喜欢徒步的总人数为300+160=460,用比例分配的分层随机抽样的方法抽取23人,则抽取的男生人数为×23=15.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
8.在第24届北京冬季奥林匹克运动会中,为了解运动员的饮食习惯,对30名运动员的饮食习惯进行了一次调查,依据统计所得数据可得到如下的2×2列联表:
根据以上列联表中的数据,依据小概率值α=    的独立性检验,认为运动员饮食习惯与性别有关.
0.005
性别 饮食习惯 合计
中餐 西餐
女性 d 8 c
男性 16 2 18
合计 a b 30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
参考公式:χ2=,
其中n=a+b+c+d.
附表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
由列联表可得a=20,b=10,c=12,d=4,
可得χ2==10>7.879=x0.005,所以依据小概率值α=0.005的独立性检验,认为运动员饮食习惯与性别有关.
性别 饮食习惯 合计
中餐 西餐
女性 d 8 c
男性 16 2 18
合计 a b 30
9.某校在两个班进行教学方式的对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如表所示(单位:人):
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
班级 成绩 合计
80及80分以上 80分以下
试验班 35 15 50
对照班 20 m 50
合计 55 45 n
(1)求m,n的值;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
班级 成绩 合计
80及80分以上 80分以下
试验班 35 15 50
对照班 20 m 50
合计 55 45 n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
由表得,m=50-20=30,n=55+45=100,即m=30,n=100.
班级 成绩 合计
80及80分以上 80分以下
试验班 35 15 50
对照班 20 m 50
合计 55 45 n
(2)能否在犯错误的概率不超过0.005的前提下认为教学方式与成绩有关系?
参考公式:χ2=,其中n=a+b+c+d.
附表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
α 0.010 0.005 0.001
xα 6.635 7.879 10.828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
零假设为H0:教学方式与成绩无关.
由表得χ2=≈9.091>7.879=x0.005,依据小概率值α=0.005的独立性检验,我们推断H0不成立,所以能在犯错误的概率不超过0.005的前提下认为教学方式与成绩有关系.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
10.某校对有心理障碍的学生进行测试得到如下列联表:
性别 心理障碍 合计
焦虑 说谎 懒惰
女生 5 10 15 30
男生 20 10 50 80
合计 25 20 65 110
试说明在这三种心理障碍中哪一种与性别关系最大?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
对于题中三种心理障碍焦虑、说谎、懒惰分别构造三个随机变量.
由表中数据列出焦虑是否与性别有关的2×2列联表:
性别 焦虑 合计
焦虑 不焦虑
女生 5 25 30
男生 20 60 80
合计 25 85 110
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
零假设为H0:焦虑与性别无关.
可得=
≈0.863<2.706=x0.1,
根据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为焦虑与性别无关.
同理得=≈6.366>3.841=x0.05,
依据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为说谎与性别有关.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
同理得=≈1.410<2.706=x0.1.
依据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为懒惰与性别无关.
综上,三种心理障碍中说谎与性别关系最大.
11.(多选)某市为了研究该市空气中的PM2.5浓度和SO2浓度之间的关系,环境监测部门对该市空气质量进行调研,随机抽查了100天空气中的PM2.5浓度和SO2浓度(单位:μg/m3),得到如下所示的2×2列联表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
综合运用
PM2.5 SO2 合计
[0,150] (150,475]
[0,75] 64 16 80
(75,115] 10 10 20
合计 74 26 100
经计算χ2=≈7.484 4,则可以推断出
附:χ2=,n=a+b+c+d.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
A.该市一天空气中PM2.5浓度不超过75 μg/m3,且SO2浓度不超过150 μg/m3的概率估
计值是0.64
B.若2×2列联表中的天数都扩大到原来的10倍,χ2的值不会发生变化
C.根据小概率值α=0.01的独立性检验,可以认为该市一天空气中PM2.5浓度与SO2浓度
有关
D.在犯错的概率不超过0.01的条件下,认为该市一天空气中PM2.5浓度与SO2浓度有关
α 0.05 0.01 0.001
xα 3.841 6.635 10.828



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
对于A,该市一天空气中PM2.5浓度不超过75 μg/m3,且SO2浓度不超过150 μg/m3的概率估计值是P==0.64,选项A正确;
对于B,2×2列联表中的天数都扩大到原来的10倍,计算得到
(χ2)'==10χ2,
所以χ2的值变为原来的10倍,选项B错误;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
对于C,D,因为χ2≈7.484 4>6.635,根据小概率值α=0.01的独立性检验,可以认为该市一天空气中PM2.5浓度与SO2浓度有关,该推断犯错的概率不超过0.01,选项C,D正确.
12.(多选)为了解阅读量多少与幸福感强弱之间的关系,某调查机构根据所得到的数据,绘制了如下的2×2列联表(个别数据暂用字母表示):
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
阅读量 幸福感 合计
幸福感强 幸福感弱
阅读量多 m 18 72
阅读量少 36 n 78
合计 90 60 150
计算得χ2≈12.981,参照下表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
下列选项中正确的有
A.根据小概率值α=0.01的独立性检验,可以认为“阅读量多少与幸福感
强弱无关”
B.m=54
C.根据小概率值α=0.005的独立性检验,可以认为“阅读量多少与幸福感
强弱有关”
D.n=52


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
零假设为H0:阅读量多少与幸福感强弱无关,
∵ χ2≈12.981>6.635=x0.01,且χ2≈12.981>7.879=x0.005,
∴根据小概率值α=0.01的独立性检验,可以认为“阅读量多少与幸福感强弱有关”,
根据小概率值α=0.005的独立性检验,可以认为“阅读量多少与幸福感强弱有关”,∴A错,C对;
∵m+36=90,18+n=60,∴m=54,n=42,∴B对,D错.
13.(多选)在一次恶劣气候的飞行航程中,调查男女乘客在飞机上晕机的情况如表所示:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
性别 晕机情况 合计
晕机 不晕机
男 a 15 a+b
女 6 d c+d
合计 a+c 28 46
参考公式:χ2=,其中n=a+b+c+d.
附表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
则下列说法中正确的是
A.>
B.χ2<2.706
C.依据小概率值α=0.1的独立性检验,可以认为在恶劣气候飞行中,晕机与性别有关
D.没有理由认为在恶劣气候飞行中,晕机与性别有关



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
由列联表数据,得d=28-15=13,
c+d=6+13=19,a+b=46-19=27,
a=27-15=12,a+c=12+6=18.
填表如下:
性别 晕机情况 合计
晕机 不晕机
男 12 15 27
女 6 13 19
合计 18 28 46
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
所以===,
>,所以A正确;
计算χ2=≈0.775<2.706=x0.1,所以B正确;
则没有理由认为在恶劣气候飞行中,晕机与性别有关,所以C错误,D正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
14.某种疾病可分为A,B两种类型,为了解该疾病的类型与患者性别是否相关,在某地区随机抽取了若干名该疾病的患者进行调查,发现女性患者人数是男性患者的2倍,男性患A型疾病的人数占男性患者的,女性患A型疾病的人数占女性患者的.若本次调查得出“在犯错误的概率不超过0.005的前提下,认为所患疾病的类型与性别有关”的结论,则被调查的男性患者至少有  人.
参考公式:χ2=,其中n=a+b+c+d.
附表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
12
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
设男性患者有x人,则女性患者有2x人,得2×2列联表如下.
性别 疾病类型 合计
A型疾病 B型疾病
男 x
女 2x
合计 3x
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
零假设为H0:患者所患疾病类型与性别无关.根据列联表中的数据,
经计算得到χ2==,
要使在犯错误的概率不超过0.005的前提下,认为所患疾病类型与性别有关,
则≥7.879,解得x≥11.818 5,
因为∈N*,∈N*,所以x的最小整数值为12,
因此,男性患者至少有12人.
15.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图所示:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
拓广探究
(1)根据频率分布直方图,填写下面的2×2列联表;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
养殖法 箱产量 合计
箱产量<50 kg 箱产量≥50 kg
旧养殖法
新养殖法
合计
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
由频率分布直方图,知旧养殖法箱产量低于50 kg的箱数为5×(0.012+0.014+0.024+0.034+0.040)×100=
0.62×100=62,
不低于50 kg的箱数为100-62=38;
新养殖法箱产量低于50 kg的箱数为(0.004+0.020+0.044)×5×100=34,不低于50 kg
的箱数为100-34=66.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
由此可得列联表如下.
养殖法 箱产量 合计
箱产量<50 kg 箱产量≥50 kg
旧养殖法 62 38 100
新养殖法 34 66 100
合计 96 104 200
(2)根据小概率值α=0.01的独立性检验,分析箱产量与养殖方法是否有关.
附:P(χ2≥6.635)=0.01,
χ2=,n=a+b+c+d.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
零假设为H0:箱产量与养殖方法无关.
结合(1)中列联表得χ2=≈15.705>6.635=x0.01,
所以根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为箱产量与养殖方法有关.[学习目标] 1.理解独立性检验的基本思想及其实施步骤.2.能利用等高堆积条形图、2×2列联表探讨两个分类变量的关联.3.了解随机变量χ2的含义及作用.4.通过对数据的处理,提高解决实际问题的能力.
一、分类变量与列联表
知识梳理
数值变量:数值变量的取值为     ,其大小和运算都有实际含义.
分类变量:我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为        ,分类变量的取值可以用    表示.
问题1 为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9 965人,其中,不吸烟的7 817人中有42人患肺癌,吸烟的2 148人中有49人患肺癌,试分析吸烟是否对患肺癌有影响.
我们在研究“吸烟与患肺癌的关系”时,需要关注哪些量呢?请补全表格,并完成问题(1)(2).
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 42 7 817
吸烟者 49 2 148
合计 9 965
(1)在非吸烟者中患肺癌的比例为  ;
(2)在吸烟者中患肺癌的比例为    .
知识梳理
2×2列联表
定义一对分类变量X和Y,我们整理数据如表所示:
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的     ;最后一列的前两个数分别是事件{X=0}和{X=1}的    ;中间的四个数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的    ;右下角格中的数n是        .
例1 在研究某种药物对“H1N1”病毒的治疗效果时,进行了动物试验,得到以下数据:对150只动物进行药物治疗,其中132只动物存活,18只动物死亡,对150只动物进行常规治疗,其中114只动物存活,36只动物死亡.请根据以上数据建立一个2×2列联表.
反思感悟 作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.
跟踪训练1 为了解对某班学生经常打篮球和性别是否有关,对该班40名学生进行了问卷调查,得到如下的2×2列联表.
性别 打篮球 合计
经常 不经常
男生 m 4 20
女生 8 20
合计 n 40
则m=    ,n=    .
二、等高堆积条形图的应用
问题2 问题1中“为调查吸烟是否对患肺癌有影响”,我们还能够从图形中得到吸烟与患肺癌之间的关系吗?
知识梳理
1.等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
2.观察等高堆积条形图发现与相差很大,就判断两个分类变量之间有关系.
例2 为了解铅中毒与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如表所示.
组别 尿棕色素 合计
阳性数 阴性数
铅中毒病人组 29 7 36
对照组 9 28 37
合计 38 35 73
试画出列联表的等高堆积条形图,分析铅中毒病人组和对照组的尿棕色素阳性数有无差别,铅中毒与尿棕色素为阳性是否有关系.
反思感悟 利用等高堆积条形图判断两个分类变量是否有关联的步骤
(1)收集数据,统计结果.
(2)列出2×2列联表,计算频率.
(3)画等高堆积条形图,直观分析.
跟踪训练2 某矿石粉厂生产一种矿石粉时,数天内就有部分工人患职业性皮肤炎.在生产季节期间,随机抽取车间工人抽血化验,75名穿新防护服的工人中5例阳性,70例阴性,28名穿旧防护服的工人中10例阳性,18例阴性,请用等高堆积条形图判断这种新防护服对预防工人职业性皮肤炎是否有效.(注:显阴性即未患皮肤炎)
三、独立性检验的综合应用
问题3 由2×2列联表,如何假设事件{X=1}和{Y=1}之间的关系?
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
问题4 在问题3中,假若分类变量X与Y没有关联,则{X=1}与{Y=1},{X=0}与{Y=1},{X=0}与{Y=0},{X=1}与{Y=0}有什么关系?
知识梳理
1.独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“             ”,简称        .
2.χ2=  ,
其中n=a+b+c+d.
例3 (1)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,年龄低于40岁的占60%,记录其年龄和是否佩戴安全头盔的情况,得到2×2列联表如表所示.
年龄 安全头盔 合计
佩戴 未佩戴
低于40岁 540
不低于40岁
合计 880 1 000
①完成上面的列联表;
②依据小概率值α=0.01的独立性检验,能否认为遵守佩戴安全头盔与年龄有关?
附:χ2=,其中n=a+b+c+d.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
(2)为了了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查,得到如下列联表.
肥胖 碳酸饮料 合计
常喝 不常喝
肥胖者 2
不肥胖者 18
合计 30
已知从这30名学生中随机抽取1人,抽到肥胖学生的概率为.
①请将上面的列联表补充完整;
②依据小概率值α=0.005的独立性检验,能否认为肥胖与常喝碳酸饮料有关?
附:χ2=,其中n=a+b+c+d.
α 0.100 0.050 0.010 0.005
xα 2.706 3.841 6.635 7.879
反思感悟 独立性检验的一般步骤
(1)零假设:即先假设两变量无关.
(2)计算χ2:套用χ2的公式求得χ2值.
(3)查临界值:结合所给小概率值α查得相应的临界值xα.
(4)下结论:比较χ2与xα的大小,并作出结论.
跟踪训练3 某省进行高中新课程改革,为了解教师对新课程教学模式的使用情况,某教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
①根据以上数据建立一个2×2列联表;
②试根据小概率值α=0.01的独立性检验,分析对新课程教学模式的态度与教师年龄是否有关系.
附表:
α 0.05 0.01 0.005
xα 3.841 6.635 7.879
1.知识清单:
(1)分类变量.
(2)2×2列联表,等高堆积条形图.
(3)独立性检验、χ2公式.
2.方法归纳:数形结合.
3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题.
1.某厂家为了解顾客对改进后产品的满意度,随机调查了相同数量的男、女顾客,经统计有的男顾客“不满意”,有的女顾客“不满意”,若依据小概率值α=0.01的独立性检验,认为对产品是否满意与性别有关,则调查的总人数可能为 (  )
参考公式:χ2=,其中n=a+b+c+d.
附表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.150 B.168 C.192 D.156
2.(多选)如图是调查某地区男、女中学生对数学的态度的等高堆积条形图,阴影部分表示喜欢数学的百分比,由图可以看出 (  )
A.性别与喜欢数学无关
B.女生中喜欢数学的百分比约为80%
C.男生比女生喜欢数学的可能性大
D.男生中不喜欢数学的百分比约为40%
3.考察棉花种子经过处理与生病之间的关系,得到如表中的数据:
生病 棉花种子 合计
处理 未处理
得病 32 101 133
不得病 61 213 274
合计 93 314 407
依据小概率值α=0.1的独立性检验,根据以上数据可得出 (  )
A.种子经过处理与生病有关
B.种子经过处理与生病无关
C.种子经过处理决定生病
D.种子经过处理与生病有关的推断犯错误的概率不超过0.1
4.在如表所示的2×2列联表中,d=   .
性别 外语 合计
会 不会
男 a b 20
女 6 d
合计 18 50
答案精析
知识梳理
实数 分类变量 实数
问题1 吸烟患肺癌的人数;不吸烟患肺癌的人数;吸烟不患肺癌的人数;不吸烟不患肺癌的人数.
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 7 775 42 7 817
吸烟者 2 099 49 2 148
合计 9 874 91 9 965
(1)0.54% (2)2.28%
说明:吸烟者和非吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.
知识梳理
频数 频数 频数 样本容量
例1 解 2×2列联表如表所示:
治疗方法 治疗效果 合计
存活 死亡
药物治疗 132 18 150
常规治疗 114 36 150
合计 246 54 300
跟踪训练1 16 16
解析 依题意可得列联表如下.
性别 打篮球 合计
经常 不经常
男生 16 4 20
女生 8 12 20
合计 24 16 40
故m=n=16.
问题2 
从图形中可得出吸烟者患肺癌的可能性大.
例2 解 等高堆积条形图如图所示.
其中两个浅色条的高分别代表铅中毒病人组和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人组与对照组的尿棕色素为阳性的频率差异明显,因此铅中毒与尿棕色素为阳性有关系.
跟踪训练2 解 2×2列联表如表所示.
防护服 皮肤炎 合计
阳性例数 阴性例数
穿新防护服 5 70 75
穿旧防护服 10 18 28
合计 15 88 103
相应的等高堆积条形图如图所示.
图中两个深色条的高分别表示穿新、旧防护服样本中呈阳性的频率,从图中可以看出,穿旧防护服呈阳性的频率明显高于穿新防护服呈阳性的频率.因此,可以认为新防护服对预防这种皮肤炎有效.
问题3 假设H0表示{X=1}和{Y=1}无关(通常称H0为零假设).
问题4 相互独立.
知识梳理
1.卡方独立性检验 独立性检验
2.
例3 (1)解 ①年龄低于40岁的有1000×60%=600(人),
完成2×2列联表如表所示.
年龄 安全头盔 合计
佩戴 未佩戴
低于40岁 540 60 600
不低于40岁 340 60 400
合计 880 120 1 000
②零假设为H0:遵守佩戴安全头盔与年龄无关,
由公式得χ2==≈5.682<6.635=x0.01,
∴根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,
因此可以认为H0成立,
即认为遵守佩戴安全头盔与年龄无关.
(2)解 ①因为从这30名学生中随机抽取1人,抽到肥胖学生的概率为,
所以这30名学生中,肥胖学生的人数为30×=8,完善2×2列联表如表所示.
肥胖 碳酸饮料 合计
常喝 不常喝
肥胖者 6 2 8
不肥胖者 4 18 22
合计 10 20 30
②零假设为H0:肥胖与常喝碳酸饮料无关,
由公式得χ2=≈8.523>7.879=x0.005,
依据小概率值α=0.005的独立性检验,推断H0不成立,即认为肥胖与常喝碳酸饮料有关.
跟踪训练3 解 ①2×2列联表如表所示:
教师年龄 对新课程教学模式的态度 合计
赞同 不赞同
老教师 10 10 20
青年教师 24 6 30
合计 34 16 50
②零假设为H0:对新课程教学模式的态度与教师年龄无关.
由公式得
χ2=≈4.963<6.635=x0.01,
根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为对新课程教学模式的态度与教师年龄无关.
随堂演练
1.C [依题意,设男、女顾客的人数各为12x.
建立2×2列联表如表所示:
满意 不满意 合计
男生 10x 2x 12x
女生 8x 4x 12x
合计 18x 6x 24x
χ2==,
由题意可知≥6.635,
所以24x≥179.145.]
2.CD [由题图知女生中喜欢数学的百分比约为20%,男生中不喜欢数学的百分比约为40%,男生比女生喜欢数学的可能性大,故A,B不正确,C,D正确.]
3.B [χ2=≈0.164<2.706=x0.1,依据小概率值α=0.1的独立性检验,认为种子经过处理与生病无关.]
4.24
解析 由题意得
所以a=12,b=8,d=24.

展开更多......

收起↑

资源列表