概率与统计专题04 独立性检验-【解题思路培养】2022年高考数学一轮复习解答题拿分秘籍(全国通用版)

资源下载
  1. 二一教育资源

概率与统计专题04 独立性检验-【解题思路培养】2022年高考数学一轮复习解答题拿分秘籍(全国通用版)

资源简介

中小学教育资源及组卷应用平台
概率与统计
专题四:独立性检验
一、必备秘籍
1.列联表
设,为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
总计
2.独立性检验
利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
3.独立性检验的一般步骤
(1)根据样本数据列出列联表;
(2)计算随机变量的观测值k,查下表确定临界值k0:
(3)如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”.
【注意】(1)通常认为时,样本数据就没有充分的证据显示“X与Y有关系”.
(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.
(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
二、例题讲解
(2021·榆林市第十中学高三月考(文))
1.随着经济的发展,人们的生活水平显著提高,健康意识不断增强,健康管理理念深入人心,人们参加体育锻炼的次数与时间在逐渐增加.某校一个课外学习小组为研究居民参加体育锻炼的时长(时长不超过60分钟)是否与性别有关,对某小区居民进行调查,并随机抽取了100名居民的调查结果,其中男性有55人,根据调查结果绘制了居民日均锻炼时间的频率分布直方图如下:
(1)求样本中居民日均锻炼时间的中位数;
(2)将日均锻炼时间不低于40分钟的居民称为“健生达人”(健康生活达人),已知样本中“健生达人”中有10名女性,根据已知条件完成下面列联表,并据此资料判断是否有的把握认为“健生达人”与性别有关.
非健生达人 健生达人 合计

女 10
合计 100
附:,
0.10 0.05 0.01
2.706 3.841 6.635
【答案】(1)32.8分钟;(2)表格见解析,没有的把握认为“健生达人”与性别有关.
【分析】
(2)根据中位数的定义求样本中居民日均锻炼时间的中位数;(2)分析数据,完成列联表,计算,通过比较其与临界值的大小,确定是否接受假设.
【详解】
解:本题考查独立性检验.
(1)由频率分布直方图知日均锻炼时间在对应的频率为,则中位数位于,且中位数为(分钟)
(2)由频率分布直方图可知在抽取的100人中,“健生达人”有32人,从而列联表如下:
非健生达人 健生达人 合计
男 33 22 55
女 35 10 45
合计 68 32 100
得,
所以没有的把握认为“健生达人”与性别有关
(2021·江苏南京市·高三开学考试)
2.科研小组为提高某种水果的果径,设计了一套实验方案,并在两片果园中进行对比实验.其中实验园采用实验方案,对照园未采用.实验周期结束后,分别在两片果园中各随机选取100个果实,按果径分成5组进行统计:,,,,(单位:).统计后分别制成如下的频率分布直方图,并规定果径达到36及以上的为“大果”.
(1)请根据题中信息完成下面的列联表,并判断是否有的把握认为“大果”与“采用实验方案”有关;
采用实验方案 未采用实验方案 合计
大果
非大果
合计 100 100 200
(2)根据长期种植经验,可以认为对照园中的果径服从正态分布,其中近似为样本平均数,,请估计对照园中果径落在区间内的概率.(同一组中的数据以这组数据所在区间中点的值作代表)
附:①;
②若服从正态分布,则,,.
【答案】(1)列联表见解析,有把握认为两者有关;(2).
【分析】
(1)根据频率分布直方图分别求出采用实验方案大果和非大果数量及未采用实验方案大果和非大果数量,从而可得出列联表,再根据公式求出,对照临界值表即可得出结论;
(2)求出样本平均数,再根据正态分布的性质即可得出答案.
【详解】
解:(1)由频率分布直方图可得:
采用实验方案大果的数量为个,
则非大果数量为个,
未采用实验方案大果的数量为个,
则非大果数量为个,
列联表如下:
采用实验方案 未采用实验方案 合计
大果
非大果
合计
,所以有的把握认为两者有关;
(2)由题中数据,,
则,
则.
感悟升华(核心秘籍) 1、独立性检验的核心就是寻找参考值. 2、计算要精确,保留3位小数. 3、最后要作出回答,是否有多大把握认为相关(或者没有把握认为有关).
三、实战练习
(2021·定远县育才学校高三开学考试(文))
1. 微信是腾讯公司推出的一种手机通信软件,它支持发送语音短信 视频 图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人.为了调查微信用户每天使用微信的时间,某经销化妆品的店家在一广场随机采访男性 女性用户各50名,将男性 女性平均每天使用微信的时间(单位:h)分成5组:分别加以统计,得到如图所示的频率分布直方图.
(1)根据频率分布直方图估计女性平均每天使用微信的时间;
(2)若每天玩微信超过的用户称为“微信控”,否则称为“非微信控”,判断是否有90%的把握认为“微信控”与性别有关.
附表:
0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 2.072 2.706 3.841 5.024 6.635 7.879 10.828
(参考公式:,其中)
【答案】(1);(2)有90%的把握认为“微信控”与性别有关.
【解析】
【分析】(1)用每个小矩形的面积乘以对应小矩形底边的中点,然后求和即可得到答案;
(2)先通过频率分布直方图面积为1求出a,进而根据参考公式求出K2,然后将数据进行对比即可得到答案.
【详解】(1)由女性的频率分布直方图,可知女性用户平均每天使用微信的时间为.
(2)由男性的频率分布直方图,可得,解得.
由两个频率分布直方图,可得列联表如下:
微信控 非微信控 总计
男性 38 12 50
女性 30 20 50
总计 68 32 100
的观测值,
所以有90%的把握认为“微信控”与性别有关.
(2021·河北唐山·高三开学考试)
2. 数字人民币是由央行发行的法定数字货币,它由指定运营机构参与运营并向公众兑换,与纸钞和硬币等价.截至2021年6月30日,数字人民币试点场景已超132万个,覆盖生活缴费 餐饮服务 交通出行 购物消费 政务服务等领域.为了进一步了解普通大众对数字人民币的感知以及接受情况,某机构进行了-次问卷调查,部分结果如下:
学历 小学及以下 初中 高中 大学专科 大学本科 硕士研究生及以上
不了解数字人民币 35 35 80 55 64 6
了解数字人民币 40 60 150 110 140 25
(1)如果将高中及高中以下的学历称为“低学历”,大学专科及以上学历称为“高学历”,根据所给数据,完成下面的列联表;
学历 了解情况 低学历 高学历 合计
不了解数字人民币
了解数字人民币
合计
(2)若从低学历的被调查者中,按对数字人民币的了解程度用分层抽样的方法抽取8人,然后从这8人中抽取2人进行进一步调查,求被选中的2人中至少有1人对数字人民币不了解的概率;
(3)根据列联表,判断是否有95%的把握认为“是否了解数字人民币”与“学历高低”有关?
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)列联表答案见解析;(2);(3)没有95%的把握认为“是否了解数字人民币”与“学历高低”有关.
【解析】
【分析】(1)根据题中所给数据完成列联表即可;
(2)根据分层抽样分别求出不了解数字人民币和了解数字人民币的人数,再根据古典概型公式即可得解;
(3)根据公式求出,在参照临界值表即可得出结论.
【详解】解:(1)列联表如下:
低学历 高学历 合计
不了解数字人民币 150 125 275
了解数字人民币 250 275 525
合计 400 400 800
(2)从低学历被调查者中按对数字人民币的了解程度用分层抽样的方法抽取8人,抽取的8人中,不了解数字人民币的有人,
了解数字人民币的有人,
从这8人中抽取2人进行进一步调查,求被选中的2人中至少有1人对数字人民币不了解的概率.
(3)根据列联表得
.
故没有95%的把握认为“是否了解数字人民币”与“学历高低”有关.
(2021·广东实验中学高三月考)
3. 在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队统计了某地区1000名患者的相关信息,得到如下表格:
潜伏期(单位:天)
人数 85 205 310 250 130 15 5
(1)求这1000名患者的潜伏期的样本平均值(同一组中的数据用该组区间的中点值作代表);
(2)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过6天为标准进行分层抽样,从上述1000名患者中抽取200人,得到如下列联表请将列联表补充完整,并根据列联表判断是否有95%的把捏认为潜伏期与息者年龄有关;
潜伏期天 潜伏期天 总计
50岁以上(含50) 100
50岁以下 55
总计 200
(3)以这1000名患者的潜伏期超过6天的频率,代替该地区1名患者潜伏期超过6天发生的概率,每名患者的潜伏期是否超过6天相互独立.为了深入研究,该研究团队随机调查了20名患者,其中潜伏期超过6天的人数最有可能(即概率最大)是多少?
附:,其中.
0.05 0.025 0.010
3.841 5.024 6.635
【答案】(1)天;(2)列联表见解析,没有95%的把捏认为潜伏期与息者年龄有关.(3)潜伏期超过6天最有可能是8人.
【解析】
【分析】(1)根据频率直方表求平均值即可.
(2)由题设写出列联表,根据卡方检验公式计算卡方值,比照参考值即可知是否有95%的把捏认为潜伏期与息者年龄有关;
(3)由题意知潜伏期超过6天的人数,则,应用不等法求最大概率时的k值即可.
【详解】(1)天.
(2)由题设知:的频率为,的频率为,故200人中潜伏期在上有120人,在上有80人.
列联表如下:
潜伏期天 潜伏期天 总计
50岁以上(含50) 65 35 100
50岁以下 55 45 100
总计 120 80 200
∴,故没有95%的把捏认为潜伏期与息者年龄有关.
(3)由患者潜伏期超过6天发生的概率,
设潜伏期超过6天的人数为,则,
∴且,,
由题意,,即,化简得,解得,
∴,即潜伏期超过6天最有可能是8人.
(2021·黑龙江高三其他模拟(文))
4. 据有关部门统计,2020年本科生的平均签约薪酬为每月4300元.2020年某高校毕业生就业指导中心为了分析本校本科毕业生的专业课成绩优秀与否与本科毕业生就业后获得薪酬的关系,随机调查了从学校毕业的200名本科毕业学进行研究.研究结果表明:在专业课成绩优秀的120名本科毕业生中有90人每月工资超过人民币4300元,另30人每月工资低于人民币4300元;在专业课成绩不优秀的80名本科毕业生中有20人每月工资超过人民币4300元,另60人每月工资低于人民币4300元.
(1)试根据上述数据完成列联表;
专业课优秀 专业课不优秀 合计
每月平均工资超过4300元
每月平均工资低于4300元
合计
(2)能否在犯错误的概率不超过的前提下认为“该高校本科毕业生的专业课成绩优秀”与“每月工资超过当年本科生的平均签约薪酬”有关系?
参考公式:,其中.
()
【答案】(1)列联表见解析;(2)能.
【解析】
【分析】(1)根据题目已知数据完成列联表;
(2)计算,根据临界值表判断即可
【详解】(1)列联表如下:
专业课优秀 专业课不优秀 合计
每月平均工资超过4300元 90 20 110
每月平均工资低于4300元 30 60 90
合计 120 80 200
(2)因为.
所以能在犯错误的概率不超过的前提下认为“该校毕业生的专业课成绩优秀”与“每月工资超过当年本科生的平均签约薪酬”有关系.
【点睛】方法点睛:本题考查联表判断相关性,独立性检验的一般步骤:
第一步,提出假设:两个分类变量A和B没有关系;
第二步,根据列联表和公式计算统计量;
第三步,查对课本中临界值表,作出判断。
(2021·山东济宁一中高三开学考试)
5. 为提高教育教学质量,越来越多的高中学校采用寄宿制的封闭管理模式.某校对高一新生是否适应寄宿生活十分关注,从高一新生中随机抽取了100人,其中男生占总人数的40%,且只有20%的男生表示自己不适应寄宿生活,女生中不适应寄宿生活的人数占总人数的32%,学校为了考察学生对寄宿生活适应是否与性别有关,构建了如下2×2列联表:
不适应寄宿生活 适应寄宿生活 合计
男生
女生
合计
(1)请将2×2列联表补充完整,并依据小概率值的独立性检验,分析“适应寄宿生活与否”是否与性别有关;
(2)从男生中以“是否适应寄宿生活”为标准采用分层抽样的方法随机抽取10人,再从这10人中随机抽取2人,若所选2名学生中的“不适应寄宿生活”人数为,求随机变量的分布列及数学期望.
附:,其中.
0.15 0.10 0.05 0.025 0.01 0.001
2.072 2.706 3.841 5.025 6.635 10.828
【答案】(1)列联表见解析,“适应寄宿生活与否”与性别有关联;(2)分布列见解析,数学期望为.
【解析】
【分析】(1)依据题干数据,补充表格,利用计算,与临界值6.635比较,即得解;
(2)依题意,服从超几何分布,计算概率,列出分布列,计算期望值即可.
【详解】解:(1)
不适应寄宿生活 适应寄宿生活 合计
男生 8 32 40
女生 32 28 60
合计 40 60 100
零假设为:“适应寄宿生活与否”与性别无关
根据列联表中的数据,经计算得到:
依据小概率值的独立性检验,推断不成立,即认为“适应寄宿生活与否”与性别有关联,此推断犯错误的概率不大于0.01.
(2)抽取的10人中,有2人不适应寄宿生活,有8人适应寄宿生活
随机变量的取值可以说0,1,2
,,
0 1 2
(2021·全国高三月考)
6. 某企业计划招聘新员工,现对应聘者关于工作的首要考虑因素进行调查﹐所得统计结果如下表所示:
男性 女性
以月薪作为主要考虑因素
以发展前景作为主要考虑因素
(1)是否有的把握认为应聘者关于工作的首要考虑因素与性别有关;
(2)若招聘考核共设置个环节,应聘者需要参加全部环节的考核,每个环节设置两个项目,若应聘者每通过一个项目积分,未通过积分.已知甲第环节每个项目通过的概率均为,第环节每个项目通过的概率均为,各环节 各项目间相互独立.求甲经过两个环节的考核后所得积分之和的分布列和数学期望.
参考公式:,其中.
参考数据:
【答案】(1)有的把握认为“应聘者关于工作的首要考虑因素与性别有关”;(2)分布列答案见解析,数学期望:(分).
【解析】
【分析】(1)补充列联表中的总计,再代入公式计算,比较结果和0.05对应的数字3.841的大小关系;
(2)根据两个环节、两个项目之间相互独立,的所有可能的取值为
.分别计算其对应的概率,写出分布列,再根据分布列计算期望值.
【详解】解:(1)补充列联表如下表:
男性 女性 总计
以月薪作为主要考虑因素
以发展前景作为主要考虑因素
总计

有的把握认为“应聘者关于工作的首要考虑因素与性别有关”.
(2)的所有可能的取值为.

的分布列为
(分)
(2021·重庆垫江第五中学校高三月考)
7. 随着垫江五中教学质量的提升学生总人数达到了历史最高点即4700人左右,但学校发展的同时也对学校学生就餐带来前所未有的挑战.因此学校领导制定出学生分时就餐(第一轮11:40,第二轮12:30).经过一段时间的运行后,学校对就餐满意度进行调查,现从学校初、高中学生中随机抽取200人作为样本,得到下表(单位:人次)
满意度 初中学生 高中学生
男生 女生 男生 女生
满意 45 40 35 30
不满意 5 10 15 20
(1)
初中学生 高中学生 合计
满意
不满意
合计
(2)
(1)通过上表完成下列列联表,并判断能否有97.5%的把握认为“是否满意”与初、高中学生有关?
(2)现从调查的学生中按表(2)分层抽样的方法抽取8人,再从这8人中任选2人,记X为这2人中为满意的人数,求X的分布列和数学期望.
参考公式及数据:,其中.
0.40 0.25 0.15 0.10 0.05 0.025
0.780 1.323 2.072 2.706 3.841 5.024
【答案】(1)有的把握认为“是否满意”与初、高中学生有关;(2)分布列见解析,期望为;
【解析】
【分析】(1)依题意完善列联表,计算出,再与参考值比较即可判断;
(2)按照分层抽样的规则求出满意与不满意的学生抽取的人数,依题意的可能取值为、、,求出所对应的概率,即可得到分布列与数学期望;
【详解】解:(1)依题意可得列联表如下:
初中学生 高中学生 合计
满意 85 65 150
不满意 15 35 50
合计 100 100 200
所以
所以有的把握认为“是否满意”与初、高中学生有关;
(2)现从调查的学生中按表(2)分层抽样的方法抽取8人,则满意的学生抽取人,不满意的学生抽取人;
依题意的可能取值为、、,则,,
所以的分布列如下:
0 1 2
所以
(2021·全国高三月考(理))
8. 梨树绝大多数品种自花授粉,结实率很低,因此果农在栽培梨树的时候,必须在果园配置授粉树,并结合适当的辅助授粉方法,以便更顺利地完成梨树的授粉受精过程,以此达到果园丰产稳产、高品质的目的.某地区将梨树蜜蜂授粉和自然授粉的花朵坐果率进行比较,统计数据如下:
坐果 授粉方式 总计
自然授粉 蜜蜂授粉
花朵未坐果
花朵坐果
(1)自然授粉和蜜蜂授粉的花朵坐果数的频率分别是多少?
(2)根据数据完成下列列联表,并据此判断能否有的把握认为自然授粉与蜜蜂授粉的花朵坐果率有差异?
坐果 授粉方式 总计
自然授粉 蜜蜂授粉
花朵未坐果
花朵坐果
总计
附:,
【答案】(1);;(2)列联表见解析;有的把握认为自然授粉与蜜蜂授粉的花朵坐果率有差异.
【解析】
【分析】(1)根据题设中的数据,由频率等于对应授粉方式的花朵坐果数与花朵总数的比值,求频率即可;
(2)由已知数据完善列联表,进而应用卡方检验公式求卡方值,比照参考值确定自然授粉与蜜蜂授粉的花朵坐果率有差异的把握程度.
【详解】(1)自然授粉的花朵坐果数为,花朵总数为,则频率为.
蜜蜂授粉的花朵坐果数为,花朵总数为,则频率为.
(2)列联表如下:
坐果 授粉方式 总计
自然授粉 蜜蜂授粉
花朵未坐果
花朵坐果
总计
∴,又,
∴有的把握认为自然授粉与蜜蜂授粉的花朵坐果率有差异.
(2021·陕西西安中学高三月考(文))
9. 2019年2月4日20:00,2019年央视春晚在中央电视台综合频道等频道并机直播.人们通过手机、互联网、电视等方式,都在观看央视春晚.某调查网站从观看央视春晚的观众中随机选出200人,经统计这200人中通过传统的传媒方式电视端口观看的人数与通过新型的传媒PC端口观看的人数之比为4:1.将这200人按年龄分组:第1组,第2组,第3组,第4组,第5组,其中统计通过传统的传媒方式电视端口观看的观众得到的频率分布直方图如图所示.
(1)求的值及通过传统的传媒方式电视端口观看的观众的平均年龄;
(2)把年龄在第1,2,3组的观众称青少年组,年龄在第4,5组的观众称为中老年组,若选出的200人中通过新型的传媒方式端口观看的中老年人有12人,请完成下面2×2列联表,则能否在犯错误的概率不超过0.1的前提下认为观看央视春晚的方式与年龄有关?
附:
通过PC端口观看 通过电视端口观看 合计
青少年
中老年
合计
(其中为样本容量).
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1), 41.5;(2)表格见解析,不能.
【解析】
【分析】(1)根据小矩形面积之和等于列方程可求的值,根据平均数计算公式可得平均年龄;
(2)根据题意求出通过电视端 和PC端 观看观众的人数,结合频率分布直方图计算可得2×2列联表,计算,与临界值比较即可判断.
【详解】(1)由频率分布直方图可得,
解得:,
所以通过传统的传媒方式电视端口观看的观众的平均年龄为:
.
(2)通过电视端 观看有人,通过PC端 观看有人,
由频率分布直方图可得:通过电视端 观看中老年组人,
通过端口观看的中老年人有12人,所以通过PC端 观看青少年有人,
可得2×2列联表如图:
通过PC端 观看 通过电视端 观看 合计
青少年 28 96 124
中老年 12 64 76
合计 40 160 200
计算得的观测值为,
所以不能在犯错误的概率不超过的前提下认为观看央视春晚的方式与年龄有关.
(2021·合肥市第六中学高三开学考试(文))
10. 医学统计表明,疾病在老年人中发病率较高.已知某地区老年人的男女比例为3:2,为了解疾病在该地区老年人中发病情况,按分层抽样抽取100名老人作为样本,对这100位老人是否患有疾病进行统计,得条形图如下所示.
(1)完成下列2×2列联表,并判断有没有90%的把握认为患疾病与性别有关?
男性 女性 合计
患有疾病
未患疾病
合计
(2)在这100个样本中,将未患疾病老年人按年龄段,,,,分成5组,得频率分布直方图如图二所示.求未患病老年人的中位数(精确到小数点后一位).
附:,其中.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)填表见解析;没有90%的把握认为患疾病与性别有关;(2)中位数约为74.5.
【解析】
【分析】(1)由分层抽样确定样本中老年男性、女性的人数,根据条形图可知未患X疾病的男性、女性人数,进而写出列联表,由卡方公式求值,即可给出结论.
(2)由频率直方图中频率和为1求参数a,根据中位数在直方图中的性质:其两侧面积相等,即可求中位数.
【详解】解:(1)由条形图知男性共60人,女性共40人,
未患有X疾病男性有40人,未患有X疾病女性25人,完成2×2列联表如下:
男性 女性 合计
患有疾病 20 15 35
未患疾病 40 25 65
合计 60 40 100
计算:
所以,没有90%的把握认为患疾病与性别有关.
(2)由频率分布直方图得:,

设中位数为,则.
,得
即未患病老人的年龄中位数约为74.5.
(2021·武功县普集高级中学高三开学考试(理))
11. 某校组织了全体学生参加“建党周年”知识竞赛,从高一、高二年级各随机抽取名学生的竞赛成绩(满分分),统计如下表:
分数段
高一年级
高二年级
(1)分别估计高一、高二年级竞赛成绩的平均值与(同一组中的数据以该组数据所在区间中点的值作代表);
(2)学校规定竞赛成绩不低于分的为优秀,根据所给数据,完成下面的列联表,并判断是否有的把握认为竞赛成绩优秀与年级有关?
非优秀 优秀 合计
高一年级
高二年级
合计
附:,其中.
【答案】(1)估计高一高二年级竞赛成绩的平均值分别为与;(2)列联表见解析,没有的把握认为竞赛成绩优秀与年级有关.
【解析】
【分析】(1)分别用每组分数段的中间值乘以每组频数求和再除以50可得出高一年级、高二年级随机抽出名学生竞赛成绩的平均值的估计值.
(2)由已知数据可以完成列联表,并求得与比较可得答案.
【详解】(1)高一年级随机抽出名学生竞赛成绩的平均值估计为

高二年级随机抽出名学生竞赛成绩的平均值估计为

故估计高一高二年级竞赛成绩的平均值分别为与.
(2)
非优秀 优秀 合计
高一年级
高二年级
合计

故没有的把握认为竞赛成绩优秀与年级有关.
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)

展开更多......

收起↑

资源预览