资源简介 第4章 统计4.3 独立性检验基础过关练 题组一 分类变量与列联表1.假设有两个分类变量x与y,它们的2×2列联表如下:y1 y2x1 a bx2 c d对同一样本,以下数据能说明x与y有关系的可能性最大的一组为( )A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=2,b=3,c=5,d=42.为了做好某次国际会议的对外宣传工作,会务组选聘了50名记者担任对外翻译工作,在如下表所示的“性别与会外语”的2×2列联表中,d= . 会外语 不会外语 合计男 a b 20女 6 d合计 18 50题组二 独立性检验及其应用3.(2022河南南阳联考)对变量X与Y的统计量χ2的值的说法,正确的是( )A. χ2越大,“X与Y有关系”的可信程度越小B. χ2越小,“X与Y有关系”的可信程度越大C. χ2越小,“X与Y有关系”的可信程度越小D. χ2越大,“X与Y无关”的可信程度越大4.下列关于回归分析与独立性检验的说法正确的是( )A.回归分析和独立性检验没有什么区别B.回归分析是对两个变量之间确定性关系的分析,而独立性检验是分析两个变量之间的不确定性关系C.回归分析研究的是两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验D.独立性检验一定可以确定两个变量之间是否具有某种关系5.根据分类变量x与y的观察数据,计算得到χ2=2.974,依据给出的临界值表做出下列判断,其中正确的是 ( )P(χ2≥x0) 0.1 0.05 0.01 0.005 0.001x0 2.706 3.841 6.635 7.879 10.828A.有95%的把握认为变量x与y独立B.有95%的把握认为变量x与y不独立C.认为变量x与y独立,这个结论犯错误的概率不超过10%D.认为变量x与y不独立,这个结论犯错误的概率不超过10%6.某大学餐饮中心对全校一年级新生的饮食习惯进行抽样调查,调查结果如下:南方学生喜欢甜品的有60人,不喜欢甜品的有20人;北方学生喜欢甜品的有10人,不喜欢甜品的有10人.那么至少有 %的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”. 附:χ2=,其中n=a+b+c+d.P(χ2≥x0) 0.10 0.05 0.01 0.005x0 2.706 3.841 6.635 7.8797.茶树根据其茶叶产量可分为优质茶树和非优质茶树,某茶树种植研究小组选取了甲、乙两块试验田来检验某种茶树在不同环境条件下的生长情况.研究人员将100株该种茶树幼苗在甲、乙两块试验田中进行种植,成熟后统计每株茶树的茶叶产量,将所得数据整理,如下表所示:优质茶树 非优质茶树甲试验田 a 25乙试验田 10 b已知甲试验田中优质茶树的比例为50%.(1)求表中a,b的值;(2)根据表中数据,是否有99%的把握认为甲、乙两块试验田的环境差异对茶树的生长有影响 附:χ2=,其中n=a+b+c+d.P(χ2≥x0) 0.10 0.05 0.01x0 2.706 3.841 6.6358.某校在高一部分学生中调查了男女同学对某项体育运动的喜好情况,其二维条形图如图所示(灰色代表喜欢,白色代表不喜欢).(1)写出2×2列联表;(2)根据图中数据判断喜欢这项体育运动是否与性别有关;(3)在这次调查中,从喜欢这项体育运动的一名男生和两名女生中任选两人进行专业培训,求选出的两人恰是一男一女的概率.临界值表及公式:P(χ2≥x0) 0.1 0.05 0.025 0.01 0.005x0 2.706 3.841 5.024 6.635 7.879χ2=,其中n=a+b+c+d.能力提升练 题组一 独立性检验及其应用1.“3+1+2”的新高考模式,其中“3”为全国统考科目:语文、数学和外语;“1”为考生在物理和历史中选择一门;“2”为考生在思想政治、地理、化学和生物四门中选择两门.某中学调查了高一年级学生的选科倾向,随机抽取200人,其中选考物理的有120人,选考历史的有80人,统计各选科人数如下表,则下列说法正确的是( )选考 类别 选择科目思想政治 地理 化学 生物物理类 35 50 90 65历史类 50 45 30 35附:χ2=,其中n=a+b+c+d.P(χ2≥x0) 0.100 0.050 0.010 0.005 0.001x0 2.706 3.841 6.635 7.879 10.828A.物理类的学生中选择地理的比例比历史类的学生中选择地理的比例高B.物理类的学生中选择生物的比例比历史类的学生中选择生物的比例低C.有90%以上的把握认为选择生物与选考类别有关D.没有95%以上的把握认为选择生物与选考类别有关2.中共中央办公厅、国务院办公厅印发的《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》,要求学校做好课后服务工作,结合学生的兴趣爱好,开设体育、美术、音乐、书法等特色课程.某初级中学在课后延长一小时开设相关课程,为了解学生选课情况,在该校全体学生中随机抽取50名学生进行问卷调查,得到如下数据:喜欢音乐 不喜欢音乐喜欢体育 20 10不喜欢体育 5 15附表:P(χ2≥x0) 0.05 0.025 0.01 0.005 0.001x0 3.841 5.024 6.635 7.879 10.828根据以上数据,对该校学生的选课情况判断不正确的是( )A.估计该校既喜欢体育又喜欢音乐的学生约占B.从这30名喜欢体育的学生中采用随机数法抽取6人进行访谈,则他们每个个体被抽到的概率都为C.从不喜欢体育的20名学生中任选4人进行访谈,则事件“至少有2人喜欢音乐”与“至多有1人不喜欢音乐”为对立事件D.在犯错误的概率不超过0.005的前提下,认为“喜欢体育”与“喜欢音乐”有关系3.假设2个分类变量X和Y的2×2列联表如下:Y 合计y1 y2X x1 a 10 a+10x2 c 30 c+30合计 a+c 40 100对于同一样本,以下数据能说明X和Y有关系的可能性最大的一组是( )A.a=40,c=20 B.a=45,c=15C.a=35,c=25 D.a=30,c=30题组二 独立性检验的综合应用4.“双十一”已经成为网民们的网购狂欢节,某电子商务平台对某市的网民在今年“双十一”的网购情况进行摸底调查,用随机抽样的方法抽取了100人,其消费金额t(百元)的频率分布直方图如图所示.(1)求网民消费金额t的平均值和中位数t0(同一组中数据用各组区间的中点值作为代表);(2)把下表中空格里的数填上,并判断能否有90%的把握认为网购消费与性别有关.男 女 合计t≥t0t合计 45附表:P(χ2≥x0) 0.10 0.05 0.01x0 2.706 3.841 6.635参考公式:χ2=,其中n=a+b+c+d.5.某超市为了方便顾客购物,对货物的分类和分区域摆放进行了重新设计,为了解顾客对新设计的满意情况,随机抽取在一段时间内进入超市的120名顾客进行调查,其中男顾客与女顾客的人数之比为5∶7,男顾客中有30人对新设计满意,女顾客中有10人对新设计不满意.(1)完成2×2列联表,并回答能否有99%的把握认为对新设计是否满意与性别有关;满意 不满意 合计男顾客 30女顾客 10合计 120(2)从被调查的对新设计不满意的顾客中,按照性别进行分层抽样抽取9名顾客,再在9名顾客中抽取3名征求其对新设计的改进建议,记抽到女顾客的人数为ξ,求ξ的分布列及数学期望.参考公式:χ2=,其中n=a+b+c+d.P(χ2≥x0) 0.10 0.05 0.01 0.001x0 2.706 3.841 6.635 10.8286.据统计,新型冠状病毒感染人群的年龄大多数是50岁以上,该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间,潜伏期越长,感染到他人的可能性越高.现对400个病例的潜伏期(单位:天)进行调查,统计发现潜伏期的平均数为7.2,方差为2.252,如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,50岁以上人数占70%,“长潜伏期”人数占25%,其中50岁以上长潜伏期者有60人.(1)请根据以上数据完成2×2列联表,并判断是否有95%的把握认为“长潜伏期”与年龄有关;50岁以下 (含50岁) 50岁 以上 合计“长潜伏期”非“长潜伏期”合计(2)假设潜伏期X服从正态分布N(μ,σ2),其中μ近似为样本平均数,σ2近似为样本方差s2,若规定对入境旅客一律要求隔离14天,请结合3σ原则解释此规定的合理性.附:χ2=,其中n=a+b+c+d.P(χ2≥x0) 0.1 0.05 0.01x0 2.706 3.841 6.635若X~N(μ,σ2),则P(μ-σ7.“礼让斑马线”是驾驶员应遵守的交通规则.下表是某市一主干路口监控设备所抓拍的5个月内驾驶员不“礼让斑马线”行为的统计数据:月份x 1 2 3 4 5驾驶员人数y 120 105 100 90 85(1)请利用所给数据求违章驾驶员人数y与月份x之间的回归直线方程=x+;(2)交警从这5个月内通过该路口的驾驶员中随机抽查了50人,调查驾驶员“礼让斑马线”行为与驾龄的关系,并得到如下2×2列联表:不礼让 斑马线 礼让 斑马线 合计驾龄不超过1年 22 8 30驾龄1年以上 8 12 20合计 30 20 50判断是否有97.5%的把握认为“礼让斑马线”行为与驾龄有关.参考公式及数据:=P(χ2≥x0) 0.1 0.025 0.01 0.005 0.001x0 2.706 5.024 6.635 7.879 10.828χ2=,其中n=a+b+c+d.答案与分层梯度式解析第4章 统计4.3 独立性检验基础过关练1.D 对于两个分类变量x与y而言,|ad-bc|的值越大,说明x与y有关系的可能性越大.对于A,|ad-bc|=|5×2-4×3|=2,对于B,|ad-bc|=|5×2-3×4|=2,对于C,|ad-bc|=|2×5-3×4|=2,对于D,|ad-bc|=|2×4-3×5|=7,显然D中|ad-bc|最大,故选D.2.答案 24解析 由题意得所以3.C 4.C 5.D 因为χ2=2.974>2.706,所以在犯错误的概率不超过10%的前提下认为变量x与y有关,即认为变量x与y不独立.故选D.6.答案 95解析 由题意得,2×2列联表如下表所示:喜欢甜品 不喜欢甜品 合计南方学生 60 20 80北方学生 10 10 20合计 70 30 100χ2=≈4.762>3.841,所以至少有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.7.解析 (1)由甲试验田中优质茶树的比例为50%,可得=50%,解得a=25.b=100-25-25-10=40.(2)χ2==≈9.890,因为9.890>6.635,所以有99%的把握认为甲、乙两块试验田的环境差异对茶树的生长有影响.8.解析 (1)观察题中二维条形图可得,被调查的男生总共有45人,其中喜欢这项运动的有15人,不喜欢的有30人;被调查的女生总共有45人,其中喜欢这项运动的有5人,不喜欢的有40人.由此写出2×2列联表如下:喜欢 不喜欢 合计男 15 30 45女 5 40 45合计 20 70 90(2)提出统计假设H0:喜欢这项体育运动与性别无关.计算可得χ2=≈6.429,由于5.024<6.429<6.635,查临界值表可知,我们至少有97.5%的把握认为喜欢这项体育运动与性别有关.(3)设喜欢这项体育运动的一名男生和两名女生分别为A,B,C.任选两人的情况有(A,B),(A,C),(B,C),其中是一名男生和一名女生的情况有(A,B),(A,C),所以选出的两人恰是一男一女的概率P=.能力提升练1.D 依据题表中数据可知,物理类的学生中选择地理的比例为=,历史类的学生中选择地理的比例为=,因为<,所以物理类的学生中选择地理的比例比历史类的学生中选择地理的比例低,故A错误;物理类的学生中选择生物的比例为=,历史类的学生中选择生物的比例为=,因为>,所以物理类的学生中选择生物的比例比历史类的学生中选择生物的比例高,故B错误;由题中表格可列2×2列联表如下:选考生物 不选考生物 合计物理类 65 55 120历史类 35 45 80合计 100 100 200故χ2=≈2.083,由2.083<2.706,知没有90%以上的把握认为选择生物与选考类别有关,故C错误;2.083<3.841,知没有95%以上的把握认为选择生物与选考类别有关,故D正确.故选D.2.C 估计该校既喜欢体育又喜欢音乐的学生约占=,A中判断正确;每个个体被抽到的概率为=,B中判断正确;“至少有2人喜欢音乐”与“至多有1人喜欢音乐”为对立事件,C中判断错误;由χ2=≈8.333>7.879,则在犯错误的概率不超过0.005的前提下,认为“喜欢体育”与“喜欢音乐”有关系,故D中判断正确.故选C.3.B χ2==n·,根据2×2列联表和独立性检验的相关知识,知当b,d 一定时,a,c相差越大,与相差就越大, χ2就越大,即X和Y有关系的可能性越大,结合选项,知B中a-c=30与其他选项相比相差最大.故选B.4.解析 (1)由题图易得,网民消费金额t的平均值=2.5×0.2+7.5×0.3+12.5×0.2+17.5×0.15+22.5×0.1+27.5×0.05=11.50(百元).题图中第一组、第二组的频率之和为0.04×5+0.06×5=0.5,∴网民消费金额t的中位数t0=10.(2)补充完整的2×2列联表如下:男 女 合计t≥t0 25 25 50t合计 45 55 100计算可得χ2==≈1.010<2.706,所以没有90%的把握认为网购消费与性别有关.5.解析 (1)补充完整的2×2列联表如下:满意 不满意 合计男顾客 30 20 50女顾客 60 10 70合计 90 30 120计算得χ2=≈10.286>6.635,所以有99%的把握认为对新设计是否满意与性别有关.(2)依题意可知,分层抽样抽取的9名顾客中,男顾客有6名,女顾客有3名.ξ的可能取值为0,1,2,3,P(ξ=0)==,P(ξ=1)==,P(ξ=2)==,P(ξ=3)==,所以ξ的分布列为ξ 0 1 2 3P所以E(ξ)=0×+1×+2×+3×=1.6.解析 (1)补充完整的2×2列联表如下.50岁以下 (含50岁) 50岁以上 合计“长潜伏期” 40 60 100非“长潜伏期” 80 220 300合计 120 280 400计算得χ2=≈6.349>3.841,所以有95%的把握认为“长潜伏期”与年龄有关.(2)由题意得μ=7.2,σ=2.25,则μ+3σ=13.95,又因为P(X≥13.95)≈=0.001 35,所以潜伏期超过14天的概率很低,因此对入境旅客一律要求隔离14天是合理的.7.解析 (1)由题表中数据,得=3,=100,∴===-8.5,∴=-=125.5,∴所求的回归直线方程为=-8.5x+125.5.(2)由题表中的数据得χ2==≈5.556>5.024,所以有97.5%的把握认为“礼让斑马线”行为与驾龄有关.(共22张PPT)1.列联表一般地,对于两个分类变量X和Y,X有两个取值:A和 ,Y也有两个取值:B和 ,我们可得到下面的频数分布表:Y 合计B X A a b a+b c d c+d合计 a+c b+d a+b+c+d4.3 独立性检验1 | 列联表像上表这样,将两个(或两个以上)分类变量进行交叉分类得到的频数分布表称为列联表,称X,Y为分类变量.2.2× 2列联表由于所涉及的两个分类变量X,Y均有两个变量值,所以称上表为2×2列联表.1.统计量χ2的计算公式χ2= ,其中n=a+b+c+d.2.独立性检验的概念利用统计量χ2来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.3.独立性检验的步骤利用独立性检验推断“X与Y有关系”,可按下面的步骤进行:(1)提出统计假设H0:X与Y之间没有关系;(2)根据2×2列联表及χ2的公式计算χ2的观测值;(3)查临界值表确定临界值x0,然后做出判断.2 | 独立性检验4.临界值表表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828,就有不少于99.9%的把握认为“X与Y之间有关系”;(2)如果χ2>6.635,就有不少于99%的把握认为“X与Y之间有关系”;(3)如果χ2>2.706,就有不少于90%的把握认为“X与Y之间有关系”;(4)如果χ2≤2.706时,就认为还没有充分的证据显示“X与Y之间有关系”,但也不能做出结论“H0成立”,即认为X与Y没有关系.P(χ2≥x0) 0.50 0.40 0.25 0.15 0.10x0 0.455 0.708 1.323 2.072 2.706P(χ2≥x0) 0.05 0.025 0.010 0.005 0.001x0 3.841 5.024 6.635 7.879 10.8281.分类变量中的变量与函数中的变量是同一概念吗 不是.变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量,有时可以把分类变量的不同取值用数字表示,但这时的数字除了分类以外没有其他含义,而函数中的变量分为自变量与因变量,都是数的集合,有它们各自的意义.2.利用χ2进行独立性检验时,估计值的准确度与样本容量有关吗 有关.利用χ2进行独立性检验时,可以对推断的正确性的概率作出估计,样本容量越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.知识辨析3.在进行χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)≈0.01和P(χ2≥7.879)≈0.005两种说法都正确吗 两种说法都正确.P(χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两变量相关;P(χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两变量相关. 应用独立性检验解决实际问题大致包括的几个主要环节(1)提出统计假设H0:分类变量X和Y无关(相互独立),并给出在问题中的解释;(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值x0比较;(3)根据检验规则得出推断结论;(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.注意:上述几个环节的内容可以根据不同情况进行调整.例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.1 由χ2进行独立性检验 典例 手机给人们的生活带来便利,但同时也对中学生的生活和学习造成了影响.某校高一几个学生成立了研究性学习小组,就使用手机对学习成绩的影响随机抽取了该校100名学生的期末考试成绩并制成如下的表格,则下列说法正确的是 ( )A.在犯错误的概率不超过0.001的前提下认为使用手机对学习成绩有影响B.在犯错误的概率不超过0.001的前提下认为使用手机对学习成绩没有影响C.有99.5%的把握认为使用手机对学习成绩没有影响D.没有99%的把握认为使用手机对学习成绩有影响成绩优秀 成绩不优秀 合计不使用手机 40 10 50使用手机 5 45 50合计 45 55 100解析 提出统计假设H0:使用手机对学习成绩没有影响.由题表中数据得,χ2= ≈49.495>10.828,所以在犯错误的概率不超过0.001的前提下认为使用手机对学习成绩有影响.故选A.答案 A通过频率分布直方图中的数据作2×2列联表,从而对事件进行独立性检验,准确读取频率分布直方图中的数据,进行分组统计是解题的关键.解决独立性检验的问题要注意明确两类主体,明确研究的两类问题,在写出2×2列联表中a,b,c,d的值时,注意一定要对应.2 独立性检验与统计、概率的综合应用 典例 春节是中华民族最隆重的传统佳节,为调查某地从外地工作回来过年的市民(以下称为“返乡人员”)的人数情况,现对该地某一区域的居民进行抽样调查,并按年龄(单位:岁)分成五组,得到如图所示的频率分布直方图,其中年龄在[20,25)内的人数为10.(1)请根据样本数据将下面的2×2列联表补充完整,并判断是否有99.9%的把握认为是否从外地回来过年与性别相关;返乡人员 本地人员 合计男 15女 10 40合计(2)据了解,该地区今年返乡人员占 .现从该地区居民中随机抽取3人进行调查,记X为这3人中今年返乡人员的人数,求X的分布列与数学期望.参考公式:χ2= ,其中n=a+b+c+d.参考数据:P(χ2≥x0) 0.10 0.05 0.010 0.001x0 2.706 3.841 6.635 10.828思路点拨 (1)由题意及题中频率分布直方图可得2×2列联表,根据表格中的数据,代入公式,求出观测值,同临界值进行比较即可得出结论.(2)根据独立重复试验的概率计算公式,计算出X取不同值时的概率,得到分布列并求得数学期望.解析 (1)由题中频率分布直方图可知年龄在[20,25)内的人数占比为1-(0.020×2+0.060+0.075)×5=0.125,故参与调查的总人数为 =80.2×2列联表如下:提出统计假设:是否从外地回来过年与性别无关.根据2×2列联表中数据可得χ2= ≈11.429>10.828,所以有99.9%的把握认为是否从外地回来过年与性别相关.返乡人员 本地人员 合计男 25 15 40女 10 30 40合计 35 45 80(2)X的可能取值为0,1,2,3,P(X=0)= = ,P(X=1)= = ,P(X=2)= = ,P(X=3)= = .故X的分布列为X 0 1 2 3P 于是E(X)=0× +1× +2× +3× = .素养 综合应用统计与概率知识解决实际问题,发展直观想象、数学建模、数学运算的核心素养 在统计与概率的综合应用问题中,一般要利用散点图、统计图表得到相应的统计信息,通过建立相应的统计与概率模型将实际问题数学化,再利用回归分析或独立性检验及概率知识求解,最后还原成实际问题的解,其中涉及的运算有(1)求概率、分布列、数学期望或方差;(2)求相关系数或回归直线方程;(3)求平均数、中位数、众数等统计量;(4)求统计量χ2. 素养解读 例题 为推进北方地区冬季清洁取暖,国家发改委制定了煤改气、煤改电价格扶植新政策,从而使得煤改气、煤改电用户大幅度增加.下面条形图反映了某省2021年1~7月份煤改气、煤改电的用户总数量(单位:万户).(1) 在下面给定的坐标系中作煤改气、煤改电用户总数量y随月份t变化的散点图,并判断y与t是否具有线性相关关系.如果具有线性相关关系,那么是正相关还是负相关 典例呈现(2)求相关系数,并用相关系数说明y与t之间线性相关的程度;参考数据: (3)建立y关于t的回归方程(系数精确到0.01),并预测2022年11月份该省煤改气、煤改电的用户总数量;(4)从这7个月的煤改气、煤改电的用户总数量数据中随机抽取2个数据,记其中煤改气、煤改电的用户总数量低于1.3的数据个数为X,求X的分布列与数学期望.解题思路 (1)通过作散点图来分析线性相关性.作散点图如图所示:由图可知,各散点基本分布在一条直线附近,所以可以认为y与t具有线性相关关系,且是正相关.(2)由条形图得出相关数据,求出相关系数,进而判断相关性.由题中条形图中数据和参考数据得 =4, =28, ≈0.53, (ti- )(yi- )=2.79,所以 rty= ≈ ≈0.99,因为y与t的相关系数rty接近1,所以y与t的线性相关性很强,从而可以用一元线性回归模型拟合y与t的关系.(4)求出X取每个值时的概率,列出分布列,利用公式求其数学期望.易知这7个月中,只有前3个月的煤改气、煤改电的用户总数量低于1.3,故X的可能取值为0,1,2.P(X=0)= = ,P(X=1)= = ,P(X=2)= = ,所以X的分布列为X 0 1 2P 所以X的数学期望E(X)=0× +1× +2× = .统计与概率作为考查学生应用意识的重要载体,已成为近几年高考的一大亮点和热点.它与其他知识融合、渗透,情境新颖,充分体现了概率与统计的工具性和交汇性,在解题时要注意理解实际问题的意义,使之和相应的概率计算对应起来,从而快速有效地解决问题.思维升华 展开更多...... 收起↑ 资源列表 4.3 独立性检验.docx 4.3 独立性检验.pptx