资源简介 列联表与独立性检验(1)掌握分类变量的含义;(2)通过实例,理解2×2列联表的统计意义;(3)通过实例,了解2×2列联表独立性检验及其应用. 重点一 分类变量与列联表1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,X表示相互对立的两个事件{X=0}和{X=1},Y表示相互对立的两个事件{Y=0}和{Y=1},其中a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的频数,n是样本容量,其样本频数列联表(称为2×2列联表)如表所示:X Y 合计Y=0 Y=1X=0 a b a+bX=1 c d c+d合计 a+c b+d n=a+b+c+d[逐点清]1.(选择性必修第三册127页练习4题改编)下面是一个2×2列联表:X Y 合计y1 y2x1 a 21 73x2 22 25 47合计 b 46 120则表中的a=________,b=________.解析:∵a+21=73,∴a=52.又a+22=b,∴b=74.答案:52 74重点二 独立性检验1.小概率值α的临界值:对于任何小概率值α,可以找到相应的正实数xα,使得下面的关系成立P(χ2≥xα)=α.我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα越大.2.χ2的计算公式:χ2=.3.独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.4.基于小概率值α的检验规则:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立(其中xα为α的临界值).5.应用独立性检验解决实际问题的主要环节:(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;(3)根据检验规则得出推断结论;(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.6.独立性检验中几个常用的小概率值和相应的临界值:α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828[逐点清]2.(选择性必修第三册134页练习4题改编)已知变量X,Y,由它们的样本数据计算得到χ2的观测值χ2≈4.328,χ2的部分临界值表如下:α 0.10 0.05 0.025 0.010 0.005xα 2.706 3.841 5.024 6.635 7.879则最大有____________的把握说变量X,Y有关系(填百分数).解析:因为χ2≈4.328>3.841=x0.05,所以在犯错误的概率不超过0.05的前提下认为变量X,Y有关系.所以最大有95%的把握说变量X,Y有关系.答案:95%分类变量的两种统计表示形式1.(多选)(2022·襄阳高三模拟)根据如图所示的等高堆积条形图,下列叙述正确的是( )A.吸烟患肺病的频率约为0.2B.吸烟不患肺病的频率约为0.8C.不吸烟患肺病的频率小于0.05D.吸烟与患肺病无关系解析:ABC 从等高堆积条形图上可以明显地看出,吸烟患肺病的频率远远大于不吸烟患肺病的频率.A、B、C都正确.2.假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其2×2列联表为X Y 合计y1 y2x1 a b a+bx2 c d c+d合计 a+c b+d a+b+c+d对同一样本,以下数据能说明X与Y有关的可能性最大的一组为( )A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=3,b=2,c=4,d=5解析:D 对于同一样本,|ad-bc|越小,说明x与y相关性越弱,而|ad-bc|越大,说明x与y相关性越强,通过计算知,对于A、B、C都有|ad-bc|=|10-12|=2;对于选项D,有|ad-bc|=|15-8|=7,显然7>2.分类变量的两种统计表示形式(1)等高堆积条形图,根据等高堆积条形图的高度差判断两分类变量是否有关联及关联强弱;(2)2×2列联表,直接利用2×2列联表中的数据进行计算分析,用定量的方式判断两分类变量是否有关联及关联的强弱. 分类变量关联性的判断 (2022·滕州模拟)某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:心脏病 无心脏病秃发 20 300不秃发 5 450根据表中数据得到χ2≈15.968,因为χ2>10.828,则断定秃发与心脏病有关系.那么这种判断出错的可能性为( )A.0.001 B.0.05C.0.025 D.0.01[解析] 因为χ2>10.828=x0.001,因此判断出错的可能性为0.001,故选A.[答案] A如果χ2>xα,则“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”. 某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3 000人,计算得χ2=6.023,则市政府断言市民收入增减与旅游愿望有关系的可信程度是( )A.90% B.95%C.99% D.99.5%解析:B 由临界值表,得6.023>3.841=x0.05,所以可断言市民收入增减与旅游愿望有关系的可信程度为95%.独立性检验的应用 (2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品 二级品 合计甲机床 150 50 200乙机床 120 80 200合计 270 130 400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:K2=,P(K2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828[解] (1)根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床生产的产品中一级品的频率是=0.6.(2)根据题表中的数据可得K2==≈10.256.因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.独立性检验的三个步骤(1)根据样本数据制成2×2列联表;(2)根据公式χ2=,计算χ2的值;(3)查表比较χ2与临界值xα的大小关系,作统计判断. (2020·新高考Ⅰ卷)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表: SO2PM2.5 [0,50] (50,150] (150,475][0,35] 32 18 4(35,75] 6 8 12(75,115] 3 7 10(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表: SO2PM2.5 [0,150] (150,475][0,75](75,115](3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?附:K2=,P(K2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828解:(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.(2)根据抽查数据,可得2×2列联表: SO2PM2.5 [0,150] (150,475][0,75] 64 16(75,115] 10 10(3)根据(2)的列联表得K2=≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.[课时过关检测]A级——基础达标1.想要检验是否喜欢参加体育活动与性别有关,应该检验( )A.零假设H0:男性喜欢参加体育活动B.零假设H0:女性不喜欢参加体育活动C.零假设H0:喜欢参加体育活动与性别有关D.零假设H0:喜欢参加体育活动与性别无关解析:D 独立性检验假设有反证法的意味,应假设两类变量(而非变量的属性)无关,这时的χ2应该很小,如果χ2很大,则可以否定假设,如果χ2很小,则不能够肯定或者否定假设.2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得χ2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( )A.0.1% B.1% C.99% D.99.9%解析:C 易知χ2=7.01>6.635=x0.01,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.3.(2022·湖北四校联考)两个分类变量X和Y,值域分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若X与Y有关系的可信程度不小于97.5%,则c等于( )A.3 B.4C.5 D.6附:α 0.05 0.025xα 3.841 5.024解析:A 列2×2列联表如下:X Y 合计y1 y2x1 10 21 31x2 c d 35合计 10+c 21+d 66故χ2=≥5.024.把选项A、B、C、D代入验证可知选A.4.针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,调查样本中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若在犯错误的概率不超过5%的前提下认为是否追星和性别有关,则调查样本中男生至少有( )参考数据及公式如下:χ2=,α 0.050 0.010 0.001xα 3.841 6.635 10.828A.12人 B.11人C.10人 D.18人解析:A 设男生人数为x,依题意可得列联表如下:单位:人性别 追星 合计喜欢追星 不喜欢追星男生 x女生合计 x若在犯错误的概率不超过5%的前提下认为是否喜欢追星和性别有关,则χ2>3.841,由χ2==x>3.841,解得x>10.24,因为,为整数,所以若在犯错误的概率不超过5%的前提下认为是否喜欢追星和性别有关,则男生至少有12人.故选A.5.(多选)有两个分类变量X,Y,其列联表如下所示,Y1 Y2X1 a 20-aX2 15-a 30+a其中a,15-a均为大于5的整数,根据小概率值α=0.05的χ2独立性检验,认为X,Y有关,则a的值可能为( )A.8 B.9C.7 D.6解析:AB 根据公式,得χ2==>3.841=x0.05,根据a>5且15-a>5,a∈Z,求得当a=8或9时满足题意.6.(多选)下列关于χ2的说法正确的是( )A.根据2×2列联表中的数据计算得出χ2=6.735>6.635=x0.01,则有99%的把握认为两个分类变量有关系B.χ2越大,认为两个分类变量有关系的把握性就越大C.χ2是用来判断两个分类变量有关系的可信程度的随机变量D.χ2=,其中n=a+b+c+d为样本容量解析:ABC D选项的公式中分子应该是n(ad-bc)2.故选A、B、C.7.世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:单位:人年龄 是否喜欢西班牙队 合计不喜欢西班牙队 喜欢西班牙队高于40岁 p q 50不高于40岁 15 35 50合计 a b 100若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为,则在犯错误的概率不超过________下认为年龄与西班牙队的被喜欢程度有关.附:χ2=.α 0.15 0.10 0.05 0.025 0.010 0.005 0.001xα 2.072 2.706 3.841 5.024 6.635 7.879 10.828解析:设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A,由已知得P(A)==,所以q=25,p=25,a=40,b=60.χ2==≈4.167>3.841=x0.05.根据小概率值α=0.05的χ2独立性检验,在犯错的概率不超过5%下认为年龄与西班牙队的被喜欢程度有关.答案:5%8.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验,发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用下面两种方法进行检验:(1)用等高堆积条形图;(2)根据小概率值α=0.025的独立性检验.解:建立性别与态度的2×2列联表如下:单位:人性别 态度 合计肯定 否定男生 22 88 110女生 22 38 60合计 44 126 170根据列联表中所给的数据,可求出男生中作肯定态度的频率为=0.2,女生中作肯定态度的频率为≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.零假设为H0:性别和态度没有关系.根据列联表中的数据得到χ2=≈5.622>5.024=x0.025.根据小概率值α=0.025的χ2独立性检验,我们推断H0不成立,即认为性别和态度有关系,此推断认为犯错误的概率不大于0.025.B级——综合应用9.某校对学生进行心理障碍测试,得到的数据如下表:焦虑 说谎 懒惰 总计女生 5 10 15 30男生 20 10 50 80总计 25 20 65 110根据以上数据可判断在这三种心理障碍中,与性别关系最大的是( )A.焦虑 B.说谎C.懒惰 D.以上都不对解析:B 对于焦虑,说谎,懒惰三种心理障碍,设它们观测值分别为χ,χ,χ,由表中数据可得:χ=≈0.863,χ=≈6.366,χ=≈1.410,因为χ的值最大,所以说谎与性别关系最大.故选B.10.某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表所示:喜欢 不喜欢 合计大于40岁 20 5 2520岁至40岁 10 20 30合计 30 25 55根据小概率值α=0.005的独立性检验,________推断出在犯错误的概率不大于0.005的情况下认为喜欢“人文景观”景点与年龄有关(填“能”或“不能”).解析:零假设为H0:喜欢“人文景观”景点与年龄无关.由公式χ2=得,χ2≈11.978>7.879=x0.005,根据小概率值α=0.005的χ2独立性检验,我们推断H0不成立,即认为喜欢“人文景观”景点与年龄有关,此推断认为犯错误的概率不大于0.005.答案:能11.为调查某社区居民的业余生活状况,研究这一社区居民在20:00~22:00时间段的休闲方式与性别的关系,随机调查了该社区80人,得到下面的数据表:单位:人性别 休闲方式 合计看电视 看书男 10 50 60女 10 10 20合计 20 60 80(1)根据小概率值α=0.01的独立性检验,能否认为“在20:00~22:00时间段居民的休闲方式与性别有关系”?(2)将此样本的频率估计为总体的概率,在该社区的所有男性中随机调查3人,设调查的3人在这一时间段以看书为休闲方式的人数为随机变量X,求X的数学期望和方差.解:(1)零假设为H0:在20:00~22:00时间段居民的休闲方式与性别无关系,根据2×2列联表得,χ2==≈8.889>6.635=x0.01,根据小概率值α=0.01的χ2独立性检验,我们推断H0不成立,即认为“在20:00~22:00时间段居民的休闲方式与性别有关系”,此推断认为犯错误的概率不超过0.01.(2)由题意得,X~B,且P(X=k)=Ck3-k,k=0,1,2,3,故E(X)=np=3×=,D(X)=np(1-p)=3××=.C级——迁移创新12.国家创新指数是反映一个国家科学技术和创新竞争力的综合指数.对国家创新指数得分排名前40的国家的有关数据进行收集、整理、描述和分析.下面给出了部分信息:①国家创新指数得分的频率分布直方图(数据分成7组:30≤x<40,40≤x<50,50≤x<60,60≤x<70,70≤x<80,80≤x<90,90≤x≤100).②国家创新指数得分在60≤x<70这一组的是:61.7,62.4,63.6,65.9,66.4,68.5,69.1,69.3,69.5.③40个国家的人均国内生产总值(万美元)和国家创新指数得分情况统计图:④中国的国家创新指数得分为69.5,人均国内生产总值9 960美元.(以上数据来源于《国家创新指数报告(2018)》)根据以上信息,解答下列问题:(1)中国的国家创新指数得分排名世界第几?(2)是否有99.9%的把握认为“人均国内生产总值影响国家创新指数得分”?(3)用(1)(2)得到的结论,结合所学知识,合理解释④中客观存在的数据.附:χ2=.α 0.050 0.010 0.001xα 3.841 6.635 10.828解:(1)由国家创新指数得分的频率分布直方图可得,“国家创新指数得分”在70≤x≤100的频率为(0.03+0.005+0.005)×10=0.4.因此,中国的国家创新指数得分排名为0.4×40+1=17.(2)由40个国家的人均国内生产总值和国家创新指数得分情况统计图可得2×2列联表如下:国家创新指数得分 人均国内生产总值 合计人均国内生产总值≤2 人均国内生产总值>2国家创新指数得分≥65 2 20 22国家创新指数得分<65 12 6 18合计 14 26 40由2×2列联表可得χ2=≈14.43,由于14.43>10.828,所以有99.9%的把握认为“人均国内生产总值影响国家创新指数得分”.(3)由(2)的结论说明:“人均国内生产总值与国家创新指数得分成线性相关关系”;事实上,我国的人均国内生产总值并不高,但是我国的国家创新指数相对比较高,恰恰说明了“中国特色社会主义制度的优越性,能够集中社会力量办大事”. 展开更多...... 收起↑ 资源预览