资源简介 8.3.2 独立性检验1. 理解独立性检验的基本思想.2. 了解随机变量χ2的含义.3. 理解独立性检验的基本步骤.活动一 随机变量χ2和独立性检验问题:最新研究发现,花太多时间玩电脑游戏的儿童,患多动症的风险会加倍.青少年的大脑会很快习惯闪烁的屏幕、变幻莫测的电脑游戏,一旦如此,他们在教室等视觉刺激较少的地方,就很难集中注意力.研究人员对1 323名年龄在7岁到10岁的儿童进行调查,并在孩子父母的帮助下记录了他们在13个月内玩电脑游戏的习惯,同时教师记下了这些孩子出现注意力不集中问题.统计获得下列数据:注意力不集中 注意力集中 合计不玩电脑游戏 268 357 625玩电脑游戏 489 209 698合计 757 566 1 323从这则新闻中可以得到什么结论?思考1 用什么量刻画玩电脑游戏与注意力不集中有关系?1. 独立性检验为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量χ2=,其中n=a+b+c+d.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.2. 临界值统计学家们根据统计数据得到了如下的χ2临界值表:α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828例如,对于一个小概率值α=0.05,我们有如下的具体检验规则:(1) 当χ2≥x0.05=3.841时,我们推断H0不成立,即认为X与Y不独立,该推断犯错误的概率不超过0.05;(2) 当χ2思考2 依据小概率值0.001的卡方独立性检验,分析本节开头问题中的数据,能否据此推断玩电脑游戏与注意力不集中之间有关系?思考3 用频率的差异和用χ2独立性检验分别推断两个分类变量的关联性,哪个更理性、更全面?理由是什么?活动二 实际应用 例1 某儿童医院用甲、乙两种疗法治疗小儿消化不良. 采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名. 试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.例2 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9 965人, 得到成对样本观测数据的分类统计结果,如下表所示. 依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.单位:人吸烟 肺癌 合计非肺癌患者 肺癌患者非吸烟者 7 775 42 7 817吸烟者 2 099 49 2 148合计 9 874 91 9 965应用独立性检验解决实际问题大致应包括以下几个主要环节:(1) 提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2) 根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3) 根据检验规则得出推断结论.(4) 在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.思考4 独立性检验的思想类似于反证法,能说明二者之间的相同和不同之处吗?1. 对于分类变量X与Y的随机变量χ2的值,下列说法中正确的是( )A. χ2越大,“X与Y有关系”的可信程度越小B. χ2越小,“X与Y有关系”的可信程度越小C. χ2越接近于0,“X与Y没有关系”的可信程度越小D. χ2越大,“X与Y没有关系”的可信程度越大2. (2024湛江期末)某学校对本校学生的课外阅读进行抽样调查,抽取25名女生,25名男生调查,得到如下的2×2列联表,通过数据分析,下列说法中正确的是( )喜欢课外阅读 不喜欢课外阅读 合计男生 5 20 25女生 15 10 25合计 20 30 50参考数据及公式如下:χ2=,其中n=a+b+c+d.α 0.050 0.010 0.001xα 3.841 6.635 10.828A. 不能根据小概率值α=0.05的χ2独立性检验,认为喜欢课外阅读与学生性别之间有关联B. 根据小概率值α=0.01的χ2独立性检验,认为喜欢课外阅读与学生性别之间有关联C. 根据小概率值α=0.001的χ2独立性检验,认为喜欢课外阅读与学生性别之间有关联D. 根据小概率值α=0.05的χ2独立性检验,认为喜欢课外阅读与学生性别之间无关联3. (多选)(2024天津和平期末)为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了100人,得到成对样本观测数据的分类统计结果,如下列联表所示(单位:人),根据数据计算得χ2≈22.161,依据小概率值α=0.001的独立性检验,小概率值α=0.001相应的临界值为x0.001=10.828,则下列结论中正确的是( )吸烟 肺癌 合计非肺癌患者 肺癌患者非吸烟者 25 10 35吸烟者 15 m 65合计 40 60 100A. m=50B. 若从这100人中随机抽取2人,则2人都是非肺癌患者的概率为C. 在犯错误的概率不超过0.001的前提下,认为吸烟与患肺癌之间有关联D. 在犯错误的概率不超过0.001的前提下,认为吸烟与患肺癌之间无关联4. 为了判断某高中学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下的2×2列联表:理科 文科男 13 10女 7 20已知P(χ2≥3.841)≈0.05,P(χ2≥6.635)≈0.01.根据表中的数据,计算得到χ2=≈4.844,则认为选修文科与性别有关系出错的概率约为________.5. (2024济南期末)长时间近距离看电子产品会影响视力.泉泉调查了某校1 000名学生,发现40%的学生近视;而该校20%的学生每天近距离看电子产品时间超过1h,这些人的近视率为50%.(1) 请完成下列2×2列联表,并根据小概率值α=0.005的独立性检验,判断近视与每天近距离看电子产品时间超过1h是否有关联;近视 每天近距离看电子产品的时间超过1h 合计是 否是否合计 1 000(2) 研究发现,近视儿童每年眼轴的增速要大于非近视儿童,长时间近距离看电子产品会导致眼轴快速增长,最终影响视力.高度近视者的眼轴长度一般大于26mm.如图是每天近距离看电子产品时间超过1h近视儿童和非近视儿童6~16岁的眼轴生长发育散点图.①根据散点图判断,y=a+bx和y=c+d ln x哪一个更符合每天近距离看电子产品时间超过1h的近视儿童的眼轴生长发育情况(给出判断即可,不必说明理由) ②根据①中的判断结果,建立该类近视儿童眼轴长度y(单位:mm)关于年龄x(6≤x≤16,且x∈N*)的经验回归方程;③根据②中的结果,估计该类近视儿童开始高度近视时的年龄(结果保留整数).参考公式及数据:χ2=,其中n=a+b+c+d.α 0.01 0.005 0.001xα 6.635 7.879 10.828在经验回归方程=+x中,=,=-,散点图1中=23.9,=34.1;散点图2中 =23.09,=10.725.8.3.2 独立性检验【活动方案】问题:不玩游戏的儿童的注意力比玩游戏的儿童的注意力更集中.思考1:假设H0表示玩电脑游戏与注意力不集中没有关系(通常称H0为零假设);用事件A表示玩电脑游戏,B表示注意力不集中.若H0成立,则事件A与B独立,所以P(AB)=P(A)·P(B).因为P(AB)=,P(A)=,P(B)=,其中n=a+b+c+d,所以=·,即(a+b+c+d)c=(c+d)·(a+c),即ad=bc,所以 |ad-bc|越小,说明玩电脑游戏与注意力不集中之间的关系越弱;|ad-bc|越大,说明玩电脑游戏与注意力不集中之间的关系越强.思考2:由卡方计算公式得到χ2=≈99.494>10.828=x0.001.因此,可以推断玩电脑游戏与注意力不集中之间有关系,该推断犯错误的概率不超过0.1%,即有99.9%的把握认为玩电脑游戏与注意力不集中之间有关系.思考3:由于样本的随机性可能导致用频率的差异而得出的结论是错误的,而用χ2独立性检验是对零假设H0进行了检验,用临界值来推断H0在小概率发生的可能性,所以用χ2独立性检验得到的结果更理性、更全面.例1 零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,如下表所示.单位:人疗法 疗效 合计未治愈 治愈甲 15 52 67乙 6 63 69合计 21 115 136根据列联表中的数据,经计算得到χ2=≈4.881<7.879=x0.005.根据小概率值α=0.005的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.例2 零假设为H0:吸烟与患肺癌之间无关联.根据列联表中的数据,经计算得到χ2=≈56.632>10.828=x0.001.根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.根据表中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为≈0.994 6 和 ≈0.005 4;吸烟者中不患肺癌和患肺癌的频率分别为≈0.977 2 和 ≈0.022 8.由≈4.2可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上.于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.思考4:简单地说,反证法是在某种假设H0之下,推出一个矛盾结论,从而证明H0不成立;而独立性检验是在零假设H0之下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不大于这个小概率.另外,在全部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误.【检测反馈】1. B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大;χ2越小,“X与Y有关系”的可信程度越小.2. B 由题意,得χ2==.因为6.635<<10.828,所以根据小概率值α=0.01的χ2独立性检验,认为喜欢课外阅读与学生性别之间有关联.3. ABC 对于A,由列联表,得m=50,故A正确;对于B,2人都是非肺癌患者的概率为P===,故B正确;对于C,D,因为χ2≈22.161>10.828=x0.001,所以在犯错误的概率不超过0.001的前提下,认为吸烟与患肺癌之间有关联,故C正确,D错误.4. 0.05 因为χ2≈4.844>3.841,故判断出错的概率约为0.05.5. (1) 由题意,补充2×2列联表如下:近视 每天近距离看电子产品时间超过1h 合计是 否是 100 300 400否 100 500 600合计 200 800 1000零假设为H0:近视与每天近距离看电子产品时间超过1h无关联.根据列联表中的数据,经计算得到χ2==≈10.417,因为10.417>x0.005=7.879,所以根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为近视与每天近距离看电子产品时间超过1h有关联,此推断犯错误的概率不大于0.005.(2) ①y=a+bx适宜每天近距离看电子产品时间超过1h的近视儿童的眼轴生长发育情况.②由题意可得(xi-)2=110,则b∧===0.31.又=11,=23.9,所以=-=23.9-0.31×11=20.49,故该类近视儿童眼轴长度y关于年龄x的经验回归方程为=0.31x+20.49.③由=0.31x+20.49>26,解得x>17,所以该类近视儿童开始高度近视时的年龄大约为18岁. 展开更多...... 收起↑ 资源预览