资源简介 4.3 独立性检验 本题中要得P(A),P(B), P(AB)的准确值需耗费巨大的人力、物力等,比较难确定,甚至是不可能的. P(AB)=P(A)P(B) 任意抽取某市的一名学生,记A:喜欢长跑,B:是女生. 如果事件A,B独立,P(A),P(B), P(AB)满足的充要条件是什么? P(A),P(B),P(AB)的准确值易得吗? 如何判断A、B是否独立? 1.通过实例了解独立性检验的基本思想,会用独立性检验解决简单的实际问题. 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解学生跑步情况.为此对学生跑步情况进行了抽查,抽查数据如下:共抽查110个学生,其中女生有50人;且这110人中,喜欢长跑的有60人,其中女生20人.为了方便起见,把数据整理成如下的表格形式: 因为这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表. 问题:任意抽取一名学生,记A:喜欢长跑,B:是女生. (1)喜欢长跑的概率P(A)可以估计为多少? 是女生的概率P(B)可以估计为多少? 喜欢长跑且是女生的概率P(AB)可以估计为多少? (2)可以利用P(AB)=P(A)P(B)是否成立来判断A与B是否独立吗?为什么? (2)不可以. 事件A与B独立的充要条件是P(AB)=P(A)P(B),通过概率的计算来判断两个事件是否独立.因为(1)中P(A),P(B),P(AB)都是根据样本数据得到的估计值,而估计是有误差的. 因此直接用P(AB)=P(A)P(B)是否成立来判断A与B是否独立是不合理的. (3)如果A与B独立,P(A)P(B)与P(AB)大小关系如何?由此理论上和实际上,喜欢长跑的女生数分别是多少?它们之间大小关系如何? 如果A与B独立,那么P(A)P(B)应该可以作为P(AB)的近似值,这是从统计意义上做出的合理推断,即尽管随机性会对数据的准确性带来影响,但理论上,如果A与B是独立的,则这种影响也一定不会太大. 喜欢长跑的女生数 理论上: 实际上: 近似相等 (4)能否找到一个量或选用一个标准,来说明A,B之间的独立性是否成立?说说你的想法. 由(3)可知,如果A与B独立,那么P(A)P(B)应该可以作为P(AB)的近似值.因此 不会太大. 其值应该也不会太大. ① 为了减小随机性的影响做如下处理: 考虑 与B,A与 , 与 ,可知 都不会太大. 若记①+②+③+④=χ2(读作“卡方”),代入数据算得χ2≈7.8. ② ③ ④ 这也可以说成,在犯错误的概率不超过1%的前提下,可以认为“喜欢长跑”与“是女生”不独立(也称为是否喜欢长跑与性别有关);或说有99%的把握认为是否喜欢长跑与性别有关. 概率学上可以证明,如果A与B独立,则χ2≥6.635的概率只有1%,即P(χ2≥6.635)=1%.因为算出的χ2值7.8大于6.635,所以若A与B独立(即“喜欢 长跑”与“是女生”独立),则该事件发生的概率不超过1%. 问题1:若χ2≥6.635,关于事件A,B可以得到什么结论?χ2<3.841呢? 若χ2≥6.635,查表得P(χ2≥6.635)=0.01,即在犯错误的概率不超过1%的前提下,可以认为事件A,B有关;或有99%的把握认为A与B有关. 若χ2<3.841,查表的P(χ2≥3.841)=0.05,即没有充分证据显示事件A,B有关. 问题2:若χ2≥k成立,关于A,B可以得到的什么结论?χ2当χ2≥k,则有1-α的把握认为A与B有关;当χ2即独立性检验通常得到的结果有两种,或者是有1-α的把握认为A与B有关,或者没有1-α的把握认为A与B有关. A ???? 合计 B a b a+b ???? c d c+d 合计 a+c b+d a+b+c+d A 合计 B a b a+b c d c+d 合计 a+c b+d a+b+c+d 思考:试判断事件A与B之间是否有关联? 零假设????0:假设A,B没有关联 ? 常用的临界值如下表. {5C22544A-7EE6-4342-B048-85BDC9FD1C3A}P(χ2≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 ①当????2≥x0时,我们就推断 H0 不成立,即认为X和Y有关联. ? ②当????2???0 时,我们没有充分证据推断 H0 不成立,可以认为X和Y没有关联. ? 该推断犯错误的概率不超过???? ? 例1 某儿童医院用甲、乙两种疗法治疗小儿消化不良. 采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据: 抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名; 抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好. 由已知数据列出列联表. 解: 疗法 疗效 合计 未治愈 治愈 甲 15 52 67 乙 6 63 69 合计 21 115 136 根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异. 零假设为H0: 疗法与疗效独立,即两种疗法效果没有差异. 经计算得到: ????2=136×(15×63?52×6)267×69×21×115 ≈4.881. ? <7.879=????0.005. ? 结论:若对调两种疗法的位置或对调两种疗效的位置,这样做不影响????2取值的计算结果. ? {5940675A-B579-460E-94D1-54222C63F5DA}疗法 疗效 合计 未治愈 治愈 乙 6 63 69 甲 15 52 67 合计 21 115 136 {5940675A-B579-460E-94D1-54222C63F5DA}疗法 疗效 合计 治愈 未治愈 甲 52 15 67 乙 63 6 69 合计 115 21 136 ????2=136×(52×6?15×63)269×67×21×115≈4.881 ? ????2=136×(52×6?15×63)267×69×21×115≈4.881 ? 问题1:若对调两种疗法的位置或对调两种疗效的位置会影响????2取值的计算结果吗? ? 解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异. 根据列联表中的数据,经计算得到 ????2=136×(15×63?52×6)267×69×21×115≈4.881. ? 根据小概率值????=0.05的????2独立性检验,我们推断 H0不成立,即可以认为两种疗法效果有差异,该推断犯错误的概率不超过0.05,即有95%的把握认为疗法与疗效是有关的. ? 问题2:根据小概率值????=0.05的独立性检验,分析乙种疗法的效果是否比甲种疗法好. ? 甲种疗法未治愈和治愈的频率分别是 1567≈0.224和5267≈0.776 乙种疗法未治愈和治愈的频率分别是 669≈0.087和6369≈0. 913 ? 因此可以推断乙种疗法的效果比甲种疗法好。 >3.841=????0.05. ? 问题3:根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,为什么会得出不同的结论? 对于同一抽样数据,计算出来的????2的值是确定的.在独立性检验中,基于不同的小概率值的α的检验规则,对应不同的临界值xα,其与????2的大小关系可能不同,相当于检验的标准发生变化,因此结论可能会不同. ? 独立性检验解决实际问题大致应包括以下四个主要环节: 归纳总结 (1)零假设 提出零假设????0:X和Y相互独立,并给出在实际问题中的解释。 ? (2)计算χ2 根据抽样数据整理出2×2列联表,计算的值χ2 。 (3)比较 根据检验规则,将求出χ2的值与临界值k进行比较,得出推断结论。 ①当????2≥????0时,我们就推断 H0 不成立,即认为X和Y不独立.该推断犯错误的概率不超过????. ②当????2<????0时,我们没有充分证据推断 H0 不成立,可以认为X和Y独立 判断时把计算结果与临界值比较,临界值xα越大,概率值α越小. ? 1.给出下列实际问题: ①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.其中用独立性检验可以解决的问题有( ) A.①②③ B.②④⑤ C.②③④⑤ D.①②③④⑤ B 2.某班主任对全班50名学生进行了作业量多少的调查,数据如下表: 下列叙述中,正确的是( ) A.有99%的把握认为“喜欢玩电脑游戏与认为作业量的多少有关系” B.有95%的把握认为“喜欢玩电脑游戏与认为作业量的多少无关系” C.有99%的把握认为“喜欢玩电脑游戏与认为作业量的多少无关系” D.有95%的把握认为“喜欢玩电脑游戏与认为作业量的多少有关系” D ? 认为作业多 认为作业不多 总数 喜欢玩电脑游戏 18 9 27 不喜欢玩电脑游戏 8 15 23 总数 26 24 50 展开更多...... 收起↑ 资源预览