资源简介 (共29张PPT)温故知新:1.分类变量:用以区别不同的现象或性质的一种特殊的随机变量,称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.2.列联表:将形如下表这种形式的数据统计表称为2×2列联表.2×2列联表给出了成对分类变量数据的交叉分类频数.组别 甲(Y=0) 乙(Y=1) 合计A(X=0) a b a+bB(X=1) c d c+d合计 a+c b+d a+b+c+d8.3 列联表与独立性检验8.3.2 独立性检验前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.设X和Y为定义在以Ω为样本空间上,且取值于{0,1}的成对分类变量,则判断事件{X=1}和{Y=1}之间是否有关联,主要是看以下假定关系是否成立.1.零假设或原假设:在这里我们通常把H0称为零假设或原假设.其中P(Y=1|X=0)表示从{X=0}中随机选一个样本点,该样本点属于{X=0,Y=1}的概率;P(Y=1|X=1)表示从{X=1}中随机选一个样本点,该样本点属于{X=1,Y=1}的概率.由条件概率的定义可知,零假设H0等价于零假设或原假设:由于{X=0}和{X=1}为对立事件,故有由此,零假设H0等价于{X=1}和{Y=1}独立.由于下列四条性质彼此等价:{X=0}和{Y=0}独立;{X=0}和{Y=1}独立;{X=1}和{Y=0}独立;{X=1}和{Y=1}独立.如果这些性质成立,我们就称分类变量X和Y独立. 这相当于下面四个等式成立:②因此,我们可以用概率语言,将零假设改述为H0:分类变量X和Y独立.思考:如何基于②中的四个等式及下列2×2列联表中的数据,构造适当的统计量,对成对分类变量X和Y是否相互独立作出推断 X Y 合计Y=0 Y=1X=0 a b a+bX=1 c d c+d合计 a+c b+d a+b+c+d则事件{X=0,Y=0}发生的频数的期望值(或预期值)为所以如果零假设H0成立,下面四个量的取值都不应该太大:反之,当这些量的取值较大时,就可以推断H0不成立.显然,分别考虑上面四个差的绝对值很困难,我们需要找到一个既合理又能够计算分布的统计量,来推断H0是否成立.一般来说,若频数的期望值较大,则差的绝对值也会较大;而若频数的期望值较小,则相应的差的绝对值也会较小. 为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:该表达式可化简为:上述表达式是χ2的计算公式,χ2读作“卡方”.X Y 合计Y=0 Y=1X=0 a b a+bX=1 c d c+d合计 a+c b+d a+b+c+d注:n=a+b+c+d随机变量χ2取值的大小可作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立.那么,究竟χ2大到什么程度,可以推断H0不成立呢 或者说,怎样确定判断χ2大小的标准呢 小概率值α的临界值:忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2 ≥xα)=α成立. 我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准,概率值α越小,临界值xα越大.由P(χ2 ≥xα)=α可知,只要把概率值α取得充分小,在假设H0成立的情况下,事件{χ2 ≥xα}是不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断H0不成立.χ2计算公式:注:n=a+b+c+d基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值.α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828例如,对于小概率值α=0.05,我们有如下的具体检验规则:(1)当χ2 ≥x0.05=3.841时,我们推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过0.05;(2)当χ2 H0:分类变量X和Y独立.解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.根据表中的数据,计算得到:例2:依据小概率值α=0.1的χ2 独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异 学校 数学成绩 合计不优秀(Y=0) 优秀(Y=1)甲校(X=0) 33 10 43乙校(X=1) 38 7 45合计 71 17 88α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.思考:例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗 事实上,如前所述,例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以例1的推断依据不太充分,在例2中,我们用χ2独立性检验对零假设H0进行了检验.通过计算,发现χ2 ≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0 ,推断出两校学生的数学成绩优秀率没有显著差异的结论. 这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的. 因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.由此可见,相对于简单比较两个频率的推断,用χ2独立性检验得到的结果更理性、更全面,理论依据也更充分.零假设为H0:疗法与疗效独立,即两种疗法效果没有差异. 由已知数据列出列联表.例3:某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.解:疗法 疗效 合计未治愈 治愈甲 15 52 67乙 6 63 69合计 21 115 136根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828对犯错误概率的解释:在零假设H0成立的前提下,随着小概率值α的逐渐减小,χ2统计量对应的临界值xα逐渐增大,则事件{χ2 ≥xα}越来越不容易发生,零假设越来越不容易被拒绝;随着小概率值α的逐渐增大, χ2统计量对应的临界值xα逐渐减小,则事件{χ2 ≥xα}越来越容易发生,零假设越来越容易被拒绝.例如,对于例3中的数据,经计算得χ2 ≈4.881.(1)当小概率值α=0.005时,x0.005=7.879,此时χ2 ≈4.881<7.879,则没有充分理由拒绝零假设. 因此可以接受H0,即认为两种疗法的效果没有差异.(2)当小概率值α=0.05时,x0.05=3.841,此时χ2 ≈4.881>3.841,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05.(3)当小概率值α=0.1时,x0.05=2.706,此时χ2 ≈4.881>2.706,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.1.观察:在例3的2×2列联表中,若对调两种疗法的位置或对调两种疗效的位置,则卡方计算公式中a,b,c,d的赋值都会相应地改变. 这样做会影响χ2取值的计算结果吗 疗法 疗效 合计未治愈 治愈甲 15 52 67乙 6 63 69合计 21 115 136这说明,对调两种疗法的位置,不会影响χ2取值的计算结果,同理对调两种疗效的位置也不会影响结果.对调前疗法 疗效 合计未治愈 治愈乙 6 63 69甲 15 52 67合计 21 115 136对调后(1)用样本估计总体思想估计该中学一年级学生的近视率;(2)能否在犯错误的概率不超过0.01的前提下认为不足够的户外暴露时间与近视有关系?解:(1)零假设为H0:户外暴露时间与近视率相互独立.由题可知该中学一年级学生近视的人数为50,总数为100,利用样本估计总体思想可知该中学一年级学生的近视率为变式1:为了研究每周累计户外暴露时间是否足够(单位:小时)与近视发病率的关系,对某中学一年级100名学生进行不记名问卷调查,得到如下数据: 近视 不近视足够的户外暴露时间 20 35不足够的户外暴露时间 30 15α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828(2)由卡方计算公式,可得解:在犯错误的概率不超过0.01的前提下可以推断H0不成立,即认为不足够的户外暴露时间与近视有关系.(1)用样本估计总体思想估计该中学一年级学生的近视率;(2)能否在犯错误的概率不超过0.01的前提下认为不足够的户外暴露时间与近视有关系?变式1:为了研究每周累计户外暴露时间是否足够(单位:小时)与近视发病率的关系,对某中学一年级100名学生进行不记名问卷调查,得到如下数据: 近视 不近视足够的户外暴露时间 20 35不足够的户外暴露时间 30 15α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828能否在犯错误的概率不超过0.001的前提下认为不足够的户外暴露时间与近视有关系?由卡方计算公式,可得解:没有充分证据推断H0不成立,因此可以认为H0成立,即不足够的户外暴露时间与近视没有关系.变式2:为了研究每周累计户外暴露时间是否足够(单位:小时)与近视发病率的关系,对某中学一年级100名学生进行不记名问卷调查,得到如下数据: 近视 不近视足够的户外暴露时间 20 35不足够的户外暴露时间 30 15α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828零假设为H0:吸烟与患肺癌之间无关联,由表中数据可得解:α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828根据小概率值α=0.001的χ2独立性检验,推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.吸烟 肺癌 合计非肺癌患者 肺癌患者非吸烟者 7775 42 7817吸烟者 2099 49 2148合计 9874 91 9965例4:为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如下表所示. 依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.吸烟 肺癌 合计非肺癌患者 肺癌患者非吸烟者 7775 42 7817吸烟者 2099 49 2148合计 9874 91 9965解:根据列联表中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为吸烟者中不患肺癌和患肺癌的频率分别为在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上,于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.例4:为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如下表所示. 依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.应用独立性检验解决实际问题大致应包括以下几个主要环节:(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.注意,上述几个环节的内容可以根据不同情况进行调整. 例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.思考:独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗 简单地说,反证法是在某种假设H0之下,推出一个矛盾结论,从而证明H0不成立;而独立性检验是在零假设H0之下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不大于这个小概率. 另外,在全部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误.独立性检验的本质是比较观测值与期望值之间的差异,由χ2所代表的这种差异的大小是通过确定适当的小概率值进行判断的. 这是一种非常重要的推断方法,不仅有相当广泛的应用,也开启了人类认识世界的一种新的思维方式.课堂小结:1. 小概率值α的临界值:忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2 ≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准,概率值α越小,临界值xα越大.2. χ2计算公式:3. 基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2注:n=a+b+c+d1.对于例3中的抽样数据,采用小概率值α=0.05的独立性检验,分析乙种疗法的效果是否比甲种疗法好.根据题意,可得解:α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828根据小概率值α=0.05的χ2独立性检验,推断H0不成立,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05.甲种疗法未治愈和治愈的频率分别是乙种疗法未治愈和治愈的频率分别是因此可以推断乙种疗法的效果比甲种疗法好.请看课本P134:练习12.根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,是否会得出不同的结论 为什么 解:可能会得出不同的结论.理由如下:对同一抽样数据,计算出来的χ2的值是确定的,在独立性检验中,基于不同的小概率值α的检验规则,对应不同的临界值x0,其与χ2的大小关系可能不同,相当于检验的标准发生变化,因此结论可能会不同.请看课本P134:练习23.为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有放回简单随机样本的数据,得到如下列联表:依据α=0.05的独立性检验,分析药物A对预防疾病B的有效性.药物A 疾病B 合计未患病 患病未服用 29 15 44服用 47 14 61合计 76 29 105α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828零假设为H0:药物A与预防疾病B无关联,即药物A对预防疾病B没有效果,根据列联表中数据,经计算得到根据小概率值α=0.05的χ2独立性检验,没有充分证据推断H0不成立,即可以认为药物A对预防疾病B没有效果.解:请看课本P134:练习34.从某学校获取了容量为400的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下:解:依据α=0.05的独立性检验,能否认为数学成绩与语文成绩有关联 数学成绩 语文成绩 合计不优秀 优秀不优秀 212 61 273优秀 54 73 127合计 266 134 400零假设为H0:数学成绩与语文成绩独立,即数学成绩与语文成绩没有关联,根据列联表中数据,经计算得到根据小概率值α=0.05的χ2独立性检验,我们可以推断H0不成立,即认为数学成绩与语文成绩有关联,该推断犯错误的概率不超过0.05.请看课本P134:练习4α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828解:数学成绩不优秀的人中语文成绩不优秀和优秀的频率分别为数学成绩优秀的人中语文成绩不优秀和优秀的频率分别为由此可以看出,数学成绩优秀的人中语文成绩优秀的频率明显高于数学成绩不优秀的人中语文成绩优秀的频率.根据频率稳定于概率的原理,我们可以推断,数学成绩优秀的人其语文成绩优秀的概率较大.数学成绩 语文成绩 合计不优秀 优秀不优秀 212 61 273优秀 54 73 127合计 266 134 400请看课本P134:练习4巩固训练:为了检验两种不同的课堂教学模式对学生的成绩是否有影响,现从高二年级的甲(实行“问题—探究式”模式)、乙(实行“自学—指导式”模式)两个班中每班任意抽取20名学生进行测试,他们的成绩(总分150分)如下.甲班: 88 92 95 98 103 108 110 112 118 118 120 121 126 132 134 135 140 142 146 148乙班: 96 97 104 107 108 108 114 117 119 121 124 124 125 127 132 135 135 137 138 147记成绩在120分以上(包括120分)为优秀,其他的成绩为一般,试根据小概率值α=0.1的独立性检验,分析这两种课堂教学模式对学生的成绩是否有影响.解:零假设为H0:课堂教学模式与学生的成绩相互独立.根据题中所给数据得到如下2×2列联表:班级 成绩 合计优秀 一般甲班 10 10 20乙班 11 9 20合计 21 19 40由卡方计算公式,可得没有充分证据推断H0不成立,因此可以认为H0成立,即两种课堂教学模式对学生的成绩没有影响.2025年新课标全国卷1卷第15题 展开更多...... 收起↑ 资源预览