8.3.2独立性检验 导学案(含解析) 高中数学人教A版(2019)选择性必修第三册

资源下载
  1. 二一教育资源

8.3.2独立性检验 导学案(含解析) 高中数学人教A版(2019)选择性必修第三册

资源简介

8.3.2 独立性检验 导学案
学习目标
通过实例,理解2×2列联表的统计意义.2.通过实例,了解2×2列联表独立性检验及其应用.
重点难点
重点:2×2列联表,独立性检验的思想和方法.
难点:卡方统计量的导出和意义,独立性检验的思想和方法.
课前预习 自主梳理
知识点一 分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
知识点二 2×2列联表
1.2×2列联表给出了成对分类变量数据的交叉分类频数.
2.定义一对分类变量X和Y,我们整理数据如下表所示:
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
像这种形式的数据统计表称为2×2列联表.
知识点三 独立性检验
1.定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.
2.χ2=,其中n=a+b+c+d.
3.独立性检验解决实际问题的主要环节
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
思考 独立性检验与反证法的思想类似,那么独立性检验是反证法吗?
答案 不是.因为反证法不会出错,而独立性检验依据的是小概率事件几乎不发生.
自主检测
1.判断正误,正确的填“正确”,错误的填“错误”.
(1)分类变量中的变量与函数的变量是同一概念.( )
(2)等高堆积条形图可初步分析两分类变量是否有关系,而独立性检验中取值则可通过统计表从数据上说明两分类变量的相关性的大小.( )
(3)事件A与B的独立性检验无关,即两个事件互不影响.( )
(4)的大小是判断事件A与B是否相关的统计量.( )
(5)概率值越小,临界值越大.( )
(6)独立性检验的思想类似于反证法.( )
(7)独立性检验的结论是有多大的把握认为两个分类变量有关系.( )
2.某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用列联表进行独立性检验,经计算,则所得到的统计学结论是:有__________的把握认为“学生性别与支持该活动有关系”( )
0.100 0.050 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
A. B. C. D.
3.通过随机询问110名性别不同的大学生是否爱好体育,
男 女 总计
爱好 40 20 60
不爱好 20 30 50
总计 60 50 110
得到上表:参照附表,得到的正确结论是( )
附:由公式算得:
附表:
0.25 0.15 0.10 0.05 0.025 0.010 0.005
1.323 2.702 2.706 3.841 5.024 6.635 7.879
A.有以上的把握认为“爱好体育运动与性别有关”
B.有以上的把握认为“爱好体育运动与性别无关”
C.在犯错误的概率不超过的前提下,认为“爱好体育运动与性别有关”
D.在犯错误的概率不超过的前提下,认为“爱好体育运动与性别无关”
4.为了丰富教职工业余文化生活,某校计划在假期组织70名老师外出旅游,并给出了两种方案(方案一和方案二),每位老师均选择且只选择一种方案,其中有50%的男老师选择方案一,有75%的女老师选择方案二,且选择方案一的老师中女老师占40%,则参照附表,得到的正确结论是( )
附:
() 0.10 0.05 0.025
2.706 3.841 5.024
,.
A.在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别有关”
B.在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别无关”
C.有95%以上的把握认为“选择方案与性别有关”
D.有95%以上的把握认为“选择方案与性别无关”
5.对分类变量和进行独立性检验的零假设为( )
A.:分类变量和独立
B.:分类变量和不独立
C.:
D.:分类变量和相关联
新课导学
学习探究
环节一 创设情境,引入课题
(1)旧知回顾:在上一节课,我们学习了列联表,由随机事件的稳定性,了解并作出判断两个分类变量是否有关联,请同学们思考:用频率推断两个分类变量是否独立有什么缺点?
前面我们通过列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联.
引导学生对频率与概率的比较,由频率具有随机性,与概率之间存在差异;通过数据改变,由样本容量较小时,犯错误的概率较大.
(2)问题激发:有没有更合理的推断方法,同时也希望对出现的错误推断的概率一定的控制或估算?由概率知识分析,如果两个事件的独立,它们的充要条件是什么?
我们需要更好的方法弥补因频率的随机性带来判断两个分类变量的不可靠性,改进提高判断的结论科学性与稳定性.如何改进提高,先回头看独立事件,我们已知道,事件与事件独立的充要条件是,这与两个分类变量的频率之间又有什么样的联系呢?
对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
考虑以为样本空间的古典概型.
我们将两个分类变量的列联表抽象简化,以0,1分别表示事件发生的两种结果,如下表所示,独立的另一层含义,即我们需要了解事件与是否存在关联?
, ,
, ,
我们知道与不独立,互为对立事件,与不独立,互为对立事件.
我们需要判断下面的假定关系:是否成立?
设和为定义在上,取值于的成对分类变量.我们希望判断事件和之间是否有关联.注意到和,和都是互为对立事件,与前面的讨论类似,我们需要判断下面的假定关系是否成立,通常称为零假设或原假设.
这里,表示从中随机选取一个样本点,该样本点属于的概率,而表示从中随机选取一个样本点,该样本点属于的概率.
由条件概率的定义可知,零假设等价于


注意到和为对立事件,于是,再由概率的性质,我们有

由此推得①式等价于

因此,零假设等价于与独立.
根据已经学过的概率知识,下面的四条性质彼此等价:
与独立;与独立;与独立;与独立.
如果这些性质成立,我们就称分类变量和独立,这相当于下面四个等式成立:
;;
;.
因此,我们可以用概率语言,将零假设改述为:
:分类变量和独立.
根据我们通过简单随机抽样得到了X和Y的抽样数据列联表,如表8.3-3所示.
表8.3-3
合计
合计
8.3-3是关于分类变量和的抽样数据的列联表:最后一行的前两个数分别是事件和的频数;最后一列的前两个数分别是事件和的频数;中间的四个数是事件的频数;右下角格中的数是样本容量.
对于随机样本,表8.3-3中的频数a,b,c,d都是随机变量,而表8.3-2中的响应数据是这些随机变量的一次观测结果.
环节二 观察分析,感知概念
思考:如何基于②中的四个等式及列联表8.3-3中的数据,构造适当的统计量,对成对的分类变量X和Y是否相互独立作出推断?
在零假设成立的条件下,根据频率稳定于概率的原理,由②中的第一个等式,我们可以用概率和对应的频率的乘积
估计概率,而把视为事件发生的频数的期望值(或预期值).这样,该频数的观测值和应该比较接近.
综合②中的四个式子,如果零假设成立,下面四个量的取值都不应该太大:
,,,.③
反之,当这些量的取值较大时,就可以推断不成立.
显然,分别考虑③中的四个差的绝对值很困难.我们需要找到一个既合理又能够计算分布的统计量,来推断是否成立.一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大;而若频数的期望值较小,则③中相应的差的绝对值也会较小.
疑问:有没有更好的方式一次性将4个量全部考虑包含?
于是,1900年,英国数学家卡方·皮尔逊在研究的基础上,提出了如下统计量:
为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:

该表达式可化简为
. (1)
问题4:那么,究竟大到什么程度,可以推断H0不成立呢 或者说,怎样确定判断大小的标准呢
统计学家建议,用随机变量取值的大小作为判断零假设是否成立的依据,当它比较大时推断不成立,否则认为成立.那么,究竟大到什么程度,可以推断不成立呢?或者说,怎样确定判断大小的标准呢?
环节三 抽象概括,形成概念
连续疑问:卡方统计量有什么用呢?
统计学家建议,用卡方的大小作为判断零假设是否成立的依据,当它比较大时推断不成立,否则认为成立.那么,究竟大到什么程度,可以推断不成立呢?或者说,怎样确定判断卡方大小的标准呢?
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以通过确定一个与相矛盾的小概率事件来实现.
在假定的条件下,对于有放回简单随机抽样,当样本容量充分大时,统计学家得到了的近似分布.忽略的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,使得下面关系成立:

我们称为的临界值,这个临界值就可作为判断大小的标准.概率值越小,临界值越大.当总体很大时,抽样有、无放回对的分布影响较小.因此,在应用中往往不严格要求抽样必须是有放回的.
由④式可知,只要把概率值取得充分小,在假设成立的情况下,事件是不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验(test of independence).
表8.3-4给出了独立性检验中几个常用的小概率值和相应的临界值.
表8.3-4
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
例如,对于小概率值,我们有如下的具体检验规则:
(1)当时,我们推断不成立,即认为和不独立,该推断犯错误的概率不超过0.05;
(2)当时,我们没有充分证据推断不成立,即认为和独立.
环节四 辨析理解 深化概念
例2 依据小概率值的独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?
解:零假设为:分类变量和相互独立,即两校学生的数学成绩优秀率无差异.
根据表8.3-2中的数据,计算得到

根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为两校的数学成绩优秀率没有差异.
思考:例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗?
事实上,如前所述,例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分.在例2中,我们用独立性检验对零假设进行了检验.通过计算,发现小于所对应的临界值2.706,因此认为没有充分证据推断不成立,所以接受,推断出两校学生的数学优秀率没有显著差异的结论.这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的.因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.
由此可见,相对于简单比较两个频率的推断,用独立性检验得到的结果更理性、更全面,理论依据也更充分.
当我们接受零假设时,也可能犯错误.我们不知道犯错误这类错误的概率的大小,但是知道,若越大,则越小.
例3某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
解:零假设为
:疗法与疗效独立,即两种疗法效果没有差异.
将所给数据进行整理,得到两种疗法治疗数据的列联表,如表8.3-5所示.
表8.3-5 单位:人
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
根据列联表中的数据,经计算得到

根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为两种疗法效果没有差异.
观察:在表8.3-5中,若对调两种疗法的位置或对调两种疗效的位置,则表达式(1)中a,b,c,d的赋值都会相应地改变.这样做会影响取值的计算结果吗?
环节五 概念应用,巩固内化
例4为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表8.3-6所示.依据小概率值的独立性检验,分析吸烟是否会增加患肺癌的风险.
表8.3-6 单位:人
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
解:零假设为
:吸烟与患肺癌之间无关联.
根据列联表中的数据,经计算得到

根据小概率值的独立性检验,我们推断不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.
根据表8.3-6中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
和;
吸烟者中不患肺癌和患肺癌的频率分别为
和.

可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上.于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.
总结上面的例子,应用独立性检验解决实际问题大致应包括以下几个主要环节:
(1)提出零假设:和相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出列联表,计算的值,并与临界值比较.
(3)根据检验规则得出推断结论.
(4)在和不独立的情况下,根据需要,通过比较相应的频率,分析和间的影响规律.
注意,上述几个环节的内容可以根据不同情况进行调整例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.
思考:独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗?
简单地说,反证法是在某种假设之下,推出一个矛盾结论,从而证明不成立;而独立性检验是在零假设之下,如果出现一个与相矛盾的小概率事件,就推断不成立,且该推断犯错误的概率不大于这个小概率.另外,在全部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误.
独立性检验的本质是比较观测值与期望值之间的差异,由所代表的这种差异的大小是通过确定适当的小概率值进行判断的.这是一种非常重要的推断方法,不仅有相当广泛的应用,也开启了人类认识世界的一种新的思维方式.
环节六 归纳总结,反思提升
1. 本节课学习的概念有哪些?
(1)独立性检验的基本原理,小概率事件;
(2)列联表,卡方统计量,临界值表;
(3)独立性检验的基本步骤:假设、计算、查表、下结论
(4)知识清单:
①分类变量.
②2×2列联表.
③等高堆积条形图.
④独立性检验,χ2公式.
2. 在解决问题时,用到了哪些数学思想?
(1)反证法思想.
(2)常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题.
环节七 目标检测,作业布置
完成教材:自主学习课本例3,并完成练习3.
通过课本例3的学习,了解到两个分类变量卡方统计量偏小的情况,对于原假设如何下结论.
备用练习
6.“独立性检验”中,在犯错误的概率不超过0.05的前提下认为事件A和B有关,则算出的数据满足(  )
A. B. C. D.
7.经过对x2的统计量的研究,得到了若干个临界值,当x2<2.706时,我们认为事件A与B( )
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.有95%的把握认为A与B有关系
B.有99%的把握认为A与B有关系
C.没有充分理由说明事件A与B有关系
D.不能确定
8.某地政府调查育龄妇女生育意愿与家庭年收入高低的关系时,随机调查了当地3000名育龄妇女,用独立性检验的方法处理数据,并计算得,则根据这一数据以及临界值表,判断育龄妇女生育意愿与家庭年收入高低有关系的可信度( )
A.低于1% B.低于0.5%
C.高于99% D.高于99.5%
9.在一次独立性检验中得到如下列联表:
A1 A2 总计
B1 200 800 1000
B2 180 a 180+a
总计 380 800+a 1180+a
若这两个分类变量A和B没有关系,则a的可能值是( )
A.200 B.720
C.100 D.180
10.下列说法中错误的是( )
A.残差的平方和可用来判断模型拟合的效果
B.设有一个回归方程,自变量增加个单位时,因变量平均增加个单位
C.线性回归直线必过点
D.在一个列联表中,由计算得(其中),则有的把握确认这两个变量间有关系
试卷第1页,共3页
试卷第1页,共3页
参考答案:
1. 错误 正确 错误 正确 正确 正确 正确
【分析】由分类变量概念、等高堆积条形图的意义,以及独立性检验的概念、思想以及意义即可逐一判断.
【详解】分类变量是说明事物类别的一个名称(从属关系),它不同于函数中的变量(依赖关系),故(1)错误;
由等高堆积条形图以及独立性检验中的意义可知(2)正确;
事件A与B的独立性检验无关,即两个事件“大概率”互不影响,故(3)错误;
由的意义可知(4)正确;
由与的关系可知(5)正确;
对比独立性检验思想以及反证法思想可知(6)正确;
由独立性检验的意义可知(7)正确.
故答案为:错误;正确;错误;正确;正确;正确;正确.
2.C
【分析】根据的值,结合参考表格,计算出犯错的概率,即可求得有把握的概率.
【详解】,
对照表格:,
因此有把握认为“学生性别与支持该活动没有关系”.
有的把握认为“学生性别与是否支持该活动有关系”,
故选:C.
【点睛】本题考查独立性检验,解题时注意利用表格数据与观测值比较,考查了分析能力和理解能力,属于基础题.
3.A
【分析】先根据公式计算,再对照参考数据作判断选择.
【详解】
所以有以上的把握认为“爱好体育运动与性别有关”,或在犯错误的概率不超过的前提下,认为“爱好体育运动与性别有关”
故选:A
【点睛】本题考查卡方计算及其应用,考查基本分析判断能力,属基础题.
4.C
【分析】设该校男老师的人数为,女老师的人数为,根据条件,得到列联表,求出,的值,利用公式计算的值,再与表中临界值比较可得结果.
【详解】设该校男老师的人数为,女老师的人数为,则可得如下表格:
方案一 方案二
男老师
女老师
由题意,可得,可得,,
则,
但,所以无97.5%以上有95%以上的把握认为“选择方案与性别有关”.
故选:C.
5.A
【分析】由零假设的定义即可得到答案.
【详解】在判断两个分类变量之间是否有关联时,需要判断假定关系:是否成立,通常称为零假设或原假设.
零假设:分类变量和独立
故选:A.
6.C
【分析】通过的观测值,对照临界值表,得出统计结论.
【详解】由临界值表可知:当时,满足在犯错误的概率不超过0.05的前提下认为事件和有关,
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.46 0.71 1.32 2.07 2.71 3.84 5.02 6.64 7.88 10.83
结合选项可知,
故选:C.
7.C
【分析】由x2<2.706判断事件A与B的关系.
【详解】当x2≥2.706时,有90%以上的把握说明A与B有关系,但当x2<2.706时,只能说明A与B是否有关系的理由不够充分
故选:C.
8.C
【分析】判断在临界值表中的位置即可.
【详解】临界值表:
因为介于6.635和10.828之间,故判断育龄妇女生育意愿与家庭年收入高低有关系的可信度介于99%和99.9%之间.
故选:C.
9.B
【分析】当时,两者没有关系,带值检验即可
【详解】当a=720时,,易知此时两个分类变量没有关系.
故选:B.
10.B
【分析】利用残差平方和与模型拟合效果的关系可判断A选项;利用回归直线方程的概念可判断BC选项;利用独立性检验的基本思想可判断D选项.
【详解】对于A选项,残差的平方和可用来判断模型拟合的效果,
残差越小,模型的拟合效果越好,A对;
对于B选项,设有一个回归方程,自变量增加个单位时,因变量平均减少个单位,B错;
对于C选项,线性回归直线必过点,C对;
对于D选项,在一个列联表中,由计算得(其中),
则有的把握确认这两个变量间有关系,D对.
故选:B.
答案第1页,共2页
答案第1页,共2页

展开更多......

收起↑

资源预览