8.3.2 独立性检验(大单元教学课件)(共60张PPT)(人教A版2019选择性必修第三册)

资源下载
  1. 二一教育资源

8.3.2 独立性检验(大单元教学课件)(共60张PPT)(人教A版2019选择性必修第三册)

资源简介

(共60张PPT)
人教A版(2019)选择性必修第三册
第八章 成对数据的统计分析
8.3.2 独立性检验
目录
学习目标
01
情景导入
02
新知探究
03
课本例题
04
05
课本练习
06
题型探究
方法归纳
08
07
课本习题
课堂小结
学习目标
1.了解2×2列联表独立性检验及其应用
2.了解随机变量χ2的意义,通过对典型案例分析,了解独立性检验的基本思想和方法
山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:
问题 如何判定“喜欢体育还是文娱与性别是否有联系”?
情景导入
前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联.
对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
情景导入
新知探究
根据我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
对于随机样本,表1中的频数a,b,c,d都是随机变量,而表2中的响应数据是这些随机变量的一次观测结果.
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1) 甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
思考:如何基于②中的四个等式及列联表中的数据,构造适当的统计量,对成对的分类变量X和Y是否相互独立作出推断?
显然,分别考虑③中的四个差的绝对值很困难.我们需要找到一个既合理又能够计算分布的统计量,来推断是否成立.一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大;而若频数的期望值较小,则③中相应的差的绝对值也会较小.为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
独立性检验的公式及临界值
1.独立性检验的公式
假设H0表示玩电脑游戏与注意力集中没有关系(通常称H0为零假设);用事件A表示不玩电脑游戏,B表示注意力不集中.
若H0成立 事件A与B独立 P(AB)=P(A)P(B) .
注意力集中
n=a+b+c+d
b+d
a+c
合计
c+d
d
c
a+b
b
a
不玩电脑游戏
合计
注意力不集中
玩电脑游戏
P(AB)=
a
n
P(A)=
n
a+b
P(B)=
n
a+c
a
n
=
n
a+b
n
a+c
×
即(a+b+c+d)a=(a+b)(a+c).
ad=bc.
∴ |ad-bc|越小,说明玩电脑游戏与注意力集中之间的关系越弱;|ad-bc|越大,说明玩电脑游戏与注意力集中之间的关系越强.
为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量
χ2=
(a+b)(c+d)(a+c)(b+d)
n(ad-bc)2
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作卡方独立性检验,简称独立性检验.
  若H0成立,即玩电脑游戏与注意力集中没有关系,则χ2应该很小;若H0不成立,即玩电脑游戏与注意力集中有关系,则χ2应该很大.那么,究竟χ2大到什么程度,可以推断H0不成立呢?
 2.临界值
统计学家们根据统计数据得到了如下的χ2临界值表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
例如,对于一个小概率值α=0.05,有如下的具体检验规则:
(1)当χ2 x0.05=3.841时,我们推断H0不成立,即认为X与Y不独立,该推断犯错误的概率不超过0.05;
 (2)当χ2 x0.05=3.841时,我们没有充分证据推断H0不成立,可以认为X与Y独立.
  依据小概率值0.001的卡方独立性检验,分析本节开头情境问题数据,能否据此推断玩电脑游戏与注意力集中之间有关系?
由卡方计算公式得到
因此,可以推断玩电脑游戏与注意力集中之间有关系,该推断犯错误的概率不超过0.1%.
解:零假设为H0: 分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异. 根据表中的数据,计算得到
例2 依据小概率值α=0.1的χ2 独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1) 甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.
例题讲解
解决独立性检验问题的基本步骤
假设
列表
计算
比较
结论
提出零假设
认真读题,根据相关数据列出2×2列联表
代入公式求出χ2的值
将求出χ2的值与临界值xα进行比较
由比较结果得出相应结论
思考 例1和例2都是基于同一组数据的分析,但却得出了不同的
结论,你能说明其中的原因吗
事实上,如前所述,例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以例1的推断依据不太充分,在例2中,我们用χ2独立性检验对零假设H0进行了检验. 通过计算,发现χ2 ≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0 ,推断出两校学生的数学成绩优秀率没有显著差异的结论. 这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的. 因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.
由此可见,相对于简单比较两个频率的推断,用χ2独立性检验得到的结果更理性、更全面,理论依据也更充分.
解:零假设为H0: 疗法与疗效独立,即两种疗法效果没有差异.
由已知数据列出列联表.
例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良. 采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据: 抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名; 抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名. 试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
疗法 疗效 合计
未治愈 治愈 甲 15 52 67
乙 6 63 69
合计 21 115 136
根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
例题讲解
对犯错误概率的解释
在零假设H0成立的前提下,随着小概率值α的逐渐减小, χ2统计量对应的临界值xα逐渐增大,则事件{χ2 ≥xα}越来越不容易发生,零假设越来越不容易被拒绝;随着小概率值α的逐渐增大, χ2统计量对应的临界值xα逐渐减小,则事件{χ2 ≥xα}越来越容易发生,零假设越来越容易被拒绝.
例如,对于例3中的数据,经计算得χ2 ≈4.881.
(1) 当小概率值α=0.005时,x0.005=7.879, 此时χ2 ≈4.881<7.879,则没有充分理由拒绝零假设. 因此可以接受H0,即认为两种疗法的效果没有差异.
(2)当小概率值α=0.05时,x0.05=3.841,此时χ2 ≈4.881>3.841,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05.
(3)当小概率值α=0.1时,x0.05=2.706, 此时χ2 ≈4.881>2.706,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.1.
观察 在例3的2×2列联表中,若对调两种疗法的位置或对调两种
疗效的位置,则卡方计算公式中a, b, c, d的赋值都会相应地改变. 这样做会影响χ2取值的计算结果吗
疗法 疗效 合计
未治愈 治愈 甲 15 52 67
乙 6 63 69
合计 21 115 136
这说明,对调两种疗法的位置,不会影响χ2取值的计算结果,同理对调两种疗效的位置也不会影响结果.
对调前
疗法 疗效 合计
未治愈 治愈 乙 6 63 69
甲 15 52 67
合计 21 115 136
对调后
解:零假设为H0: 吸烟与患肺癌之间无关联,由表中数据可得
例4 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如下表所示. 依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.
吸烟 肺癌 合计
非肺癌患者 肺癌患者 非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
根据小概率值α=0.001的χ2独立性检验,推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.
例题讲解
吸烟 肺癌 合计
非肺癌患者 肺癌患者 非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
解:根据列联表中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
吸烟者中不患肺癌和患肺癌的频率分别为
在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上,于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.
例4 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如下表所示. 依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.
例题讲解
应用独立性检验解决实际问题大致应包括以下几个主要环节:
(1) 提出零假设H0: X和Y相互独立,并给出在问题中的解释.
(2) 根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3) 根据检验规则得出推断结论.
(4) 在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
注意,上述几个环节的内容可以根据不同情况进行调整. 例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.
思考 独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗
简单地说,反证法是在某种假设H0之下,推出一个矛盾结论,从而证明H0不成立;而独立性检验是在零假设H0之下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不大于这个小概率. 另外,在全部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误.
独立性检验的本质是比较观测值与期望值之间的差异,由χ2所代表的这种差异的大小是通过确定适当的小概率值进行判断的. 这是一种非常重要的推断方法,不仅有相当广泛的应用,也开启了人类认识世界的一种新的思维方式.
1. 对于例3中的抽样数据,采用小概率值α=0.05的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
根据题意,可得
解:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
根据小概率值α=0.05的χ2独立性检验,推断H0不成立,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05.
甲种疗法未治愈和治愈的频率分别是
乙种疗法未治愈和治愈的频率分别是
因此可以推断乙种疗法的效果比甲种疗法好.
课堂练习
2. 根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,是否会得出不同的结论 为什么
解:可能会得出不同的结论. 理由如下:
对同一抽样数据,计算出来的χ2的值是确定的,在独立性检验中,基于不同的小概率值α的检验规则,对应不同的临界值x0,其与χ2的大小关系可能不同,相当于检验的标准发生变化,因此结论可能会不同.
3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有放回简单随机样本的数据,得到如下列联表:
依据α=0.05的独立性检验,分析药物A对预防疾病B的有效性.
药物A 疾病B 合计
未患病 患病 未服用 29 15 44
服用 47 14 61
合计 76 29 105
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解:零假设为H0: 药物A与预防疾病B无关联,即药物A对预防疾病B没有效果,根据列联表中数据,经计算得到
根据小概率值α=0.05的χ2独立性检验,没有充分证据推断H0不成立,即可以认为药物A对预防疾病B没有效果.
4. 从某学校获取了容量为400的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下:
依据α=0.05的独立性检验,能否认为数学成绩与语文成绩有关联
数学成绩 语文成绩 合计
不优秀 优秀 不优秀 212 61 273
优秀 54 73 127
合计 266 134 400
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解:零假设为H0: 数学成绩与语文成绩独立,即数学成绩与语文成绩没有关联,根据列联表中数据,经计算得到
根据小概率值α=0.05的χ2独立性检验,我们可以推断H0不成立,即认为数学成绩与语文成绩有关联,该推断犯错误的概率不超过0.05.
解:
数学成绩 语文成绩 合计
不优秀 优秀 不优秀 212 61 273
优秀 54 73 127
合计 266 134 400
数学成绩不优秀的人中语文成绩不优秀和优秀的频率分别为
数学成绩优秀的人中语文成绩不优秀和优秀的频率分别为
由此可以看出,数学成绩优秀的人中语文成绩优秀的频率明显高于数学成绩不优秀的人中语文成绩优秀的频率. 根据频率稳定于概率的原理,我们可以推断,数学成绩优秀的人其语文成绩优秀的概率较大.
【例1】某校对学生课外活动进行调查,结果整理成下表.用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?
题型1 有关“相关的检验”
性别 喜欢 合计
体育 文娱 男生 21 23 44
女生 6 29 35
合计 27 52 79
题型探究方法归纳
【例2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关.
题型2 有关“无关的检验”
解:零假设H0:选报文、理科与对外语的兴趣无关.列出如下2×2列联表:
对外语兴趣 选报 合计
理 文 有兴趣 138 73 211
无兴趣 98 52 150
合计 236 125 361
独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈ 0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
【例3】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图所示:
题型3 独立性检验的综合应用
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断在犯错误的概率不超过1%的前提下,可否 可认为箱产量与养殖方法有关.
项目 箱产量<50 kg 箱产量≥50 kg
旧养殖法
新养殖法
解:(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”,由P(A)=P(BC)=P(B)P(C),则旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62,
新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66,则事件A的概率估计值为
P(A)=P(B)P(C)=0.62×0.66=0.409 2,
∴A发生的概率为0.409 2.
(2)根据箱产量的频率分布直方图得到列联表:
项目 箱产量<50 kg 箱产量≥50 kg 合计
旧养殖法 62 38 100
新养殖法 34 66 100
合计 96 104 200
由15.705>6.635=x0.01,根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为箱产量与养殖方法有关,此推断犯错误的概率不大于0.01.
【例4】在109个人身上试验某种药物预防感冒的作用,得到如下列联表:
易错警示 求χ2时用错公式致误
服用情况 预防作用 合计
感冒 未感冒 服用药 11 46 57
未服用药 21 31 52
合计 32 77 109
则有多大把握认为该药有效?
1.为什么必须基于成对样本数据推断两个分类变量之间是否有关联?
我们要研究的问题是同一个总体的两个分类变量之间是否有关联,成对样本观测数据是来自于对同一个总体的两个分类变量的观测,只有成对样本数据才能反映两个分类变量之间是否有关联,以及关联的方式和程度.
3.等高堆积条形图在两个分类变量之间关联性的研究中能够起到什么作用?
可以更加直观地反映两个分类变量之间是否具有关联性.
习题
4.对于已经获取的成对样本数据,检验结论“两个变量之间有关联”的实际含义是什么?检验结论“两个变量之间没有关联”的实际含义又是什么?
检验结论“两个变量之间有关联”是“两个变量不独立”的另一种说法,指在零假设“两个变量独立”之下,成对样本数据显示在一次试验中某个不利于这个假设的小概率事件发生了,由此推断零假设不成立,从而得出“两个变量不独立”的检验结论.检验结论“两个变量之间没有关联”是“两个变量独立”的另一种说法,指在零假设“两个变量独立”之下,成对样本数据显示在一次试验中某个不利于这个假设的小概率事件没有发生,因此不能推断零假设不成立,按照通常的习惯接受零假设,即得出“两个变量独立”的检验结论.
5.为了研究高三年级学生的性别和身高是否大于170 cm的关联性,调查了某中学所有高三年级的学生,整理得到如下列联表:
性别 身高 合计
低于170cm 不低于170cm 女 81 16 97
男 28 75 103
合计 109 91 200
单位:人
请画出列联表的等高堆积条形图,判断该中学高三年级学生的性别和身高是否有关联.如果结论是性别与身高有关联,请解释它们之间如何相互影响.
性别 身高 合计
低于170cm 不低于170cm 女 81 16 97
男 28 75 103
合计 109 91 200
6.第5题中的身高变量是数值型变量还是分类变量?为什么?
分类变量.因为第5题中的身高变量只有两个不同的取值(低于170 cm和不低于170 cm),用于区分两类不同的身高现象.
7.从第5题的高三学生中获取容量为40的有放回简单随机样本,由样本数据整理得到如下列联表:
性别 身高 合计
低于170cm 不低于170cm 女 14 7 21
男 8 11 19
合计 22 18 40
单位:人
性别 身高 合计
低于170cm 不低于170cm 女 14 7 21
男 8 11 19
合计 22 18 40
(2)不一致.原因是根据全面调查数据作判断,其结论是确定且准确的.而根据样本数据作推断,会因为随机性导致样本数据不具代表性,从而不能得出和全面调查一致的结论.
8.调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下的列联表:
性别 出生时间 合计
晚上 白天 女 24 31 55
男 8 26 34
合计 32 57 89
单位:人
与例2中的结论不一样,原因是每个数据都扩大为原来的10倍,相当于样本量变大为原来的10倍,导致推断结论发生了变化.
1. 小概率值α的临界值:
忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2 ≥xα)=α成立. 我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准,概率值α越小,临界值xα越大.
2. χ2计算公式:
3. 基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2课堂小结
4.分类变量X和Y的抽样数据的2×2列联表:
5.独立性检验的一般步骤:
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率, 分析X和Y间的影响规律.
n=a+b+c+d
b+d
a+c
合计
c+d
d
c
X=1
a+b
b
a
X=0
Y=1
Y=0
合计
Y
X
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

展开更多......

收起↑

资源预览