4.3 独立性检验 学案(原卷版+解析版) 2023-2024学年高二数学湘教版(2019)选择性必修第二册

资源下载
  1. 二一教育资源

4.3 独立性检验 学案(原卷版+解析版) 2023-2024学年高二数学湘教版(2019)选择性必修第二册

资源简介

4.3 独立性检验
【学习目标】
1.理解独立性检验的基本思想及其实施步骤.(数学抽象)
2.能利用列联表探讨两个分类变量的关系.(逻辑推理)
3.了解χ2的含义及其应用.(数学抽象)
4.通过对数据的处理,提高解决实际问题的能力.(数学运算)
【自主预习】
1.有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺癌有关,是指每100名吸烟者中就会有99名肺癌患者.”你认为这种观点正确吗 为什么
2.利用χ2进行独立性检验,估计值的准确度与样本容量有关吗
3.应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的吗
1.判断下列结论是否正确.(正确的打“√”,错误的打“×”)
(1)列联表中的数据是两个分类变量的频数. (  )
(2)χ2是判断事件A与B是否相关的统计量. (  )
(3)独立性检验的思想类似于反证法. (  )
2.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为
y1 y2
x1 10 18
x2 m 26
则当m取(  )时,X与Y的关系最弱.
A.8 B.9 C.14 D.19
3.某校为了检验高中数学新课程改革的成果,在两个班进行教学方式的对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如2×2列联表所示(单位:人),则其中m=    ,n=    .
80分及80分以上 80分以下 合计
试验班 32 18 50
对照班 24 m 50
合计 56 44 n
 
【合作探究】
探究1 2×2列联表
问题1:吸烟与患肺癌之间的关系还是前面我们研究的线性相关关系吗
  问题2:下表是2×2列联表.
y1 y2 合计
x1 33 21 54
x2 a 13 46
合计 b 34
  表中a,b处的值应为多少
新知生成
2×2列联表
YX 患肺癌(B) 未患肺癌() 合计
吸烟(A) a b a+b
不吸烟() c d c+d
合计 a+c b+d a+b+c+d
  像上表这样,将两个(或两个以上)分类变量进行交叉分类得到的频数分布表称为列联表;称X,Y为分类变量,其中变量X有两个变量值——“吸烟”和“不吸烟”,变量Y有两个变量值——“患肺癌”和“未患肺癌”.
因为所涉及的两个分类变量X,Y均有两个变量值,所以称上表为2×2列联表.
新知运用
例1 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁及以上的有70人,六十岁以下的有54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的2×2列联表,并利用与判断二者是否有关系.
方法指导 先列2×2列联表,然后填写,再根据比值判断.
【方法总结】  1.作2×2列联表时,关键是对涉及的变量分清类别,计算时要准确无误.2.利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与或与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
  假设有两个变量X和Y,他们的取值分别为x1,x2和y1,y2,其列联表为
YX y1 y2 合计
x1 a 21 73
x2 8 25 33
合计 b 46 106
  则表中a,b的值分别是(  ).
A.94,96   B.54,52   C.52,50   D.52,60
探究2 独立性检验
  为了解某高校学生中午午休时间玩手机的情况,随机抽取了100名大学生进行调查.下面是根据调查结果绘制的学生日均午休时玩手机时间的频率分布直方图,将日均午休时玩手机不低于40分钟的学生称为“手机控”.
问题1:请根据以上数据填写下列2×2列联表中的数据.
非手机控 手机控 合计
男      
女   10 55
合计     100
    问题2:如何判断“手机控”与性别是否有关系
问题3:能定量分析“手机控”与性别是否有关
新知生成
1.独立性检验的概念
利用统计量χ2来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.
χ2=,其中n=a+b+c+d.
2.临界值如表所示:
P(χ2≥ x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
3.独立性检验的步骤
利用独立性检验推断“X与Y有关系”,可按下面的步骤进行:
(1)提出统计假设H0:X与Y之间没有关系;
(2)根据2×2列联表及χ2的计算公式,得出χ2的观测值;
(3)查临界值表确定临界值x0,然后作出判断.
4.变量独立性判断的依据:
(1)如果χ2>10.828,就有不少于99.9%的把握认为“X与Y之间有关系”;
(2)如果χ2>6.635,就有不少于99%的把握认为“X与Y之间有关系”;
(3)如果χ2>3.841,就有不少于95%的把握认为“X与Y之间有关系”;
(4)如果χ2≤3.841,就认为还没有充分的证据显示“X与Y之间有关系”.
新知运用
例2 某校对学生课外活动进行调查,结果整理成下表,分析喜欢体育还是文娱与性别是否有关系.
喜欢体育 喜欢文娱 合计
男生 21 23 44
女生 6 29 35
合计 27 52 79
  .
【方法总结】  用χ2进行“相关的检验”步骤
(1)零假设:先假设两变量无关.
(2)计算χ2:套用χ2的公式求得χ2的值.
(3)查临界值表:确定相应的临界值.
(4)下结论:比较χ2与临界值的大小,得出结论.
  为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
        性别 是否需要志愿者 男 女
需要 40 30
不需要 160 270
  (1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例.
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关
探究3 独立性检验的应用
例3 某高校共有学生15000人,其中男生10500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层随机抽样的方法,收集300位学生每周平均体育运动时间(单位:小时)的样本数据.
(1)应收集多少位女生的样本数据
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请建立一个每周平均体育运动时间与性别的列联表,并判断是否可以认为“该校学生的每周平均体育运动时间与性别有关”.
【方法总结】  解答此类题目的关键在于熟练掌握χ2统计量的数值计算,根据计算得出χ2的值,对比三个临界值2.706,3.841和6.635,作出统计推断.
  某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
    锻炼人次 空气质量等级 [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
  (1)分别估计该市一天的空气质量等级为1,2,3,4的概率.
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表).
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
空气质量 人次 合计
人次≤400 人次>400

不好
合计
  附:χ2=,n=a+b+c+d.
 
【随堂检测】
1.下面是一个2×2列联表:
   健康状况 优秀情况    不健康 健康 合计
不优秀 a 21 73
优秀 2 25 27
合计 b 46 100
则表中a,b的值分别是(  ).
A.94,96 B.52,50 C.52,54 D.54,52
2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握约为(  ).
A.0.1% B.1% C.99% D.99.9%
3.某高校《统计初步》课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
   专业 性别    非统计专业 统计专业
男 13 10
女 7 20
则有    的把握判定主修统计专业与性别有关.
4.高三(1)班班主任李老师为了了解本班学生喜爱中国古典文学是否与性别有关,对全班50人进行了问卷调查,得到如下列联表:
喜欢中国古典文学 不喜欢中国古典文学 合计
女生 5
男生 10
合计 50
已知从全班50人中随机抽取1人,抽到喜欢中国古典文学的学生的概率为0.6.
(1)请将上面的列联表补充完整.
(2)是否有99%的把握认为喜欢中国古典文学与性别有关 请说明理由.
24.3 独立性检验
【学习目标】
1.理解独立性检验的基本思想及其实施步骤.(数学抽象)
2.能利用列联表探讨两个分类变量的关系.(逻辑推理)
3.了解χ2的含义及其应用.(数学抽象)
4.通过对数据的处理,提高解决实际问题的能力.(数学运算)
【自主预习】
1.有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺癌有关,是指每100名吸烟者中就会有99名肺癌患者.”你认为这种观点正确吗 为什么
【答案】 不正确.因为犯错误的概率不超过0.01表示的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.
2.利用χ2进行独立性检验,估计值的准确度与样本容量有关吗
【答案】 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
3.应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的吗
【答案】 不一定.所有的推断只代表一种可能性,不代表具体情况.
1.判断下列结论是否正确.(正确的打“√”,错误的打“×”)
(1)列联表中的数据是两个分类变量的频数. (  )
(2)χ2是判断事件A与B是否相关的统计量. (  )
(3)独立性检验的思想类似于反证法. (  )
【答案】 (1)√ (2)√ (3)√
2.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为
y1 y2
x1 10 18
x2 m 26
则当m取(  )时,X与Y的关系最弱.
A.8 B.9 C.14 D.19
【答案】 C
【解析】 由10×26=18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.
3.某校为了检验高中数学新课程改革的成果,在两个班进行教学方式的对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如2×2列联表所示(单位:人),则其中m=    ,n=    .
80分及80分以上 80分以下 合计
试验班 32 18 50
对照班 24 m 50
合计 56 44 n
  【答案】 26 100
【解析】 由题意得解得
【合作探究】
探究1 2×2列联表
问题1:吸烟与患肺癌之间的关系还是前面我们研究的线性相关关系吗
【答案】 不是.
  问题2:下表是2×2列联表.
y1 y2 合计
x1 33 21 54
x2 a 13 46
合计 b 34
  表中a,b处的值应为多少
【答案】 a=46-13=33,b=33+a=33+33=66.
新知生成
2×2列联表
YX 患肺癌(B) 未患肺癌() 合计
吸烟(A) a b a+b
不吸烟() c d c+d
合计 a+c b+d a+b+c+d
  像上表这样,将两个(或两个以上)分类变量进行交叉分类得到的频数分布表称为列联表;称X,Y为分类变量,其中变量X有两个变量值——“吸烟”和“不吸烟”,变量Y有两个变量值——“患肺癌”和“未患肺癌”.
因为所涉及的两个分类变量X,Y均有两个变量值,所以称上表为2×2列联表.
新知运用
例1 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁及以上的有70人,六十岁以下的有54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的2×2列联表,并利用与判断二者是否有关系.
方法指导 先列2×2列联表,然后填写,再根据比值判断.
【解析】 2×2列联表如下:
年龄 饮食习惯 年龄在六十 岁及以上 年龄在六十 岁以下 合计
饮食以蔬菜为主 43 21 64
饮食以肉类为主 27 33 60
合计 70 54 124
  将表中数据代入公式得==0.671875,==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
【方法总结】  1.作2×2列联表时,关键是对涉及的变量分清类别,计算时要准确无误.2.利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与或与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
  假设有两个变量X和Y,他们的取值分别为x1,x2和y1,y2,其列联表为
YX y1 y2 合计
x1 a 21 73
x2 8 25 33
合计 b 46 106
  则表中a,b的值分别是(  ).
A.94,96   B.54,52   C.52,50   D.52,60
【答案】 D
【解析】 根据列联表知a=73-21=52,又a+8=b,所以b=60.
探究2 独立性检验
  为了解某高校学生中午午休时间玩手机的情况,随机抽取了100名大学生进行调查.下面是根据调查结果绘制的学生日均午休时玩手机时间的频率分布直方图,将日均午休时玩手机不低于40分钟的学生称为“手机控”.
问题1:请根据以上数据填写下列2×2列联表中的数据.
非手机控 手机控 合计
男      
女   10 55
合计     100
  【答案】 可得2×2列联表如下:
非手机控 手机控 合计
男 30 15 45
女 45 10 55
合计 75 25 100
  问题2:如何判断“手机控”与性别是否有关系
【答案】 可通过表格与图形进行直观分析,男生“手机控”的频率是f1===,女生“手机控”的频率是f2===,虽然f1>f2,但二者差别不大,不足以说明“手机控”与性别有关.
问题3:能定量分析“手机控”与性别是否有关
【答案】 可通过统计分析定量判断,先计算χ2,然后与临界值比较、判断.
因为χ2=≈3.030<3.841,
所以没有充分的证据显示“手机控”与性别是否有关.
新知生成
1.独立性检验的概念
利用统计量χ2来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.
χ2=,其中n=a+b+c+d.
2.临界值如表所示:
P(χ2≥ x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
3.独立性检验的步骤
利用独立性检验推断“X与Y有关系”,可按下面的步骤进行:
(1)提出统计假设H0:X与Y之间没有关系;
(2)根据2×2列联表及χ2的计算公式,得出χ2的观测值;
(3)查临界值表确定临界值x0,然后作出判断.
4.变量独立性判断的依据:
(1)如果χ2>10.828,就有不少于99.9%的把握认为“X与Y之间有关系”;
(2)如果χ2>6.635,就有不少于99%的把握认为“X与Y之间有关系”;
(3)如果χ2>3.841,就有不少于95%的把握认为“X与Y之间有关系”;
(4)如果χ2≤3.841,就认为还没有充分的证据显示“X与Y之间有关系”.
新知运用
例2 某校对学生课外活动进行调查,结果整理成下表,分析喜欢体育还是文娱与性别是否有关系.
喜欢体育 喜欢文娱 合计
男生 21 23 44
女生 6 29 35
合计 27 52 79
  【解析】 先提出统计假设H0:喜欢体育还是文娱与性别没有关系.根据列联表中的数据,
可得a=21,b=23,c=6,d=29,n=79,
可得χ2=
=≈8.106>7.879,
故否定假设H0,即认为喜欢体育还是喜欢文娱与性别有关.
【方法总结】  用χ2进行“相关的检验”步骤
(1)零假设:先假设两变量无关.
(2)计算χ2:套用χ2的公式求得χ2的值.
(3)查临界值表:确定相应的临界值.
(4)下结论:比较χ2与临界值的大小,得出结论.
  为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
        性别 是否需要志愿者 男 女
需要 40 30
不需要 160 270
  (1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例.
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关
【解析】 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此在该地区老年人中,需要帮助的老年人的比例的估计值为×100%=14%.
(2)χ2=≈9.967,
因为9.967>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.
探究3 独立性检验的应用
例3 某高校共有学生15000人,其中男生10500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层随机抽样的方法,收集300位学生每周平均体育运动时间(单位:小时)的样本数据.
(1)应收集多少位女生的样本数据
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请建立一个每周平均体育运动时间与性别的列联表,并判断是否可以认为“该校学生的每周平均体育运动时间与性别有关”.
【解析】 (1)由分层随机抽样可得300×=90(位),所以应收集90位女生的样本数据.
(2)由频率分布直方图得,学生每周平均体育运动时间超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别的2×2列联表如下:
男生 女生 合计
每周平均体育运动时间 不超过4小时 45 30 75
每周平均体育运动时间 超过4小时 165 60 225
合计 210 90 300
  结合列联表中的数据可算得χ2=≈4.762>3.841,
所以至少有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
【方法总结】  解答此类题目的关键在于熟练掌握χ2统计量的数值计算,根据计算得出χ2的值,对比三个临界值2.706,3.841和6.635,作出统计推断.
  某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
    锻炼人次 空气质量等级 [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
  (1)分别估计该市一天的空气质量等级为1,2,3,4的概率.
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表).
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
空气质量 人次 合计
人次≤400 人次>400

不好
合计
  附:χ2=,n=a+b+c+d.
  【解析】 (1)由频数分布表可知,该市一天的空气质量等级为1的概率的估计值为=0.43,等级为2的概率的估计值为=0.27,等级为3的概率的估计值为=0.21,等级为4的概率的估计值为=0.09.
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为=350.
   (3)2×2列联表如下:
空气质量 人次 合计
人次≤400 人次>400
好 33 37 70
不好 22 8 30
合计 55 45 100
  χ2=≈5.820>3.841,
因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
【随堂检测】
1.下面是一个2×2列联表:
   健康状况 优秀情况    不健康 健康 合计
不优秀 a 21 73
优秀 2 25 27
合计 b 46 100
则表中a,b的值分别是(  ).
A.94,96 B.52,50 C.52,54 D.54,52
【答案】 C
【解析】 由a+21=73,得a=52,由b+46=100,得b=54.
2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握约为(  ).
A.0.1% B.1% C.99% D.99.9%
【答案】 C
【解析】 因为χ2>6.635,所以至少有99%的把握认为“喜欢乡村音乐与性别有关系”.
3.某高校《统计初步》课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
   专业 性别    非统计专业 统计专业
男 13 10
女 7 20
则有    的把握判定主修统计专业与性别有关.
【答案】 95%
【解析】 χ2=≈4.844>3.841,
故有95%的把握认为主修统计专业与性别有关.
4.高三(1)班班主任李老师为了了解本班学生喜爱中国古典文学是否与性别有关,对全班50人进行了问卷调查,得到如下列联表:
喜欢中国古典文学 不喜欢中国古典文学 合计
女生 5
男生 10
合计 50
已知从全班50人中随机抽取1人,抽到喜欢中国古典文学的学生的概率为0.6.
(1)请将上面的列联表补充完整.
(2)是否有99%的把握认为喜欢中国古典文学与性别有关 请说明理由.
【解析】 (1)依题意,从全班50人中随机抽取1人,抽到喜欢中国古典文学的学生的概率为0.6,所以喜欢中国古典文学的学生有0.6×50=30人,不喜欢中国古典文学的学生有20人,由此填写2×2列联表,如下表所示:
喜欢中国古典文学 不喜欢中国古典文学 合计
女生 20 5 25
男生 10 15 25
合计 30 20 50
  (2)χ2==>6.635,
故有99%的把握认为喜欢中国古典文学与性别有关.
2

展开更多......

收起↑

资源列表