《直通名校》专题六 第4讲 大题专攻——成对数据的统计分析(课件)-高考数学大二轮专题复习

资源下载
  1. 二一教育资源

《直通名校》专题六 第4讲 大题专攻——成对数据的统计分析(课件)-高考数学大二轮专题复习

资源简介

(共69张PPT)
第4讲 大题专攻
——成对数据的统计分析
目录
CONTENTS
课时跟踪检测
锁定高考·明方向
研透高考·攻重点
有的放矢 事半功倍
重难攻坚 快速提升
01
锁定高考·明方向
有的放矢 事半功倍
一、考情分析
高频考点 高考预测
回归分析
及预测 高考对本讲内容的考查往往以实际问题为背景,考查经验回
归方程的求解与运用、独立性检验等问题,常与概率综合考
查,难度中等
独立性 检验 二、真题感悟
1. (2024·全国甲卷理17题)(独立性检验)某工厂进行生产线智能化升
级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件
进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?
能否有99%的把握认为甲、乙两车间产品的优级品率存在差异?
解:填写如下列联表:
优级品 非优级品
甲车间 26 24
乙车间 70 30
优级品 非优级品 总计
甲车间 26 24 50
乙车间 70 30 100
总计 96 54 150
则完整的2×2列联表如下:
K2= =4.687 5.
因为K2=4.687 5>3.841,所以有95%的把握认为甲、乙两车间
产品的优级品率存在差异;
因为K2=4.687 5<6.635,所以没有99%的把握认为甲、乙两车
间产品的优级品率存在差异.
(2)已知升级改造前该工厂产品的优级品率p=0.5.设 为升级改造后
抽取的n件产品的优级品率,如果 >p+1.65 ,则认
为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,
能否认为生产线智能化升级改造后,该工厂产品的优级品率提高
了?( ≈12.247)
附:K2= ,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
.
解:由题意可知 = =0.64,
又p+1.65 =0.5+1.65× ≈0.5+
1.65× ≈0.57,
所以 >p+1.65 ,
所以能认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
2. (2022·全国乙卷理19题)(回归分析、样本相关系数)某地经过多年
的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总
材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单
位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总

根部横截 面积xi 0.0
4 0.0
6 0.0
4 0.0
8 0.0
8 0.0
5 0.0
5 0.0
7 0.0
7 0.0
6 0.6
材积量yi 0.2
5 0.4
0 0.2
2 0.5
4 0.5
1 0.3
4 0.3
6 0.4
6 0.4
2 0.4
0 3.9
并计算得 =0.038, =1.615 8, xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材
积量;
解:估计该林区这种树木平均一棵的根部横截面积 =
= =0.06,
估计该林区这种树木平均一棵的材积量 = = =0.39.
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精
确到0.01);
解: (xi- )(yi- )= xiyi-10 =0.013 4,
(xi- )2= -10( )2=0.002,
(yi- )2= -10( )2=0.094 8,
所以 = =
≈0.01×1.377=0.013 77,
所以样本相关系数r= ≈ ≈0.97.
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种
树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横
截面积近似成正比.利用以上数据给出该林区这种树木的总材积量
的估计值.
附:相关系数r= , ≈1.377.
解:设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以 = ,
所以Y= =1 209,即该林区这种树木的总材积量的估计值
为1 209 m3.
1. 求经验回归方程
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般
由题目给出);
(2)作出散点图,确定x,y具有线性相关关系(也可用样本相关系数
r判断);
(3)把数据制成表格,并列出xi,yi,xiyi, ;
(4)计算 , , , xiyi;
(5)代入公式计算 , 的值;
(6)确定经验回归方程 = x+ ;
(7)利用决定系数R2或残差分析判断拟合效果.
2. 独立性检验的一般步骤
(1)根据样本数据列出2×2列联表;
(2)计算随机变量χ2的观测值,查表确定临界值xα;
(3)如果χ2≥xα,就推断“X与Y不独立”,这种推断犯错误的概率
不超过P(χ2≥xα);否则不能推断“X与Y不独立”,或者在样
本数据中没有发现足够证据支持结论“X与Y不独立”.
02
研透高考·攻重点
重难攻坚 快速提升
回归分析及预测
【例1】 (2024·郑州第三次质量检测)按照《中华人民共和国环境保护
法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制
《中国生态环境状况公报》,并向社会公开发布.下表是2020—2024年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
  年份 年份代码    2020年 2021年 2022年 2023年 2024年
xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
(1)求2020—2024年年份代码xi与yi的样本相关系数(精确到0.01);
解:由已知可得, = =3,
= =5.1,
由题可列下表:
-2 -1 0 1 2
1.3 0.4 -0.1 -0.3 -1.3
(xi- )(yi- )=-5.9, = ,
= ,
r= = ≈ ≈-0.98.
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回
归模型进行描述,并求出y关于x的经验回归方程;
解:由问题(1)知,y与x的样本相关系数r≈-0.98,|r|
接近1,所以y与x之间具有极强的线性相关关系,可用一元线性回归
模型进行描述.
由问题(1)知, = = =-0.59,
= - =5.1-(-0.59)×3=6.87,
所求经验回归方程为 =-0.59x+6.87.
(3)预测2028年的酸雨区面积占国土面积的百分比.
附:样本相关系数r= , ≈6.
经验回归直线的斜率和截距的最小二乘法估计分别为:
= , = - , xiyi=70.6, =113.69.
解:令x=9,则 =-0.59×9+6.87=1.56,预测2028年的
酸雨区面积占国土面积的百分比为1.56%.
  回归分析通常用来判断两组数据之间的关系,解此类题时要清楚:
(1)若两个变量呈现线性相关关系,可直接通过计算公式求回归方程;
(2)若两个变量呈现非线性相关关系,解题时可利用化归与转化思想,
通过恰当的变换,将其转化为线性相关关系,再求回归方程;
(3)利用回归方程可以进行预测与估计,但要注意回归方程表示的是两
组数据之间的相关关系,并不是函数关系,所以利用该方程求出的
值是估计值,而不是一个确定的值.
 (2024·温州二模)红旗淀粉厂2024年之前只生产食品淀粉,下表为年投
入资金x(万元)与年收益y(万元)的8组数据:
x 10 20 30 40 50 60 70 80
y 12.8 16.5 19 20.9 21.5 21.9 23 25.4
(1)用y=bln x+a模拟生产食品淀粉年收益y与年投入资金x的关系,
求出回归方程;
解: = , = ,
= = =5,
∴ = - = -5× =2,
∴ =5ln x+2.
(2)为响应国家“加快调整产业结构”的号召,该企业又自主研发出一
种药用淀粉,预计其收益为投入的10%.2024年该企业计划投入200万
元用于生产两种淀粉,求年收益的最大值.(精确到0.1万元)
附:①经验回归直线 = v+ 中斜率和截距的最小二乘估计分
别为:
= , = - · .

161 29 20 400 109 603
③ln 2≈0.7,ln 5≈1.6.
解:设投入食品淀粉的资金为x万元,投入药用淀粉的资金为
(200-x)万元,年收益为f(x),
∴f(x)=5ln x+2+ (200-x)=5ln x- x+22,
f'(x)= - =0 x=50,
当0<x<50时,f'(x)>0,f(x)单调递增;当50<x<200时,f'
(x)<0,f(x)单调递减.
∴f(x)max=f(50)=5ln 50-5+22=5(2ln 5+ln 2)+
17≈36.5.
独立性检验
【例2】 (2024·保定二模)某青少年跳水队共有100人,在强化训练前、
后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的
频率分布直方图,如图2所示的强化训练后的频率分布直方图.
(1)根据上图中数据,估计强化训练后的平均成绩(同一组中的数据用该
组区间的中点值作代表)与成绩的中位数(中位数精确到0.01);
解:强化训练后的平均成绩约为
55×0.04+65×0.16+75×0.2+85×0.32+95×0.28=81.4.
由于前三列概率之和为0.04+0.16+0.2=0.4,
设中位数为80+x,则0.032x=0.1,
解得x=3.125,所以中位数约为83.13.
(2)我们规定得分80分以上(含80分)的为“优秀”,低于80分的为
“非优秀”.
强化训练 是否优秀 合计
优秀人数 非优秀人数 强化训练前
强化训练后
合计
将上面的表格补充完整,依据小概率值α=0.005的独立性检验,能
否据此推断跳水运动员是否优秀与强化训练有关?
解:零假设为H0:跳水运动员是否优秀与强化训练无关.
补充完整的表格为
强化训练 是否优秀 合计
优秀人数 非优秀人数 强化训练前 40 60 100
强化训练后 60 40 100
合计 100 100 200
则χ2= =8>7.879=x0.005,
根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为
跳水运动员是否优秀与强化训练有关.
解决独立性检验问题的关键是过好三关
(1)假设关:假设两个分类变量无关;
(2)公式关:把相关数据代入独立性检验公式求χ2的观测值;
(3)对比关:将求出的χ2的观测值与临界值比对,进行准确判断.
 (2024·开封第三次质量检测)某学校有A,B两家餐厅,A餐厅有2种
套餐选择,B餐厅有4种套餐选择,且这6种套餐各不相同.A餐厅距离教学
楼相比于B餐厅要近很多,经调查发现,100名不同性别的学生选择餐厅用
餐的情况如下:
男 女
在A餐厅用餐 40 20
在B餐厅用餐 15 25
(1)以题中所给频率作为概率,求某天甲、乙两名同学选择同一套餐用
餐的概率;
解:由表中数据可得,选择A餐厅的概率为 = ,选择B餐
厅的概率为 = ,
设事件A1:甲、乙两名同学去A餐厅用餐,
事件B1:甲、乙两名同学去B餐厅用餐,
事件A:甲、乙两名同学选择同一套餐用餐,
P(A1)=( )2,P(B1)=( )2,P(A|A1)= ,P
(A|B1)= ,
则P(A)=P(A1)P(A|A1)+P(B1)P(A|B1)=
( )2× +( )2× = ,
故甲、乙两名同学选择同一套餐的概率为 .
(2)依据小概率值α=0.005的独立性检验,能否认为性别与选择餐厅之
间有关联?
附:χ2= .
α 0.05 0.01 0.005 0.001
xα 3.841 6.635 7.879 10.828
解:根据数据可得列联表:
餐厅 性别 合计
男 女 在A餐厅用餐 40 20 60
在B餐厅用餐 15 25 40
合计 55 45 100
零假设为H0:认为性别与选择餐厅之间无关,
根据列联表中的数据,经计算得到χ2= ≈8.249
>7.879=x0.005,
依据小概率值α=0.005的独立性检验,可以推断H0不成立,即性别
与选择餐厅之间有关,此推断犯错误的概率不大于0.005.
03
课时跟踪检测
1. (2024·湘潭质量检测)2023年8月8日是我国第15个“全民健身日”,
设立全民健身日(FitnessDay)是适应人民群众体育的需求,促进全民
健身运动开展的需要.某学校为了提高学生的身体素质,举行了跑步竞
赛活动,活动分为长跑、短跑两类项目,且该班级所有同学均参加活
动,每位同学选择一项活动参加.
长跑 短跑
男同学 30 10
女同学 a 10
1
2
3
4
若采用分层随机抽样按性别从该班级中抽取6名同学,其中有男同学4
名,女同学2名.
(1)求a的值以及该班同学选择长跑的概率;
解:因为采用分层随机抽样按性别从该班级中抽取6名同学,其中有男同学4名,女同学2名,所以男女同学的比例为2∶1,则 =2,故a=10,
该班同学选择长跑的概率为 = .
1
2
3
4
(2)依据小概率值α=0.01的独立性检验,能否推断选择跑步项目的
类别与其性别有关?
附:χ2= ,其中n=a+b+c+d.
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
1
2
3
4
解:依题意,完善2×2列联表,如下,
性别 跑步项目类别 合计
长跑 短跑 男同学 30 10 40
女同学 10 10 20
合计 40 20 60
1
2
3
4
零假设为H0:选择跑步项目类别与学生性别无关,
χ2= = =3.75<6.635=x0.01,
根据小概率值α=0.01的独立性检验,没有充分证据推断出H0不
成立,
因此可以认为H0成立,即认为选择跑步项目类别与学生性别无关.
1
2
3
4
2. (2024·石家庄质量检测)在推动电子制造业高质量发展的大环境下,
某企业统筹各类资源,进行了积极的改革探索.下表是该企业每月生产
的一种核心产品的产量x(3≤x≤15)(件)与相应的生产总成本y
(万元)的四组对照数据.
x 5 7 9 11
y 200 298 431 609
企业研究人员建立了y与x的两种回归模型,利用计算机算得近似结果
如下:
经验回归方程①: = +173;经验回归方程②: =68x-160.
1
2
3
4
其中经验回归方程①的残差图如图所示(残差=观测值-预测值);
1
2
3
4
(1)在下表中填写经验回归方程②的残差,根据残差分析,判断哪
一个经验回归方程更适宜作为y关于x的经验回归方程,并说明
理由;
x 5 7 9 11
y 200 298 431 609
1
2
3
4
解:经验回归方程②的残差数据如下表:
x 5 7 9 11
y 200 298 431 609
20 -18 -21 21
经验回归方程②的残差图如图所示:
1
2
3
4
经验回归方程①更适宜作为y关于x的经验回归方程.
(以下理由或其他合理的理由,说出一条即可得分):
理由1:经验回归方程①这4个样本点的残差的绝对值都比经验回
归方程②的小.
理由2:经验回归方程①这4个样本的残差点落在的带状区域比经
验回归方程②的带状区域更窄.
理由3:经验回归方程①这4个样本的残差点比经验回归方程②的
残差点更贴近x轴.
1
2
3
4
(2)从该企业在过去几年生产的该产品中随机抽取100件,优等品有60
件,合格品有40件.每件优等品利润为20万元,每件合格品利润为
15万元.若视频率为概率,该企业某月计划生产12件该产品,记优
等品件数为X,总利润为Y.
(ⅰ)求Y与X的关系式,并求E(X)和E(Y);
(ⅱ)记该月的成本利润率为p,在(1)中选择的经验回归方程
下,求p的估计值.(结果保留2位小数)
附:成本利润率= .
1
2
3
4
解: (ⅰ)由题意知,每件产品为优等品的概率P0= =0.6,
则X~B(12,0.6),因此E(X)=12×0.6=7.2,
由Y=20X+15×(12-X)=5X+180,
则E(Y)=5E(X)+180=216.
(ⅱ)由(ⅰ)知总利润为216万元,总成本估计值 = +173=
749(万元),
则p= ≈0.29.
1
2
3
4
3. (2024·湖南常德模拟)某市组织宣传小分队进行法律法规宣传,某宣
传小分队记录了前9天每天普及的人数,得到下表:
时间x(天) 1 2 3 4 5 6 7 8 9
每天普及的人数y 80 98 129 150 203 190 258 292 310
1
2
3
4
(1)从这9天的数据中任选4天的数据,以X表示4天中每天普及人数不
少于240人的天数,求X的分布列和数学期望;
解:每天普及人数不少于240人的天数为3,则X的所有可能
取值为0,1,2,3,
P(X=0)= = ,P(X=1)= = ,
P(X=2)= = ,P(X=3)= = ,
故X的分布列为
X 0 1 2 3
P
E(X)=0× +1× +2× +3× = .
1
2
3
4
(2)由于统计人员的疏忽,第5天的数据统计有误,如果去掉第5天的
数据,试用剩下的数据求出每天普及的人数y关于天数x的经验回
归方程.
参考数据: = yi=190, (xi- )2=60,
(yi- )2=55 482, (xi- )(yi- )=1 800.
1
2
3
4
解:设原来数据的样本中心点为( , ),去掉第5天的数
据后样本中心点为( ', '),
'= (1+2+3+4+6+7+8+9)=5, '=x5=5= ,
'= (9 -y5)= (9×190-203)= ,
故 =
1
2
3
4
= =
= = =30,
= '- '= -30×5= ,
所以 =30x+ .
1
2
3
4
4. (2024·河南九师联盟)PM2.5是指环境空气中直径小于或等于2.5微米
的颗粒物.它能较长时间悬浮于空气中,其在空气中含量越高,说明空
气污染越严重.城市中的PM2.5成分除扬尘等自然因素外,燃料的燃烧
也是一个重要来源.某市环境检测部门为检测燃油车流量对空气质量的
影响,在一个检测点统计每日过往的燃油车流量x(单位:辆)和空气
中的PM2.5的平均浓度y(单位:μg/m3).检测人员采集了50天的数
据,制成2×2列联表(部分数据缺失):
1
2
3
4
PM2.5的平均浓度 燃油车日流量 合计
燃油车日流量x<1 500 燃油车日流量x≥1
500 PM2.5的平均浓度y<100 16 24
PM2.5的平均浓度y≥100 20
合计 22
1
2
3
4
(1)完成上面的2×2列联表,并根据小概率值α=0.005的独立性检
验,能否认为PM2.5的平均浓度小于100 μg/m3与燃油车日流量小
于1 500辆有关联?
解:2×2列联表如下:
PM2.5的平均浓度 燃油车日流量 合计
燃油车日流量x<1 500 燃油车日流量x≥1
500 PM2.5的平均浓度y<100 16 8 24
PM2.5的平均浓度y≥100 6 20 26
合计 22 28 50
1
2
3
4
零假设为H0:PM2.5的平均浓度小于100 μg/m3与燃油车日流量
小于1 500辆无关联.
根据列联表中的数据,计算得
χ2= ≈9.624>7.879=x0.005,
所以根据小概率值α=0.005的独立性检验,推断H0不成立,所以
可以认为PM2.5的平均浓度小于100 μg/m3与燃油车日流量小于1
500辆有关联.
1
2
3
4
(2)经计算得y与x之间的经验回归方程为 =0.12x-73.86,且这50
天的燃油车的日流量x的标准差Sx=249,PM2.5的平均浓度y的
标准差Sy=36.若样本相关系数r满足|r|≥0.75,则判定所求
经验回归方程有价值;否则判定其无价值.
①判断该经验回归方程是否有价值;
②若这50天的燃油车的日流量x满足 =1.23×108,试求这50
天的PM2.5的平均浓度y的平均数 (利用四舍五入法精确到0.1).
1
2
3
4
参考数据: ×1.23=0.024 6,2492=62 001, ≈1
548.55.
解:①由题意,得 = =0.12,
得 (xi- )(yi- )=0.12 (xi- )2,
1
2
3
4
由Sx= =249,
Sy= =36,
得r=
1
2
3
4

=0.12× =0.12× =0.83>0.75,
所以该经验回归方程有价值.
1
2
3
4
②因为Sx= =249,
即 =249,
所以 = ≈1 548.55,
又 =0.12 -73.86≈0.12×1 548.55-73.86=111.966≈112.0.
故可推算出这50天PM2.5平均浓度y的平均数 约为112.0 μg/m3.
1
2
3
4

展开更多......

收起↑

资源预览