专题40 变量间的相关关系、统计案例——备战2023年高考数学一轮复习讲义(Word版含解析)

资源下载
  1. 二一教育资源

专题40 变量间的相关关系、统计案例——备战2023年高考数学一轮复习讲义(Word版含解析)

资源简介

<备战2023年高考数学一轮复习讲义>
专题40 变量间的相关关系、统计案例
1.(2022·全国甲卷)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
  准点班次数 未准点班次数
A 240 20
B 210 30
附: ,
0.100 0.050 0.010
2.706 3.841 6.635
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
【答案】(1)解:由表中数据可知,A共有班次240+20=260次,准点班次有240次,
设A家公司长途客车准点事件为M,
则 ;
则A家公司长途客车准点的概率为 ;
B共有班次210+30=240次,准点班次有210次,
设B家公司长途客车准点事件为N,
则 .
B家公司长途客车准点的概率为 .
(2)解:列联表
  准点班次数 未准点班次数 合计
A 240 20 260
B 210 30 240
合计 450 50 500
= ,
根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
【解析】(1)根据表格中数据以及古典概型的概率公式可求得结果;
(2)根据表格中数据及公式计算K2,再利用临界值表比较即可得结论.
2.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位: )和材积量(单位: ),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得 .
附:相关系数 .
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为 .已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
【答案】(1)解:样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为 ,
平均一棵的材积量为
(2)解:

(3)解:设该林区这种树木的总材积量的估计值为 ,
又已知树木的材积量与其根部横截面积近似成正比,
可得 ,解之得 .
则该林区这种树木的总材积量估计为
【解析】(1)计算出样本中10棵这种树木根部横截面积的平均值及10棵这种树木材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)根据相关系数公式计算即可求得样本的相关系数值;
(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.
1.相关关系与回归方程
(1)相关关系的分类
①正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
②负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(2)线性相关关系
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(3)回归方程
①最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
②回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.

(4)回归分析
①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
③相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
2.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
考点一 相关关系的判断
【方法总结】判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:当r>0时,两个变量正相关;当r<0时,两个变量负相关.
(3)线性回归方程:当>0时,两个变量正相关;当<0时,两个变量负相关.
1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份 1 2 3 4 5 6
人均销售额 6 5 8 3 4 7
利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3
根据表中数据,下列说法正确的是(  )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
【答案】A
【解析】由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是(  )
A.r2C.r4【答案】A
【解析】由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2考点二 回归分析
【方法总结】回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数.
③待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
3.随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:
日期 2日 7日 15日 22日 30日
温度x/℃ 10 11 13 12 8
产卵数y/个 23 25 30 26 16
科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.
(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
【答案】(1)由已知数据得=12,=27,
(xi-)(yi-)=5,(xi-)2=2,
所以=,=-=27-×12=-3.
所以y关于x的线性回归方程为=x-3.
(2)由(1)知,y关于x的线性回归方程为=x-3.
当x=10时,=×10-3=22,|22-23|<2,
当x=8时,=×8-3=17,|17-16|<2.
所以(1)中所得的线性回归方程=x-3是可靠的.
题型三 独立性检验
【方法总结】独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值k.
(3)比较k与临界值的大小关系,作统计推断.
4.为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
基础年级 高三 总计
优秀
非优秀
总计 300
附:K2=.
参考数据:
P(K2≥k0) 0.100 0.050 0.010 0.005
k0 2.706 3.841 6.635 7.879
【答案】(1)该校学生每周平均体育运动时间为=1×0.05+3×0.2+5×0.3+7×0.25+9×0.15+11×0.05=5.8.
样本中高一年级每周平均体育运动时间不足4小时的人数为300××(0.025×2+0.100×2)=30(人).
又样本中高一的人数有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数约为1 200×=300(人).
(2)列联表如下:
基础年级 高三 总计
优秀 105 30 135
非优秀 105 60 165
总计 210 90 300
假设该校学生的每周平均体育运动时间是否优秀与年级无关,
则K2的观测值k==≈7.071>6.635.
又P(K2≥6.635)=0.01.
所以有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
一、单选题
1.(2022·保定模拟)某研究机构为了了解初中生语文成绩的平均分y(单位:分)与每周课外阅读时间x(单位:分钟)是否存在线性关系,搜集了100组数据(,),并据此求得y关于x的线性回归方程为.若一位初中生的每周课外阅读时间为2个小时,则可估计她的语文成绩的平均分为(  )
A.70.6 B.100 C.106 D.110
【答案】C
【解析】解:因为,,
所以,,
所以,则.
当时,.
故答案为:C
2.(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y(单位:千度)进行了统计分析,得出下表数据:
月份(x) 5 6 7 8
日平均用电量(y) 1.9 3.4 t 7.1
若y与x线性相关,且求得其线性回归方程,则表中t的值为(  )
A.5.8 B.5.6 C.5.4 D.5.2
【答案】B
【解析】由表格中的数据可得,,
将点代入回归直线方程得,解得。
故答案为:B.
3.(2022·雅安模拟)为考察一种新药预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的列联表中,由列联表中的数据计算得.参照附表,下列结论正确的是(  )
附表:
0.050 0.025 0.010 0.005 0.001
3.841 5.02 6.635 7.879 10.828
A.在犯错误的概率不超过0.1%的前提下,认为“药物有效”
B.在犯错误的概率不超过0.1%的前提下,认为“药物无效”
C.有99%以上的把握认为“药物有效”
D.有99%以上的把握认为“药物无效”
【答案】C
【解析】解:因为,即,所以有99%以上的把握认为“药物有效”.
故答案为:C.
4.(2022·河南模拟)雨滴在下落过程中,受到的阻力随速度增大而增大,当速度增大到一定程度时,阻力与重力达到平衡,雨滴开始匀速下落,此时雨滴的下落速度称为“末速度”.某学习小组通过实验,得到了雨滴的末速度v(单位:m/s)与直径d(单位:mm)的一组数据,并绘制成如图所示的散点图,则在该实验条件下,下面四个回归方程类型中最适宜作为雨滴的末速度v与直径d的回归方程类型的是(  ).
A. B. C. D.
【答案】A
【解析】由一次函数,二次函数及指数函数的性质可知,BCD不符合散点的变化趋势,
由散点图分布可知,散点图分布在一个幂函数的图象附近,
因此,最适宜作为雨滴的末速度v与直径d的回归方程类型的是。
故答案为:A.
5.(2022·汝州模拟)某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向全体学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘制成等高条形图(如图所示),则下列说法正确的是(  )
0.05 0.01
3.841 6.635
参考公式: , .
A.参与调查的学生中喜欢攀岩的女生人数比喜欢攀岩的男生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男、女生人数均为100人,则能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
D.无论参与调查的男、女生人数为多少,都能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
【答案】C
【解析】对于A:因为参加调查的男、女生人数相同,而男生中喜欢攀岩的占80%,女生中喜欢攀岩的占30%,所以参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多,所以A不符合题意;
对于B:参与调查的女生中喜欢攀岩的人数占30%,不喜欢攀岩的人数占70%,所以参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数少,所以B不符合题意;
对于C:若参与调查的男、女生人数均为100人,根据图表,列出2×2列联表如下:
  喜欢 不喜欢 合计
男 80 20 100
女 30 70 100
合计 110 90 200
所以 ,
所以在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关,C符合题意;
对于D:如果不确定参与调查的男、女生人数,无法计算 ,D不符合题意.
故答案为:C.
6.(2022·芜湖模拟)为了检验某种血清预防感冒的作用,把名使用血清的人与另外名未使用血清的人一年中的感冒记录作比较,提出假设:“这种血清不能起到预防感冒的作用”,利用列联表计算的结果,认为成立的可能性不足,那么的一个可能取值为(  )
0.05 0.025 0.010 0.005 0.001
3.841 5.024 6.635 7.879 10.83
A.7.879 B.6.635 C.5.024 D.3.841
【答案】A
【解析】若成立的可能性不足,则,由选项知:.
故答案为:A.
7.(2022·渭滨模拟)某种产品的价格x(单位:元/kg)与需求量y(单位:元/kg)之间的对应数据如下表所示:
x 10 15 20 25 30
y 11 10 8 6 5
根据表中的数据可得回归直线方程为,则以下结论正确的是(  )
A.y与x正相关
B..y与x负相关
C.样本中心点为(20,10)
D.该产品的价格为35元/kg时,日需求量大约为3.4kg
【答案】B
【解析】由已知,,
所以,,
即回归直线方程为,
,y与x负相关,A不符合题意,B符合题意;
样本中心点是,C不符合题意;
时,,D不符合题意.
故答案为:B.
8.(2022·焦作模拟)某高科技公司为加强自主研发能力,研发费用逐年增加,统计最近6年的研发费用(单位:元)与年份编号得到样本数据,令,并将绘制成下面的散点图.若用方程对与的关系进行拟合,则(  )
A., B.,
C., D.,
【答案】A
【解析】因为,令,
则与的回归方程为.
根据散点图可知与正相关,所以.
从回归直线图象,可知回归直线的纵截距大于0,即,
所以。
故答案为:A
9.(2022·湖北模拟)下列说法正确的是(  )
A.样本中心不一定在回归直线上
B.两个随机变量的线性相关性越强,相关系数就越接近于1
C.若所有样本点都在直线上,则
D.以拟合一组数据时,经代换后的线性回归方程为,则
【答案】D
【解析】A:回归直线必过样本中心,A不正确;
B:两个随机变量的线性相关性越强,相关系数的绝对值就越接近于1,B不正确;
C:若所有样本点都在直线上,则,C不正确;
D:以拟合一组数据时,经代换后的线性回归方程为,则,D符合题意.
故答案为:D.
10.(2022·武昌模拟)通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:
跳绳 性别 合计
男 女
爱好 40 20 60
不爱好 20 30 50
合计 60 50 110
已知,
0.05 0.01 0.001
3.841 6.635 10.828
则以下结论正确的是(  )
A.根据小概率值的独立性检验,爱好跳绳与性别无关
B.根据小概率值的独立性检验,爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
C.根据小概率值的独立性检验,有99%以上的把握认为“爱好跳绳与性别无关”
D.根据小概率值的独立性检验,在犯错误的概率不超过1%的前提下,认为“爱好跳绳与性别无关”
【答案】A
【解析】由题知
因为,所以爱好跳绳与性别无关且这个结论犯错误的概率超过0.001,A符合题意,B不符合题意,又因为,所以有99%以上的把握认为“爱好跳绳与性别有关,或在犯错误的概率不超过1%的前提下,认为“爱好跳绳与性别有关.C和D不符合题意.
故答案为:A.
二、填空题
11.(2022·西安模拟)设变量y与x的回归模型A、模型B、模型C相应的相关系数r的值分别为0.28、0.35、0.3,则拟合效果最好的是模型   .
【答案】B
【解析】因为相关系数的绝对值越接近于1,则回归模型的拟合效果越好,
又因为,所以拟合效果最好的是模型B.
故答案为:B.
12.(2022·大通模拟)已知之间具有线性相关关系,若通过10组数据得到的回归方程为,且,则   .
【答案】8
【解析】依题意知,,因为回归方程为,
所以可以计算出 ,所以
故答案为:8
13.(2022高三上·汕尾期末)“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展,下表是近几年我国某地区新能源汽车的年销售量与年价的统计表
年份 2016 2017 2018 2019 2020
年销售量(万台) 8 12 15 20 25
根据上表,利用最小二乘法,新能源汽车的年销售量y万台关于年份x的线性回归方程为   .
参考数据:
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
【答案】
【解析】,
故,

所以线性回归方程为。
故答案为:。
14.(2022·岳阳模拟)某种产品的广告支出费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:
广告支出费用x 2.2 2.6 4.0 5.3 5.9
销售量y 3.8 5.4 7.0 11.6 12.2
根据表中的数据可得回归直线方程2.27x,R2≈0.96,则
①第三个样本点对应的残差1
②在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
③销售量的多少有96%是由广告支出费用引起的
上述结论判断中有一个是错误的,其序号为    
【答案】②
【解析】解:由表可知,
4,8.
∴样本中心点为(4,8),
将其代入线性回归方程2.27x,有8=2.27×4,解得1.08,
故线性回归方程为2.27x﹣1.08.
当x=4时,2.27×4﹣1.08=8,所以残差y7﹣8=﹣1,即选项正确;
当x=2.2时,3.914,3.8﹣3.914=﹣0.114,
当x=2.6时,4.822,5.4﹣4.822=0.578,
当x=5.3时,10.951,11.6﹣10.951=0.649,
当x=5.9时,12.313,12.2﹣12.313=﹣0.113.
可知在该回归模型对应的残差图中,残差点比较均匀地落在水平的带状区域中,故错误;
∵R2≈0.96,∴销售量的多少有96%是由广告支出费用引起的,故正确;
故答案为:②.
15.(2022·安康三模)近年来,人口问题已成为一个社会问题,人口老龄化,新生儿数量减少等问题已对我国的经济建设产生影响.为应对人口问题的挑战,2016年1月1日起全面放开二胎,2021年1月1日起全面放开三胎.下表是2016年~2020年我国新生儿数量统计:
年份x 2016 2017 2018 2019 2020
数量y(万) 1786 1758 1532 1465 1200
研究发现这几年的新生儿数量与年份有较强的线性关系,若求出的回归方程为,则   ,说明我国这几年的新生儿数量平均约以每年   万的速度递减(结果保留一位小数),这种趋势如果得不到遏制,我国人口形势将会非常悲观.
【答案】-146.5;146.5
【解析】由题中的数据,可得,,
由回归直线的性质知,所以,
所以我国这几年的新生儿数量平均约以每年146.5万的速度递减.
故答案为:-146.5,146.5
三、解答题
16.(2022·山东模拟)某研究所为了研究某种昆虫的产卵数与温度之间的关系,现将收集到的温度和一组昆虫的产卵数的6组观测数据作了初步处理,得到如图的散点图及一些统计数据.
经计算得到以下数据:,.
附参考公式:对于一组具有线性相关关系的数据,其回归直线截距和斜率的最小二乘法估计公式分别为:,相关系数:.参考数据:.
(1)若用线性回归模型来拟合数据的变化关系,求y关于x的回归方程(结果精确到0.1);
(2)若用非线性回归模型来拟合数据的变化关系,求得关于的回归方程,且相关指数为.
①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;
②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数).
【答案】(1)解:由题意可知,

∴y关于x的线性回归方程是;
(2)解:①用指数回归模型拟合y与x的关系,相关指数,
线性回归模型拟合y与x的关系,相关指数,
且,
∴用比拟合效果更好.
②中,令,
则,
故预测温度为时该昆虫产卵数约为190个.
【解析】(1)根据题意把数值代入到已知的公式,由此计算出的取值,由此得出线性回归方程。
(2) ① 由已知条件把数值代入线性回归方程由此计算出结果,进行比较进而得出结论。
② 同理即可得出答案。
17.(2022·昆明模拟)在能源和环保的压力下,新能源汽车无疑将成为未来汽车的发展方向.2016年4月,为促进新能源汽车发展,实施差异化交通管理政策,公安部启用新能源汽车专用号牌.2020年11月,国务院办公厅印发《新能源汽车产业发展规划(2021-2035年)》,要求深入实施发展新能源汽车国家战略,推动中国新能源汽车产业高质量可持续发展.下表是2016年至2020年新能源汽车年销量(单位:十万辆)情况:
年份 2016 2017 2018 2019 2020
年份编号 1 2 3 4 5
年销量 5 7 12 12 14
参考公式: , .
(1)完成下表;
年份编号 1 2 3 4 5
         
         
(2)试建立年销量 关于年份编号 的线性回归方程 ;
(3)根据(2)中的线性回归方程预测2023年新能源汽车的年销量.
【答案】(1)解: ,
填表如下:
年份编号 1 2 3 4 5
-2 -1 0 1 2
-5 -3 2 2 4
(2)解: ,

所以年销量 关于年份编号 的线性回归方程为 ;
(3)解:2023年的年份编号为8,
当 时, ,
所以预测2023年新能源汽车的年销量为 十万辆.
【解析】(1)根据题意由平均数的公式,代入数值计算出结果即可。
(2)由已知条件代入数值计算出样本中心点的坐标,再把结果代入由此即可得出线性回归方程。
(3)根据题意把数值代入到方程计算出结果即可。
18.(2022·马鞍山模拟)为了研究某果园的一种果树的产量与种植密度的关系,某中学的数学兴趣小组在该果园选取了一块种植区域进行了统计调查,他们将每株果树与其直线距离不超过1米的果树株数x记为其密度,在记录了该种植区域内每株果树的密度后,从中选取密度为0,1,2,3,4的果树,统计其产量的平均值y(单位:kg),得到如下统计表:
x 0 1 2 3 4
y 15 12 11 9 8
参考公式:,.
(1)小组成员甲认为y与x有很强的线性相关关系,请你帮他利用最小二乘法求出y关于x的线性回归方程;
(2)小组成员乙提出:若利用回归方程计算的平均产量的估计值与实际的平均产量(,)满足:,则应该修正模型,寻找更合适的函数拟合x与y的关系.统计知种植密度分别为5,6的果树的平均产量为5.5kg、4.4kg,请你以这七组数据为依据判断(1)得到的回归方程是否需要修正?
【答案】(1)解:,,,
故,
所以得线性回归方程为:;
(2)解:令,代入,分别得,
从而,故不需修正.
【解析】(1)由参考公式代入数据即可求解;
(2)令,代入回归直线方程即可求解。
19.(2022·河南模拟)在中国文娱消费中,视听付费市场规模不断增长,从2010年到2018年在线音乐市场规模变化情况如下表所示:
年份 2010 2011 2012 2013 2014 2015 2016 2017 2018
市场规模(亿元) 0.5 0.9 1.6 2.8 4.7 10.5 18.8 29.9 43.7
将2010年作为第1年,设第i年的市场规模为亿元.
参考数据:令,,,,,
,,.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
(1)与哪一个更适宜作为市场规模y关于i的回归方程?(给出判断即可,不必说明理由)
(2)根据(1)中的判断及表中的数据,求市场规模y关于i的回归方程.(系数精确到0.0001)
【答案】(1)解:更适宜.
(2)解:,


因为系数要求精确到0.0001,
所以y关于i的回归方程为.
【解析】(1)根据表中的数据结合回归方程的特征判断;
(2)利用最小二乘法求解.
20.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第天的口罩的销售量(百件),得到的数据如下:,.
参考公式:相关系数;对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为
(1)若用线性回归模型拟合y与x之间的关系,求该回归直线的方程;
(2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到与之间的关系,且模型2的相关系数,试通过计算说明模型1,2中,哪一个模型的拟合效果更好.
【答案】(1)解:
由题意得,,

故所求回归直线的方程为;
(2)解:模型1的相关系数
故模型2的拟合性更好.
【解析】(1)由题意得,代入公式分别求出,从而得到 回归直线的方程;
(2) 模型1的相关系数,所以模型2的拟合性更好.<备战2023年高考数学一轮复习讲义>
专题40 变量间的相关关系、统计案例
1.(2022·全国甲卷)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
  准点班次数 未准点班次数
A 240 20
B 210 30
附: ,
0.100 0.050 0.010
2.706 3.841 6.635
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
2.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位: )和材积量(单位: ),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得 .
附:相关系数 .
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为 .已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
1.相关关系与回归方程
(1)相关关系的分类
①正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
②负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(2)线性相关关系
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(3)回归方程
①最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
②回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.

(4)回归分析
①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
③相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
2.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
考点一 相关关系的判断
【方法总结】判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:当r>0时,两个变量正相关;当r<0时,两个变量负相关.
(3)线性回归方程:当>0时,两个变量正相关;当<0时,两个变量负相关.
1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份 1 2 3 4 5 6
人均销售额 6 5 8 3 4 7
利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3
根据表中数据,下列说法正确的是(  )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是(  )
A.r2C.r4考点二 回归分析
【方法总结】回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数.
③待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
3.随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:
日期 2日 7日 15日 22日 30日
温度x/℃ 10 11 13 12 8
产卵数y/个 23 25 30 26 16
科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.
(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
题型三 独立性检验
【方法总结】独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值k.
(3)比较k与临界值的大小关系,作统计推断.
4.为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
基础年级 高三 总计
优秀
非优秀
总计 300
附:K2=.
参考数据:
P(K2≥k0) 0.100 0.050 0.010 0.005
k0 2.706 3.841 6.635 7.879
一、单选题
1.(2022·保定模拟)某研究机构为了了解初中生语文成绩的平均分y(单位:分)与每周课外阅读时间x(单位:分钟)是否存在线性关系,搜集了100组数据(,),并据此求得y关于x的线性回归方程为.若一位初中生的每周课外阅读时间为2个小时,则可估计她的语文成绩的平均分为(  )
A.70.6 B.100 C.106 D.110
2.(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y(单位:千度)进行了统计分析,得出下表数据:
月份(x) 5 6 7 8
日平均用电量(y) 1.9 3.4 t 7.1
若y与x线性相关,且求得其线性回归方程,则表中t的值为(  )
A.5.8 B.5.6 C.5.4 D.5.2
3.(2022·雅安模拟)为考察一种新药预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的列联表中,由列联表中的数据计算得.参照附表,下列结论正确的是(  )
附表:
0.050 0.025 0.010 0.005 0.001
3.841 5.02 6.635 7.879 10.828
A.在犯错误的概率不超过0.1%的前提下,认为“药物有效”
B.在犯错误的概率不超过0.1%的前提下,认为“药物无效”
C.有99%以上的把握认为“药物有效”
D.有99%以上的把握认为“药物无效”
4.(2022·河南模拟)雨滴在下落过程中,受到的阻力随速度增大而增大,当速度增大到一定程度时,阻力与重力达到平衡,雨滴开始匀速下落,此时雨滴的下落速度称为“末速度”.某学习小组通过实验,得到了雨滴的末速度v(单位:m/s)与直径d(单位:mm)的一组数据,并绘制成如图所示的散点图,则在该实验条件下,下面四个回归方程类型中最适宜作为雨滴的末速度v与直径d的回归方程类型的是(  ).
A. B. C. D.
5.(2022·汝州模拟)某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向全体学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘制成等高条形图(如图所示),则下列说法正确的是(  )
0.05 0.01
3.841 6.635
参考公式: , .
A.参与调查的学生中喜欢攀岩的女生人数比喜欢攀岩的男生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男、女生人数均为100人,则能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
D.无论参与调查的男、女生人数为多少,都能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
6.(2022·芜湖模拟)为了检验某种血清预防感冒的作用,把名使用血清的人与另外名未使用血清的人一年中的感冒记录作比较,提出假设:“这种血清不能起到预防感冒的作用”,利用列联表计算的结果,认为成立的可能性不足,那么的一个可能取值为(  )
0.05 0.025 0.010 0.005 0.001
3.841 5.024 6.635 7.879 10.83
A.7.879 B.6.635 C.5.024 D.3.841
7.(2022·渭滨模拟)某种产品的价格x(单位:元/kg)与需求量y(单位:元/kg)之间的对应数据如下表所示:
x 10 15 20 25 30
y 11 10 8 6 5
根据表中的数据可得回归直线方程为,则以下结论正确的是(  )
A.y与x正相关
B..y与x负相关
C.样本中心点为(20,10)
D.该产品的价格为35元/kg时,日需求量大约为3.4kg
8.(2022·焦作模拟)某高科技公司为加强自主研发能力,研发费用逐年增加,统计最近6年的研发费用(单位:元)与年份编号得到样本数据,令,并将绘制成下面的散点图.若用方程对与的关系进行拟合,则(  )
A., B.,
C., D.,
9.(2022·湖北模拟)下列说法正确的是(  )
A.样本中心不一定在回归直线上
B.两个随机变量的线性相关性越强,相关系数就越接近于1
C.若所有样本点都在直线上,则
D.以拟合一组数据时,经代换后的线性回归方程为,则
10.(2022·武昌模拟)通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:
跳绳 性别 合计
男 女
爱好 40 20 60
不爱好 20 30 50
合计 60 50 110
已知,
0.05 0.01 0.001
3.841 6.635 10.828
则以下结论正确的是(  )
A.根据小概率值的独立性检验,爱好跳绳与性别无关
B.根据小概率值的独立性检验,爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
C.根据小概率值的独立性检验,有99%以上的把握认为“爱好跳绳与性别无关”
D.根据小概率值的独立性检验,在犯错误的概率不超过1%的前提下,认为“爱好跳绳与性别无关”
二、填空题
11.(2022·西安模拟)设变量y与x的回归模型A、模型B、模型C相应的相关系数r的值分别为0.28、0.35、0.3,则拟合效果最好的是模型   .
12.(2022·大通模拟)已知之间具有线性相关关系,若通过10组数据得到的回归方程为,且,则   .
13.(2022高三上·汕尾期末)“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展,下表是近几年我国某地区新能源汽车的年销售量与年价的统计表
年份 2016 2017 2018 2019 2020
年销售量(万台) 8 12 15 20 25
根据上表,利用最小二乘法,新能源汽车的年销售量y万台关于年份x的线性回归方程为   .
参考数据:
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
14.(2022·岳阳模拟)某种产品的广告支出费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:
广告支出费用x 2.2 2.6 4.0 5.3 5.9
销售量y 3.8 5.4 7.0 11.6 12.2
根据表中的数据可得回归直线方程2.27x,R2≈0.96,则
①第三个样本点对应的残差1
②在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
③销售量的多少有96%是由广告支出费用引起的
上述结论判断中有一个是错误的,其序号为    
15.(2022·安康三模)近年来,人口问题已成为一个社会问题,人口老龄化,新生儿数量减少等问题已对我国的经济建设产生影响.为应对人口问题的挑战,2016年1月1日起全面放开二胎,2021年1月1日起全面放开三胎.下表是2016年~2020年我国新生儿数量统计:
年份x 2016 2017 2018 2019 2020
数量y(万) 1786 1758 1532 1465 1200
研究发现这几年的新生儿数量与年份有较强的线性关系,若求出的回归方程为,则   ,说明我国这几年的新生儿数量平均约以每年   万的速度递减(结果保留一位小数),这种趋势如果得不到遏制,我国人口形势将会非常悲观.
三、解答题
16.(2022·山东模拟)某研究所为了研究某种昆虫的产卵数与温度之间的关系,现将收集到的温度和一组昆虫的产卵数的6组观测数据作了初步处理,得到如图的散点图及一些统计数据.
经计算得到以下数据:,.
附参考公式:对于一组具有线性相关关系的数据,其回归直线截距和斜率的最小二乘法估计公式分别为:,相关系数:.参考数据:.
(1)若用线性回归模型来拟合数据的变化关系,求y关于x的回归方程(结果精确到0.1);
(2)若用非线性回归模型来拟合数据的变化关系,求得关于的回归方程,且相关指数为.
①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;
②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数).
17.(2022·昆明模拟)在能源和环保的压力下,新能源汽车无疑将成为未来汽车的发展方向.2016年4月,为促进新能源汽车发展,实施差异化交通管理政策,公安部启用新能源汽车专用号牌.2020年11月,国务院办公厅印发《新能源汽车产业发展规划(2021-2035年)》,要求深入实施发展新能源汽车国家战略,推动中国新能源汽车产业高质量可持续发展.下表是2016年至2020年新能源汽车年销量(单位:十万辆)情况:
年份 2016 2017 2018 2019 2020
年份编号 1 2 3 4 5
年销量 5 7 12 12 14
参考公式: , .
(1)完成下表;
年份编号 1 2 3 4 5
         
         
(2)试建立年销量 关于年份编号 的线性回归方程 ;
(3)根据(2)中的线性回归方程预测2023年新能源汽车的年销量.
18.(2022·马鞍山模拟)为了研究某果园的一种果树的产量与种植密度的关系,某中学的数学兴趣小组在该果园选取了一块种植区域进行了统计调查,他们将每株果树与其直线距离不超过1米的果树株数x记为其密度,在记录了该种植区域内每株果树的密度后,从中选取密度为0,1,2,3,4的果树,统计其产量的平均值y(单位:kg),得到如下统计表:
x 0 1 2 3 4
y 15 12 11 9 8
参考公式:,.
(1)小组成员甲认为y与x有很强的线性相关关系,请你帮他利用最小二乘法求出y关于x的线性回归方程;
(2)小组成员乙提出:若利用回归方程计算的平均产量的估计值与实际的平均产量(,)满足:,则应该修正模型,寻找更合适的函数拟合x与y的关系.统计知种植密度分别为5,6的果树的平均产量为5.5kg、4.4kg,请你以这七组数据为依据判断(1)得到的回归方程是否需要修正?
19.(2022·河南模拟)在中国文娱消费中,视听付费市场规模不断增长,从2010年到2018年在线音乐市场规模变化情况如下表所示:
年份 2010 2011 2012 2013 2014 2015 2016 2017 2018
市场规模(亿元) 0.5 0.9 1.6 2.8 4.7 10.5 18.8 29.9 43.7
将2010年作为第1年,设第i年的市场规模为亿元.
参考数据:令,,,,,
,,.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
(1)与哪一个更适宜作为市场规模y关于i的回归方程?(给出判断即可,不必说明理由)
(2)根据(1)中的判断及表中的数据,求市场规模y关于i的回归方程.(系数精确到0.0001)
20.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第天的口罩的销售量(百件),得到的数据如下:,.
参考公式:相关系数;对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为
(1)若用线性回归模型拟合y与x之间的关系,求该回归直线的方程;
(2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到与之间的关系,且模型2的相关系数,试通过计算说明模型1,2中,哪一个模型的拟合效果更好.

展开更多......

收起↑

资源列表