(新人教A版强基版)2024届高考一轮复习数学 第九章 9.3 一元线性回归模型及其应用 (课件+学案)

资源下载
  1. 二一教育资源

(新人教A版强基版)2024届高考一轮复习数学 第九章 9.3 一元线性回归模型及其应用 (课件+学案)

资源简介

(共85张PPT)
§9.3 一元线性回归
模型及其应用
第九章 统计与成对数据的统计分析
1.了解样本相关系数的统计含义.
2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.
3.针对实际问题,会用一元线性回归模型进行预测.
考试要求
内容索引
第一部分
第二部分
第三部分
落实主干知识
探究核心题型
课时精练
落实主干知识




1.变量的相关关系
(1)相关关系:两个变量 ,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类: 和 .
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在 附近,我们就称这两个变量线性相关.
有关系
正相关
负相关
一条直线
2.样本相关系数
(2)当r>0时,称成对样本数据 ;当r<0时,称成对样本数据 .
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越 ;当|r|越接近0时,成对样本数据的线性相关程度越 .
正相关
负相关


3.一元线性回归模型
(2)残差:观测值减去 称为残差.
预测值
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
判断下列结论是否正确(请在括号中打“√”或“×”)
(1)相关关系是一种非确定性关系.(  )
(2)散点图是判断两个变量相关关系的一种重要方法和手段.(  )
(3)经验回归直线 至少经过点(x1,y1),(x2,y2),…,(xn,yn)中
的一个点.(  )
(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.
(  )



×
根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求经验回归方程,最后对所求的经验回归方程作出解释.
1.在对两个变量x,y进行回归分析时有下列步骤:
①对所求出的经验回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求经验回归方程;④根据所收集的数据绘制散点图.
则下列操作顺序正确的是
A.①②④③ B.③②④① C.②③①④ D.②④③①

2.对于x,y两变量,有四组成对样本数据,分别算出它们的样本相关系数r如下,则线性相关性最强的是
A.-0.82 B.0.78 C.-0.69 D.0.87

由样本相关系数的绝对值|r|越大,变量间的线性相关性越强知,各选项中r=0.87的绝对值最大.
气温(℃) 18 13 10 -1
用电量(度) 24 34 38 64
3.某单位为了了解办公楼用电量y(度)与气温x(℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:
A.68度 B.52度 C.12度 D.28度

探究核心题型

二部

x 3 4 5 6 7
y 3.5 2.4 1.1 -0.2 -1.3
例1 (1)(2023·保定模拟)已知两个变量x和y之间有线性相关关系,经调查得到如下样本数据:

题型一
成对数据的相关性
由已知数据可知y随着x的增大而减小,则变量x和y之间存在负相关关系,
(2)对两个变量x,y进行线性相关分析,得到样本相关系数r1=0.899 5,对两个变量u,v进行线性相关分析,得到样本相关系数r2=-0.956 8,则下列判断正确的是
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强

依题意,得r1=0.899 5,r2=-0.956 8,
所以x,y正相关,u,v负相关,|r1|<|r2|<1,
所以u,v的线性相关性较强.
判定两个变量相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
思维升华
根据统计资料,则利润中位数
A.是16,x与y有正相关关系 B.是17,x与y有正相关关系
C.是17,x与y有负相关关系 D.是18,x与y有负相关关系
年份 2017 2018 2019 2020 2021 2022
利润x 12.2 14.6 16 18 20.4 22.3
支出y 0.62 0.74 0.81 0.89 1 1.11
跟踪训练1 (1)某公司2017~2022年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如表所示:

由题意知,利润中位数是 =17,而且随着年利润x的增加,广告支出y也在增加,故x与y有正相关关系.
(2)已知相关变量x和y的散点图如图所示,若用y=b1·ln(k1x)与y=k2x+b2拟合时的样本相关系数分别为r1,r2则比较r1,r2的大小结果为
A.r1>r2 B.r1=r2
C.r1
由散点图可知,用y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|;
又因为x,y负相关,所以-r1>-r2,即r1命题点1 一元线性回归模型
例2 (2023·蚌埠模拟)某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:
题型二
回归模型
利率上升百分点x 0.1 0.2 0.3 0.4 0.5
日均存款总额y(亿元) 0.2 0.35 0.5 0.65 0.8
(1)在给出的坐标系中画出上表数据的散点图;
如图所示.
利率上升百分点x 0.1 0.2 0.3 0.4 0.5
日均存款总额y(亿元) 0.2 0.35 0.5 0.65 0.8
利率上升百分点x 0.1 0.2 0.3 0.4 0.5
日均存款总额y(亿元) 0.2 0.35 0.5 0.65 0.8
(3)已知现行利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测日均存款总额为现行利率下的2倍时,利率需上升多少个百分点?
设利率需上升x个百分点,
由(2)得,0.625×2=1.5x+0.05,解得x=0.8,
所以预测利率需上升0.8个百分点.
命题点2 非线性回归模型
例3 (2023·保山模拟)某县为了解乡村经济发展情况,对全县乡村经济发展情况进行调研,现对2013年以来的乡村经济收入y(单位:亿元)进行了统计分析,制成如图所示的散点图,其中年份代码x的值1—10分别对应2013年至2022年.
(1)若用模型①y=a+bx,②y=a+
拟合y与x的关系,其样本相关系数分别
为r1=0.851 9,r2=0.990 1,试判断哪
个模型的相关程度更强?
(2)根据(1)中相关程度更强的模型,求y关于x的经验回归方程(系数精确到0.01),并估计该县2026年的乡村经济收入(精确到0.01).
2026年的年份代码为14,
所以估计该县2026年的乡村经济收入为88.88亿元.
求经验回归方程的步骤
思维升华
跟踪训练2 (2022·南充模拟)某特色餐馆开通了某APP的外卖服务,在一周内的某特色菜外卖份数x(单位:份)与收入y(单位:元)之间有如下的对应数据:
外卖份数x(份) 2 4 5 6 8
收入y(元) 30 40 60 50 70
(1)在给出的坐标系中画出数据散点图;
作出散点图如图所示.
(2)请根据以上数据用最小二乘法求出收入y关于份数x的经验回归方程;
外卖份数x(份) 2 4 5 6 8
收入y(元) 30 40 60 50 70
外卖份数x(份) 2 4 5 6 8
收入y(元) 30 40 60 50 70
(3)据此估计外卖份数为12时,收入为多少元.
即外卖份数为12时,预测收入为95.5元.
外卖份数x(份) 2 4 5 6 8
收入y(元) 30 40 60 50 70
例4 (1)(多选)下列说法正确的是
A.在经验回归方程 =-0.85x+2.3中,当解释变量x每增加1个单位时,
响应变量 平均减少2.3个单位
B.在经验回归方程 =-0.85x+2.3中,相对于样本点(1,1.2)的残差为-0.25
C.在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效
果越好
D.若两个变量的决定系数R2越大,表示残差平方和越小,即模型的拟合
效果越好
题型三
残差分析



对于C,在残差图中,残差分布的水平带状区域的宽度越窄,说明拟合精度越高,即拟合效果越好,故C正确;
对于D,由决定系数R2的意义可知,R2越大,表示残差平方和越小,即模型的拟合效果越好,故D正确.
(2)新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,如表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:
月份代码x 1 2 3 4 5
碳酸锂价格y(万元/kg) 0.5 0.6 1 m 1.5
1.4
可得m=1.4.
检验回归模型的拟合效果的两种方法
(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果.
(2)R2分析:通过公式计算R2,R2越大,残差平方和越小,模型的拟合效果越好;R2越小,残差平方和越大,模型的拟合效果越差.
思维升华
B.可以用样本相关系数r来刻画两个变量x和y线性相关程度的强弱,r的
值越小,说明两个变量线性相关程度越弱
C.在回归分析中,决定系数R2=0.80的模型比决定系数R2=0.98的模型拟
合的效果要好
D.残差平方和越小的模型,拟合的效果越好
跟踪训练3 (1)下列命题是真命题的为

对于B,由样本相关系数的意义,当|r|越接近0时,表示变量y与x之间的线性相关程度越弱,所以B是假命题;
对于C,用决定系数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好,所以C是假命题;
对于D,由残差的统计学意义知,D是真命题.
此方程在样本点(160,46)处的残差为46-44.5=1.5.
(2)女高中生的体重y(kg)关于身高x(cm)的经验回归方程是 =0.75x-75.5,则此方程在样本点(160,46)处的残差是________.
1.5
课时精练

三部

1.下列有关线性回归的说法,不正确的是
A.具有相关关系的两个变量不是因果关系
B.散点图能直观地反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.任一组数据都有经验回归方程
1
2
3
4
5
6
7
8
9
10
11
12
13
14

基础保分练
1
2
3
4
5
6
7
8
9
10
11
12
13
14
根据两个变量具有相关关系的概念,可知A正确;
散点图能直观地描述呈相关关系的两个变量的相关程度,且回归直线最能代表它们之间的相关关系,所以B,C正确;
具有相关关系的成对样本数据才有经验回归方程,所以D不正确.
样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强,故D错误.
2.对于样本相关系数,下列说法错误的是
A.样本相关系数可以用来判断成对样本数据相关的正负性
B.样本相关系数可以是正的,也可以是负的
C.样本相关系数r∈[-1,1]
D.样本相关系数越大,成对样本数据的线性相关程度也越强

1
2
3
4
5
6
7
8
9
10
11
12
13
14
因为样本数据对应的点均在一条直线上,
所以R2=1.
3.(2023·运城模拟)在线性回归模型中,变量x与y的一组样本数据对应的

1
2
3
4
5
6
7
8
9
10
11
12
13
14
A.变量x与y正相关
B.y与x的样本相关系数r<0
D.当产量为8吨时,预测所需材料约为5.95吨
4.(多选)某工厂研究某种产品的产量x(单位:吨)与所需某种材料y(单位:吨)之间的相关关系,在生产过程中收集4组数据如表所示.根据表中数据



1
2
3
4
5
6
7
8
9
10
11
12
13
14
x 3 4 6 7
y 2.5 3 4 5.9
1
2
3
4
5
6
7
8
9
10
11
12
13
14
所以变量x与y呈正相关,
所以样本相关系数r>0,故A正确,B错误;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
即产量为8吨时,预测所需材料约为5.95吨,故D正确.
5.(多选)(2023·唐山模拟)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高(单位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线图如图所示.已知这10名志愿者身高的平均值为176 cm,根据这10名志愿者的数据求得臂展u关于身高v的经验回归方程为 =1.2v-34,则下列结论正确的是
A.这10名志愿者身高的极差小于臂展的
极差
B.这10名志愿者的身高和臂展呈负相关
C.这10名志愿者臂展的平均值为176.2 cm
D.根据经验回归方程可估计身高为160 cm
的人的臂展为158 cm
1
2
3
4
5
6
7
8
9
10
11
12
13
14


对于选项A,因为这10名志愿者臂展的最大值大于身高的最大值,而臂展的最小值小于身高的最小值,所以这10名志愿者身高的极差小于臂展的极差,故A正确;
对于选项B,因为1.2>0,所以这
10名志愿者的身高和臂展呈正相
关关系,故B错误;
对于选项C,因为这10名志愿者
身高的平均值为176 cm,所以这10名志愿者臂展的平均值为1.2×176-34=177.2(cm),故C错误;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
A.-0.96 B.-0.8 C.0.8 D.0.96
6.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:已知该产品的色度y和色差x之间满足线性相关关系,
且 现有一对测量数据为(30,23.6),则该数据的残差为

色差x 21 23 25 27
色度y 15 18 19 20
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
所以该数据的残差为23.6-22.8=0.8.
7.某智能机器人的广告费用x(万元)与销售额y(万元)的统计数据如表所示:
根据此表可得经验回归方程为 据此模型预测广告费用为8万元
时销售额为_____万元.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
57
广告费用x(万元) 2 3 5 6
销售额y(万元) 28 31 41 48
1
2
3
4
5
6
7
8
9
10
11
12
13
14
所以预测当广告费用为8万元时,销售额为5×8+17=57(万元).
广告费用x(万元) 2 3 5 6
销售额y(万元) 28 31 41 48
由已知条件可知,当x=5时,观测值为60,
所以残差等于60-50=10.
8.已知变量x和变量y的一组随机观测数据为(2,30),(4,40),(5,60),(6,50),
(8,70).如果y关于x的经验回归方程是 =6.5x+17.5,那么当x=5时,残差
等于_______.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
10
9.假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(2)计算y与x的样本相关系数r(精确到0.001),并判断该设备的使用年限与所支出的维修费用的相关程度.
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
r接近1,说明该设备的使用年限与所支出的维修费用之间具有很高的相关性.
10.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,平均一棵的材积量为0.39 m3.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
设该林区这种树木的总材积量的估计值为Y m3,
又已知树木的材积量与其根部横截面积近似成正比,
解得Y=1 209.
则该林区这种树木的总材积量的估计值为1 209 m3.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
C.此回归模型第4周的残差为5
D.估计第6周治愈人数为220

11.(多选)针对某疾病,各地医疗机构采取了各种有针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示,由表格可得y关于x的经验回归方程为 则下列说法正确的是
周数(x) 1 2 3 4 5
治愈人数(y) 2 17 36 93 142
1
2
3
4
5
6
7
8
9
10
11
12
13
14
综合提升练

1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
12.2020年,全球开展了某疫苗研发竞赛,我国处于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的10 000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取2 500人,分成5组,各组感染人数如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
调查人数x 300 400 500 600 700
感染人数y 3 3 6 6 7
1
2
3
4
5
6
7
8
9
10
11
12
13
14
调查人数x 300 400 500 600 700
感染人数y 3 3 6 6 7
0.818
故N=0.011×10 000-0.5=110-0.5=109.5≈110,
调查人数x 300 400 500 600 700
感染人数y 3 3 6 6 7
1
2
3
4
5
6
7
8
9
10
11
12
13
14
13.某化工厂产生的废气经过过滤后排放,以模型Y=p0e-kX去拟合过滤过程中废气的污染物浓度Y mg/L与时间X h之间的一组数据,为了求出经验回归方程,设z=ln Y,其变换后得到经验回归方程为 =-0.5X+2+
ln 300,则当经过6 h后,预报废气的污染物浓度为
A.300e2 mg/L B.300e mg/L

1
2
3
4
5
6
7
8
9
10
11
12
13
14
拓展冲刺练
14.(多选)已知由样本数据(xi,yi)(i=1,2,3,…,10)组成的一个样本,得到经验回归方程为 ,去除两个歧义点(-2,1)和(2,-1)
后,得到新的经验回归直线的斜率为3.则下列说法正确的是
A.相关变量x,y具有正相关关系
B.去除两个歧义点后,新样本中变量xj(j=1,2,…,8)的平均值变大
C.去除两个歧义点后的经验回归方程为
D.去除两个歧义点后,样本数据(4,8.9)的残差为0.1
1
2
3
4
5
6
7
8
9
10
11
12
13
14



对于A,因为经验回归直线的斜率大于0,所以相关变量x,y具有正相关关系,故A正确;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14§9.3 一元线性回归模型及其应用
考试要求 1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.
知识梳理
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
2.样本相关系数
(1)r=.
(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)我们将=x+称为Y关于x的经验回归方程,
其中
(2)残差:观测值减去预测值称为残差.
常用结论
1.经验回归直线过点(,).
2.求时,常用公式=.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
思考辨析
判断下列结论是否正确(请在括号中打“√”或“×”)
(1)相关关系是一种非确定性关系.( √ )
(2)散点图是判断两个变量相关关系的一种重要方法和手段.( √ )
(3)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( × )
(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( √ )
教材改编题
1.在对两个变量x,y进行回归分析时有下列步骤:
①对所求出的经验回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求经验回归方程;④根据所收集的数据绘制散点图.
则下列操作顺序正确的是(  )
A.①②④③ B.③②④①
C.②③①④ D.②④③①
答案 D
解析 根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求经验回归方程,最后对所求的经验回归方程作出解释.
2.对于x,y两变量,有四组成对样本数据,分别算出它们的样本相关系数r如下,则线性相关性最强的是(  )
A.-0.82 B.0.78 C.-0.69 D.0.87
答案 D
解析 由样本相关系数的绝对值|r|越大,变量间的线性相关性越强知,各选项中r=0.87的绝对值最大.
3.某单位为了了解办公楼用电量y(度)与气温x(℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:
气温(℃) 18 13 10 -1
用电量(度) 24 34 38 64
由表中数据得到经验回归方程=-2x+,当气温为-4 ℃时,预测用电量约为(  )
A.68度 B.52度
C.12度 D.28度
答案 A
解析 由表格可知=10,=40,
根据经验回归直线必过(,)得=40+20=60,
∴经验回归方程为=-2x+60,
因此当x=-4时,=68.
题型一 成对数据的相关性
例1 (1)(2023·保定模拟)已知两个变量x和y之间有线性相关关系,经调查得到如下样本数据:
x 3 4 5 6 7
y 3.5 2.4 1.1 -0.2 -1.3
根据表格中的数据求得经验回归方程为=x+,则下列说法中正确的是(  )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
答案 B
解析 由已知数据可知y随着x的增大而减小,则变量x和y之间存在负相关关系,所以<0.又=×(3+4+5+6+7)=5,=×(3.5+2.4+1.1-0.2-1.3)=1.1,即1.1=5+,所以=1.1-5>0.
(2)对两个变量x,y进行线性相关分析,得到样本相关系数r1=0.899 5,对两个变量u,v进行线性相关分析,得到样本相关系数r2=-0.956 8,则下列判断正确的是(  )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
答案 C
解析 依题意,得r1=0.899 5,r2=-0.956 8,
所以x,y正相关,u,v负相关,|r1|<|r2|<1,
所以u,v的线性相关性较强.
思维升华 判定两个变量相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
跟踪训练1 (1)某公司2017~2022年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如表所示:
年份 2017 2018 2019 2020 2021 2022
利润x 12.2 14.6 16 18 20.4 22.3
支出y 0.62 0.74 0.81 0.89 1 1.11
根据统计资料,则利润中位数(  )
A.是16,x与y有正相关关系
B.是17,x与y有正相关关系
C.是17,x与y有负相关关系
D.是18,x与y有负相关关系
答案 B
解析 由题意知,利润中位数是=17,而且随着年利润x的增加,广告支出y也在增加,故x与y有正相关关系.
(2)已知相关变量x和y的散点图如图所示,若用y=b1·ln(k1x)与y=k2x+b2拟合时的样本相关系数分别为r1,r2则比较r1,r2的大小结果为(  )
A.r1>r2 B.r1=r2
C.r1答案 C
解析 由散点图可知,用y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|;
又因为x,y负相关,所以-r1>-r2,即r1题型二 回归模型
命题点1 一元线性回归模型
例2 (2023·蚌埠模拟)某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:
利率上升百分点x 0.1 0.2 0.3 0.4 0.5
日均存款总额y(亿元) 0.2 0.35 0.5 0.65 0.8
(1)在给出的坐标系中画出上表数据的散点图;
(2)根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程=x+;
(3)已知现行利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测日均存款总额为现行利率下的2倍时,利率需上升多少个百分点?
参考公式及数据:①=,=-,②iyi=0.9,=0.55.
解 (1)如图所示.
(2)由表格数据可得=×(0.1+0.2+0.3+0.4+0.5)=0.3,=×(0.2+0.35+0.5+0.65+0.8)=0.5,
所以===1.5,
=-=0.5-1.5×0.3=0.05,
故=1.5x+0.05.
(3)设利率需上升x个百分点,
由(2)得,0.625×2=1.5x+0.05,解得x=0.8,
所以预测利率需上升0.8个百分点.
命题点2 非线性回归模型
例3 (2023·保山模拟)某县为了解乡村经济发展情况,对全县乡村经济发展情况进行调研,现对2013年以来的乡村经济收入y(单位:亿元)进行了统计分析,制成如图所示的散点图,其中年份代码x的值1—10分别对应2013年至2022年.
(1)若用模型①y=a+bx,②y=a+b拟合y与x的关系,其样本相关系数分别为r1=0.851 9,r2=0.990 1,试判断哪个模型的相关程度更强?
(2)根据(1)中相关程度更强的模型,求y关于x的经验回归方程(系数精确到0.01),并估计该县2026年的乡村经济收入(精确到0.01).
参考数据:ti=,=i,≈3.606,≈3.742,≈3.873.
(xi-)2 (ti-)2 (xi-)·(yi-) (ti-)·(yi-)
72.65 2.25 126.25 4.52 235.48 49.16
参考公式:对于一组数据(t1,y1),(t2,y2),…,(tn,yn),经验回归方程=t+中的斜率和截距的最小二乘估计公式分别为=,
=-.
解 (1)因为r2更接近1,所以y=a+b的相关程度更强.
(2)根据题中所给数据得=+t,
所以==≈10.88,
则≈72.65-10.88×2.25=48.17,
所以非线性经验回归方程为=48.17+10.88,
2026年的年份代码为14,
当x=14时,=48.17+10.88×≈88.88,
所以估计该县2026年的乡村经济收入为88.88亿元.
思维升华 求经验回归方程的步骤
跟踪训练2 (2022·南充模拟)某特色餐馆开通了某APP的外卖服务,在一周内的某特色菜外卖份数x(单位:份)与收入y(单位:元)之间有如下的对应数据:
外卖份数x(份) 2 4 5 6 8
收入y(元) 30 40 60 50 70
(1)在给出的坐标系中画出数据散点图;
(2)请根据以上数据用最小二乘法求出收入y关于份数x的经验回归方程;
(3)据此估计外卖份数为12时,收入为多少元.
参考数据公式:=145,iyi=1 380,
==,
=-.
解 (1)作出散点图如图所示.
(2)由表格数据得,==5,
==50,
则===6.5,
=-=50-6.5×5=17.5,
因此,所求经验回归方程为=6.5x+17.5.
(3)当x=12时,=12×6.5+17.5=95.5,
即外卖份数为12时,预测收入为95.5元.
题型三 残差分析
例4 (1)(多选)下列说法正确的是(  )
A.在经验回归方程=-0.85x+2.3中,当解释变量x每增加1个单位时,响应变量平均减少2.3个单位
B.在经验回归方程=-0.85x+2.3中,相对于样本点(1,1.2)的残差为-0.25
C.在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
D.若两个变量的决定系数R2越大,表示残差平方和越小,即模型的拟合效果越好
答案 BCD
解析 对于A,根据经验回归方程,当解释变量x每增加1个单位时,响应变量平均减少0.85个单位,故A错误;
对于B,当解释变量x=1时,响应变量=1.45,则样本点(1,1.2)的残差为-0.25,故B正确;
对于C,在残差图中,残差分布的水平带状区域的宽度越窄,说明拟合精度越高,即拟合效果越好,故C正确;
对于D,由决定系数R2的意义可知,R2越大,表示残差平方和越小,即模型的拟合效果越好,故D正确.
(2)新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,如表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:
月份代码x 1 2 3 4 5
碳酸锂价格y(万元/kg) 0.5 0.6 1 m 1.5
根据表中数据,得出y关于x的经验回归方程为=0.28x+,根据数据计算出在样本点(5,1.5)处的残差为-0.06,则表中m=________.
答案 1.4
解析 由题设,1.5-=1.5-(0.28×5+)=-0.06,
可得=0.16.
又==3,
==,
所以0.28×3+0.16=,
可得m=1.4.
思维升华 检验回归模型的拟合效果的两种方法
(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果.
(2)R2分析:通过公式计算R2,R2越大,残差平方和越小,模型的拟合效果越好;R2越小,残差平方和越大,模型的拟合效果越差.
跟踪训练3 (1)下列命题是真命题的为(  )
A.经验回归方程=x+一定不过样本点
B.可以用样本相关系数r来刻画两个变量x和y线性相关程度的强弱,r的值越小,说明两个变量线性相关程度越弱
C.在回归分析中,决定系数R2=0.80的模型比决定系数R2=0.98的模型拟合的效果要好
D.残差平方和越小的模型,拟合的效果越好
答案 D
解析 对于A,经验回归方程不一定经过其样本点,但一定经过(,),所以A是假命题;
对于B,由样本相关系数的意义,当|r|越接近0时,表示变量y与x之间的线性相关程度越弱,所以B是假命题;
对于C,用决定系数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好,所以C是假命题;
对于D,由残差的统计学意义知,D是真命题.
(2)女高中生的体重y(kg)关于身高x(cm)的经验回归方程是=0.75x-75.5,则此方程在样本点(160,46)处的残差是________.
答案 1.5
解析 由题意得=0.75x-75.5,
当x=160时,=0.75×160-75.5=44.5,
此方程在样本点(160,46)处的残差为46-44.5=1.5.
课时精练
1.下列有关线性回归的说法,不正确的是(  )
A.具有相关关系的两个变量不是因果关系
B.散点图能直观地反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.任一组数据都有经验回归方程
答案 D
解析 根据两个变量具有相关关系的概念,可知A正确;
散点图能直观地描述呈相关关系的两个变量的相关程度,且回归直线最能代表它们之间的相关关系,所以B,C正确;
具有相关关系的成对样本数据才有经验回归方程,所以D不正确.
2.对于样本相关系数,下列说法错误的是(  )
A.样本相关系数可以用来判断成对样本数据相关的正负性
B.样本相关系数可以是正的,也可以是负的
C.样本相关系数r∈[-1,1]
D.样本相关系数越大,成对样本数据的线性相关程度也越强
答案 D
解析 样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强,故D错误.
3.(2023·运城模拟)在线性回归模型中,变量x与y的一组样本数据对应的点均在直线y=x+1上,R2=1-,则R2等于(  )
A. B. C.1 D.
答案 C
解析 因为样本数据对应的点均在一条直线上,
所以R2=1.
4.(多选)某工厂研究某种产品的产量x(单位:吨)与所需某种材料y(单位:吨)之间的相关关系,在生产过程中收集4组数据如表所示.根据表中数据可得经验回归方程为=0.7x+,则下列四个说法中正确的为(  )
x 3 4 6 7
y 2.5 3 4 5.9
A.变量x与y正相关
B.y与x的样本相关系数r<0
C.=0.35
D.当产量为8吨时,预测所需材料约为5.95吨
答案 ACD
解析 因为经验回归方程=0.7x+,
所以变量x与y呈正相关,
所以样本相关系数r>0,故A正确,B错误;
由表格可得==5,==3.85,
则0.7×5+=3.85,解得=0.35,故C正确;
所以经验回归方程为=0.7x+0.35,
当x=8时,=0.7×8+0.35=5.95,
即产量为8吨时,预测所需材料约为5.95吨,故D正确.
5.(多选)(2023·唐山模拟)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高(单位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线图如图所示.已知这10名志愿者身高的平均值为176 cm,根据这10名志愿者的数据求得臂展u关于身高v的经验回归方程为=1.2v-34,则下列结论正确的是(  )
A.这10名志愿者身高的极差小于臂展的极差
B.这10名志愿者的身高和臂展呈负相关
C.这10名志愿者臂展的平均值为176.2 cm
D.根据经验回归方程可估计身高为160 cm的人的臂展为158 cm
答案 AD
解析 对于选项A,因为这10名志愿者臂展的最大值大于身高的最大值,而臂展的最小值小于身高的最小值,所以这10名志愿者身高的极差小于臂展的极差,故A正确;
对于选项B,因为1.2>0,所以这10名志愿者的身高和臂展呈正相关关系,故B错误;
对于选项C,因为这10名志愿者身高的平均值为176 cm,所以这10名志愿者臂展的平均值为1.2×176-34=177.2(cm),故C错误;
对于选项D,若一个人的身高为160 cm,则由经验回归方程=1.2v-34,可得这个人的臂展的估计值为158 cm,故D正确.
6.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:已知该产品的色度y和色差x之间满足线性相关关系,且=0.8x+,现有一对测量数据为(30,23.6),则该数据的残差为(  )
色差x 21 23 25 27
色度y 15 18 19 20
A.-0.96 B.-0.8 C.0.8 D.0.96
答案 C
解析 由题意可知,==24,==18,
将(24,18)代入=0.8x+,
即18=0.8×24+,解得=-1.2,
所以=0.8x-1.2,
当x=30时,=0.8×30-1.2=22.8,
所以该数据的残差为23.6-22.8=0.8.
7.某智能机器人的广告费用x(万元)与销售额y(万元)的统计数据如表所示:
广告费用x(万元) 2 3 5 6
销售额y(万元) 28 31 41 48
根据此表可得经验回归方程为=5x+,据此模型预测广告费用为8万元时销售额为________万元.
答案 57
解析 由表格,得==4,==37,
所以37=5×4+,即=17,
所以预测当广告费用为8万元时,销售额为5×8+17=57(万元).
8.已知变量x和变量y的一组随机观测数据为(2,30),(4,40),(5,60),(6,50),(8,70).如果y关于x的经验回归方程是=6.5x+17.5,那么当x=5时,残差等于________.
答案 10
解析 由已知条件可知,当x=5时,观测值为60,
将x=5代入经验回归方程=6.5x+17.5,
可得=6.5×5+17.5=50,
所以残差等于60-50=10.
9.假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
已知=90,≈140.8,iyi=112.3,≈8.9,≈1.4.
(1)求,;
(2)计算y与x的样本相关系数r(精确到0.001),并判断该设备的使用年限与所支出的维修费用的相关程度.
附:样本相关系数r==.
解 (1)==4,
==5.0.
(2)iyi-5=112.3-5×4×5=12.3,-52=90-5×42=10,
-52≈140.8-5×52=15.8,
所以r= ≈=≈≈0.987,
r接近1,说明该设备的使用年限与所支出的维修费用之间具有很高的相关性.
10.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得x=0.038,y=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:样本相关系数r==,≈1.377.
解 (1)样本中10棵这种树木的根部横截面积的平均值==0.06(m2),
样本中10棵这种树木的材积量的平均值
==0.39(m3),
据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,平均一棵的材积量为0.39 m3.
(2)r=

=≈≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,
又已知树木的材积量与其根部横截面积近似成正比,
可得=,
解得Y=1 209.
则该林区这种树木的总材积量的估计值为1 209 m3.
11.(多选)针对某疾病,各地医疗机构采取了各种有针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示,由表格可得y关于x的经验回归方程为=6x2+,则下列说法正确的是(  )
周数(x) 1 2 3 4 5
治愈人数(y) 2 17 36 93 142
A.=4
B.=-8
C.此回归模型第4周的残差为5
D.估计第6周治愈人数为220
答案 BC
解析 设t=x2,则=6t+,
由已知得=×(1+4+9+16+25)=11,
=×(2+17+36+93+142)=58,
所以=58-6×11=-8,故A错误,B正确;
在=6x2-8中,令x=4,
得4=6×42-8=88,
所以此回归模型第4周的残差为y4-4=93-88=5,故C正确;
在=6x2-8中,令x=6,
得6=6×62-8=208,故D错误.
12.2020年,全球开展了某疫苗研发竞赛,我国处于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的10 000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取2 500人,分成5组,各组感染人数如下:
调查人数x 300 400 500 600 700
感染人数y 3 3 6 6 7
并求得y与x的经验回归方程为=0.011x+,同期,在人数为10 000的条件下,以拟合结果估算未注射疫苗的人群中感染人数,记为N;注射疫苗后仍被感染的人数记为n,则估计该疫苗的有效率为________.(疫苗的有效率为1-,结果保留3位有效数字)
答案 0.818
解析 由表格中的数据可得=500,=5,故=5-0.011×500=-0.5,故N=0.011×
10 000-0.5=110-0.5=109.5≈110,而n=20,故疫苗的有效率为1-≈0.818.
13.某化工厂产生的废气经过过滤后排放,以模型Y=p0e-kX去拟合过滤过程中废气的污染物浓度Y mg/L与时间X h之间的一组数据,为了求出经验回归方程,设z=ln Y,其变换后得到经验回归方程为=-0.5X+2+ln 300,则当经过6 h后,预报废气的污染物浓度为(  )
A.300e2 mg/L B.300e mg/L
C. mg/L D. mg/L
答案 D
解析 当X=6时,=-1+ln 300=ln ,所以==.
14.(多选)已知由样本数据(xi,yi)(i=1,2,3,…,10)组成的一个样本,得到经验回归方程为=2x-0.4,且=2,去除两个歧义点(-2,1)和(2,-1)后,得到新的经验回归直线的斜率为3.则下列说法正确的是(  )
A.相关变量x,y具有正相关关系
B.去除两个歧义点后,新样本中变量xj(j=1,2,…,8)的平均值变大
C.去除两个歧义点后的经验回归方程为1=3x-3
D.去除两个歧义点后,样本数据(4,8.9)的残差为0.1
答案 ABC
解析 对于A,因为经验回归直线的斜率大于0,所以相关变量x,y具有正相关关系,故A正确;
对于B,将=2代入=2x-0.4得=3.6,则去除两个歧义点后,得到新的相关变量的平均值分别为==,==,故B正确;
对于C,=-3×=-3,新的经验回归方程为1=3x-3,故C正确;
对于D,当x=4时,1=3×4-3=9,残差为8.9-9=-0.1,故D错误.§9.3 一元线性回归模型及其应用
考试要求 1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.
知识梳理
1.变量的相关关系
(1)相关关系:两个变量____________,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:________和__________.
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在________________附近,我们就称这两个变量线性相关.
2.样本相关系数
(1)r=.
(2)当r>0时,称成对样本数据____________;当r<0时,称成对样本数据____________.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越________;当|r|越接近0时,成对样本数据的线性相关程度越________.
3.一元线性回归模型
(1)我们将=x+称为Y关于x的经验回归方程,
其中
(2)残差:观测值减去____________称为残差.
常用结论
1.经验回归直线过点(,).
2.求时,常用公式=.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
思考辨析
判断下列结论是否正确(请在括号中打“√”或“×”)
(1)相关关系是一种非确定性关系.(  )
(2)散点图是判断两个变量相关关系的一种重要方法和手段.(  )
(3)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.(  )
(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.(  )
教材改编题
1.在对两个变量x,y进行回归分析时有下列步骤:
①对所求出的经验回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求经验回归方程;④根据所收集的数据绘制散点图.
则下列操作顺序正确的是(  )
A.①②④③ B.③②④①
C.②③①④ D.②④③①
2.对于x,y两变量,有四组成对样本数据,分别算出它们的样本相关系数r如下,则线性相关性最强的是(  )
A.-0.82 B.0.78 C.-0.69 D.0.87
3.某单位为了了解办公楼用电量y(度)与气温x(℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:
气温(℃) 18 13 10 -1
用电量(度) 24 34 38 64
由表中数据得到经验回归方程=-2x+,当气温为-4 ℃时,预测用电量约为(  )
A.68度 B.52度 C.12度 D.28度
题型一 成对数据的相关性
例1 (1)(2023·保定模拟)已知两个变量x和y之间有线性相关关系,经调查得到如下样本数据:
x 3 4 5 6 7
y 3.5 2.4 1.1 -0.2 -1.3
根据表格中的数据求得经验回归方程为=x+,则下列说法中正确的是(  )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
(2)对两个变量x,y进行线性相关分析,得到样本相关系数r1=0.899 5,对两个变量u,v进行线性相关分析,得到样本相关系数r2=-0.956 8,则下列判断正确的是(  )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
听课记录:______________________________________________________________
________________________________________________________________________
思维升华 判定两个变量相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
跟踪训练1 (1)某公司2017~2022年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如表所示:
年份 2017 2018 2019 2020 2021 2022
利润x 12.2 14.6 16 18 20.4 22.3
支出y 0.62 0.74 0.81 0.89 1 1.11
根据统计资料,则利润中位数(  )
A.是16,x与y有正相关关系
B.是17,x与y有正相关关系
C.是17,x与y有负相关关系
D.是18,x与y有负相关关系
(2)已知相关变量x和y的散点图如图所示,若用y=b1·ln(k1x)与y=k2x+b2拟合时的样本相关系数分别为r1,r2则比较r1,r2的大小结果为(  )
A.r1>r2 B.r1=r2
C.r1题型二 回归模型
命题点1 一元线性回归模型
例2 (2023·蚌埠模拟)某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:
利率上升百分点x 0.1 0.2 0.3 0.4 0.5
日均存款总额y(亿元) 0.2 0.35 0.5 0.65 0.8
(1)在给出的坐标系中画出上表数据的散点图;
(2)根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程=x+;
(3)已知现行利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测日均存款总额为现行利率下的2倍时,利率需上升多少个百分点?
参考公式及数据:①=,
=-,②iyi=0.9,=0.55.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
命题点2 非线性回归模型
例3 (2023·保山模拟)某县为了解乡村经济发展情况,对全县乡村经济发展情况进行调研,现对2013年以来的乡村经济收入y(单位:亿元)进行了统计分析,制成如图所示的散点图,其中年份代码x的值1—10分别对应2013年至2022年.
(1)若用模型①y=a+bx,②y=a+b拟合y与x的关系,其样本相关系数分别为r1=0.851 9,r2=0.990 1,试判断哪个模型的相关程度更强?
(2)根据(1)中相关程度更强的模型,求y关于x的经验回归方程(系数精确到0.01),并估计该县2026年的乡村经济收入(精确到0.01).
参考数据:ti=,=i,≈3.606,≈3.742,≈3.873.
(xi-)2 (ti-)2 (xi-)·(yi-) (ti-)·(yi-)
72.65 2.25 126.25 4.52 235.48 49.16
参考公式:对于一组数据(t1,y1),(t2,y2),…,(tn,yn),经验回归方程=t+中的斜率和截距的最小二乘估计公式分别为=,=-.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
思维升华 求经验回归方程的步骤
跟踪训练2 (2022·南充模拟)某特色餐馆开通了某APP的外卖服务,在一周内的某特色菜外卖份数x(单位:份)与收入y(单位:元)之间有如下的对应数据:
外卖份数x(份) 2 4 5 6 8
收入y(元) 30 40 60 50 70
(1)在给出的坐标系中画出数据散点图;
(2)请根据以上数据用最小二乘法求出收入y关于份数x的经验回归方程;
(3)据此估计外卖份数为12时,收入为多少元.
参考数据公式:=145,iyi=1 380,
==,=-.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
题型三 残差分析
例4 (1)(多选)下列说法正确的是(  )
A.在经验回归方程=-0.85x+2.3中,当解释变量x每增加1个单位时,响应变量平均减少2.3个单位
B.在经验回归方程=-0.85x+2.3中,相对于样本点(1,1.2)的残差为-0.25
C.在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
D.若两个变量的决定系数R2越大,表示残差平方和越小,即模型的拟合效果越好
(2)新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,如表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:
月份代码x 1 2 3 4 5
碳酸锂价格y(万元/kg) 0.5 0.6 1 m 1.5
根据表中数据,得出y关于x的经验回归方程为=0.28x+,根据数据计算出在样本点(5,1.5)处的残差为-0.06,则表中m=________.
听课记录:______________________________________________________________
________________________________________________________________________
跟踪训练3 (1)下列命题是真命题的为(  )
A.经验回归方程=x+一定不过样本点
B.可以用样本相关系数r来刻画两个变量x和y线性相关程度的强弱,r的值越小,说明两个变量线性相关程度越弱
C.在回归分析中,决定系数R2=0.80的模型比决定系数R2=0.98的模型拟合的效果要好
D.残差平方和越小的模型,拟合的效果越好
(2)女高中生的体重y(kg)关于身高x(cm)的经验回归方程是=0.75x-75.5,则此方程在样本点(160,46)处的残差是________.

展开更多......

收起↑

资源列表