专题8.2 一元线性回归模型及其应用【九大题型】(举一反三)(人教A版2019选择性必修第三册)(含答案)2024-2025学年高二数学举一反三系列(人教A版2019选择性必修第三册)

资源下载
  1. 二一教育资源

专题8.2 一元线性回归模型及其应用【九大题型】(举一反三)(人教A版2019选择性必修第三册)(含答案)2024-2025学年高二数学举一反三系列(人教A版2019选择性必修第三册)

资源简介

专题 8.2 一元线性回归模型及其应用【九大题型】
【人教 A 版(2019)】
【题型 1 解释回归直线方程的意义】 ....................................................................................................................1
【题型 2 由散点图画求近似回归直线】 ................................................................................................................3
【题型 3 根据回归方程进行数据估计】 ................................................................................................................5
【题型 4 残差的计算】 ............................................................................................................................................8
【题型 5 刻画回归效果的方式】 ..........................................................................................................................10
【题型 6 求回归直线方程】 ..................................................................................................................................12
【题型 7 线性回归分析】 ......................................................................................................................................14
【题型 8 非线性回归分析】 ..................................................................................................................................18
【题型 9 线性回归与其他知识综合】 ..................................................................................................................22
【知识点 1 一元线性回归模型】
1.一元线性回归模型
把式子 为 Y 关于 x 的一元线性回归模型.其中,Y 称为因变量或响应变量,x 称
为自变量或解释变量;a 和 b 为模型的未知参数,a 称为截距参数,b 称为斜率参数;e 是 Y 与 bx+a 之间的
随机误差.
2.随机误差
在线性回归模型 Y=bx+a+e 中,a 和 b 为模型的未知参数,e 是 Y 与 bx+a 之间的误差,通常 e 为随机变
量,称为随机误差.它的均值 E(e)=0,方程 D(e)=σ2>0.
线性回归模型的完整表达式为 ,在此模型中,随机误差 e 的方差 σ2越小,用 bx+a
预报真实值 y 的精度越高.
【题型 1 解释回归直线方程的意义】
【例 1】(24-25 高二下·全国·课后作业)关于线性回归的描述,有下列命题:
①回归直线一定经过样本点的中心;
②相关系数 r 越大,线性相关程度越强;
③决定系数 2越接近 1 拟合效果越好;
④随机误差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
【解题思路】根据回归直线方程的性质,相关系数、决定系数及随机误差平方和的意义判断各项的正误即
可.
【解答过程】对于①,回归直线一定经过样本点的中心,故①正确;
对于②,相关系数 r 的绝对值越接近于 1,线性相关性越强,故②错误;
对于③,决定系数 R 越接近 1 拟合效果越好,故③正确;
对于④,随机误差平方和越小,拟合效果越好,故④正确.
故选:C.
【变式 1-1】(23-24 高二下·山东青岛·期中)下列有关一元线性回归分析的命题正确的是( )
A.若两个变量的线性相关程度越强,则样本相关系数 就越接近于 1
B.经验回归直线是经过散点图中样本数据点最多的那条直线
C.在经验回归方程 = 2 0.5 中,若解释变量 增加 1 个单位,则预测值 平均减少 0.5 个单位
D.若甲、乙两个模型的决定系数 2分别为 0.87 和 0.78,则模型乙的拟合效果更好
【解题思路】根据回归方程的意义,逐项分析理解即可.
【解答过程】对于 A,相关有正相关和负相关,共同点是相关性越强,相关系数的绝对值越接近于 1,故 A
错误;
对于 B,确定回归直线的根据是误差最小,并不是经过的样本点最多,故 B 错误;
^
对于 C, 0.5的含义就是 x 每增加一个单位,估计值 就平均减少 0.5 个单位,故 C 正确;
对于 D, 2是描述拟合效果的, 2越大拟合效果越好,应该是甲的拟合效果更好,故 D 错误;
故选:C.
【变式 1-2】(23-24 高二下·海南·期末)以下关于一元线性回归模型的说法中,错误的是( )
A.相关系数 的绝对值越接近 0,则两个变量的线性相关程度越弱
B.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好
C.点( , )一定在经验回归直线 = + 上
D.若经验回归方程为 = 3 + 10,则 每增加 1 个单位, 的值就增加 10 个单位
【解题思路】由相关系数的定义求解选项 A.由残差图的含义求解选项 B.由线性回归方程的性质知点( , )一
定在经验回归直线 = + 上求解选项 C.由经验回归方程的性质和意义求解选项 D.
【解答过程】选项 A:由相关系数 的绝对值越接近 0,则两个变量的线性相关程度越弱,可知选项 A 正确;
选项 B:由在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好可知选项 B 正确;
选项 C:由点( , )一定在经验回归直线 = + 上知选项 C 正确;
选项 D:由回归方程的性质可知;若经验回归方程为 = 3 + 10,则 每增加 1 个单位, 的值就平均增加 3
个单位,可知 D 选项 C 错误.
故选:D.
【变式 1-3】(23-24 高二下·河南南阳·开学考试)在线性回归方程 = + 中, 为回归系数,下列关于
的说法中不正确的是( )
A. 为回归直线的斜率
B. > 0,表示随 增加, 值增加, < 0,表示随 增加, 值减少
C. 是唯一确定的值
D.回归系数 的统计意义是当 每增加(或减少)一个单位, 平均改变 个单位
【解题思路】利用回归直线方程的特点逐项判断即得.
【解答过程】对于 A,线性回归方程 = + 中的 为回归直线的斜率,A 正确;
对于 B, > 0,表示随 增加, 值增加, < 0,表示随 增加, 值减少,B 正确;
对于 C, 是由总体的一个样本利用一定的方法计算得到的,选择不同的样本
或不同的计算方法得到的 一般是不同的,C 错误;
对于 D,回归系数 的统计意义是当 每增加(或减少)一个单位, 平均改变 个单位,D 正确.
故选:C.
【题型 2 由散点图画求近似回归直线】
【例 2】(24-25 高二下·全国·课后作业)若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理
的是( )

A. = B. = e C. = + ln D. = e
【解题思路】由图可知函数的函数值既可以为正,也可为负,结合选项分析即可得到答案.
【解答过程】由散点图可知,此曲线类似对数函数型曲线,因此可用函数 = + ln 模型进行拟合,而选
项 A、B、D 中函数值只能为负或只能为正,所以不符合散点图.
故选:C.
【变式 2-1】(23-24 高二下·河南信阳·期末)如图是两个变量的散点图,y 关于 x 的回归方程可能是( )
A. = 3ln 1| | +2 B. = 3 1 C. = 2 3 +2 D. = 10 + 2
【解题思路】根据散点图与给所函数的图象的偏离情况,即可求解.
【解答过程】由散点图可知,y 与 x 负相关,故排除 A,B,对于 D: = 110 + 2
1
,点( , )偏离 = 10 + 2较
大,而点( , )近似在曲线 = 2 3 +2附近,所以 y 关于 x 的回归方程是 C 的可能性大.
故选:C.
【变式 2-2】(23-24 高二下·福建福州·期末)某个国家某种病毒传播的中期感染人数 y 和天数 x 的散点图如
图所示,下列最适宜作为感染人数 y 和天数 x 的经验回归方程类型的是( )
A. = + B. = + e
C. = + ln D. = +
【解题思路】由散点图的变化趋势,结合四个选项中函数的单调性即可得结论.
【解答过程】由图可知,图象随着 x 的增大而增高,且增长速度越来越快,
结合选项,可判断 = + e 最适宜作为感染人数 y 和时间 x 的回归方程.
故选:B.
【变式 2-3】(24-25 高二·全国·课后作业)如图是某地区 2012 年至 2021 年的空气污染天数 Y(单位:天)
与年份 X 的折线图.根据 2012 年至 2016 年的数据,2017 年至 2021 年的数据,2012 年至 2021 年的数据分
^ ^
别建立线性回归模型 = 1 + 1, = 2 + 2, = 3 + 3,则( )
A. 1 < 2< 3, 1 < 2 < 3 B. 1 < 3 < 2, 1 < 3 < 2
C. 2 < 3 < 1, 1 < 3 < 2 D. 2 < 3 < 1, 3 < 2 < 1
【解题思路】在散点图中作出三条线性回归方程对应直线的大致形状,数形结合即得.
【解答过程】记三条回归直线分别为 1: = 1 + 1, 2: = 2 + 2, 3: = 3 + 3,
画出这三条回归直线的大致图象,如图所示,
由图可知这三条回归直线的斜率大小关系为 2 < 3 < 1 < 0,
截距大小关系为 2 > 3 > 1 > 0.
故选:C.
【题型 3 根据回归方程进行数据估计】
【例 3】(24-25 高二下·全国·课后作业)已知由一组样本数据确定的经验回归方程为 = 1.5 + 1,且
= 2,发现有两组数据(2.6,2.8)与(1.4,5.2)误差较大,去掉这两组数据后,重新求得经验回归直线的斜率为
1.4,那么当 = 6时, 的值为( )
A.9.6 B.10 C.10.6 D.9.4
【解题思路】先根据 ,求出 ,再根据去掉的两组数据发现样本中心点没变,求出新的回归直线方程,将 = 6
代入即可求得.
【解答过程】由 = 1.5 + 1和 = 2,得 = 1.5 × 2 + 1 = 4.
所以去掉数据(2.6,2.8)与(1.4,5.2)后得到的新数据的平均数 ′ = 2, ′ = 4,
由题意可设去掉两组数据后的经验回归方程为 = 1.4 + ,
代入(2,4),求得 = 1.2,
故去掉(2.6,2.8)与(1.4,5.2)这两组数据后求得的经验回归方程为 = 1.4 + 1.2.
将 = 6代入经验回归方程,得 = 1.4 × 6 + 1.2 = 9.6.
故选:A.
【变式 3-1】(23-24 高二下·辽宁朝阳·期末)已知一组数据( , )( = 1,2, ,20)满足线性回归关系,且经验
1 20 20
回归方程为 = 10 + 30,若20 = 3,则 = ( ) =1 =1
A.30 B.60 C.630 D.1200
【解题思路】根据样本中心点在回归直线方程上代入计算可得结果.
【解答过程】易知样本数据的中心点 , 在回归直线方程 = 10 + 30上,
20
易知 = 120 = 3,所以 = 10 +30 = 60, =1
1 20 20
即 = 20 = 60,可得 = 1200. =1 =1
故选:D.
【变式 3-2】(24-25 高二下·江西·阶段练习)某市卫健委为了研究本市初中男生的脚长 x(单位:cm)和身
高 y(单位:cm)的关系,从该市随机抽取 100 名初中男生,根据测量数据的散点图可以看出 y 与 x 之间有
100 100
线性相关关系.设其经验回归方程为 = 4 + , = 2250, = 16000,若该市某位初中男生
=1 =1
的脚长为 25cm,据此估计其身高为( )
A.166cm B.168cm C.170cm D.172cm
【解题思路】根据给定条件,求出样本的中心点并求出经验回归方程,进而求出身高的估计值.
100 100
【解答过程】由 = 2250, = 16000,得样本的中心点为(22.5,160),
=1 =1
则160 = 4 × 22.5 + ,解得 = 70,因此经验回归方程为 = 4 + 70,
当 = 25cm时, = 4 × 25 + 70 = 170(cm).
故选:C.
【变式 3-3】(23-24 高二下·河南南阳·阶段练习)相关变量的样本数据如下表,
x 1 2 3 4 5 6 7
y 2.9 3.3 3.6 4.4 4.8 a 5.9
经回归分析可得 y 与 x 线性相关,并由最小二乘法求得回归直线方程为 = 0.5 + 2.3,下列说法正确的是
( )
A.x 增加 1 时,y 一定增加 2.3 B.变量 x 与 y 负相关
C.当 y 为 6.3 时,x 一定是 8 D.a=5.2
【解题思路】根据回归直线方程的几何意义判断 A、B 错误;令 = 6.3求解判断 C,计算( , )并代入回归
直线方程中,求得 a 的值,判断 D 正确.
【解答过程】根据回归直线方程 = 0.5 + 2.3知,x 增加 1 时,估计 y 增加0.5,故 A 错误;
由 = 0.5 + 2.3知, = 0.5 > 0,故变量 x 与 y 正相关,故 B 错误;
= 6.3时,0.5 + 2.3 = 6.3,解得 = 8,估计 的值应为 8,故 C 错误;
= 1又 7 ×
1 24.9+
(1 + 2 + 3 + 4 + 5 + 6 + 7) = 4, = 7 × (2.9 + 3.3 + 3.6 + 4.4 + 4.8 + + 5.9) = 7 ,
24.9+
代入回归直线方程中,则 7 = 0.5 × 4 + 2.3,解得 = 5.2,故 D 正确.
故选:D.
【知识点 2 一元线性回归模型参数的最小二乘估计】
1.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的 n 对样本数据为 ,由
(i=1,2, ,n),得 ,显然 越小,表示样本数据点离直线 y=bx+a
的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和 Q= 来刻画各样本观测数据与直线
y=bx+a 的“整体接近程度”.
当 a,b 的取值为 时,Q 达到最小.将 称为 Y 关于 x 的经验回
归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最
小二乘法,求得的 叫做 b,a 的最小二乘估计.
经验回归直线一定过点 .
2.求经验回归方程的一般步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
(2)列表求出 的值;
(3)利用公式先计算 ,再根据经验回归直线过样本点的中心 计算 ;
(4)写出经验回归方程 .
求经验回归方程,关键在于正确求出系数 ,由于计算量较大,所以计算时要仔细谨慎、分层进行,
避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
3.残差分析
对于响应变量 Y,通过观测得到的数据称为观测值,通过经验回归方程得到的 称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判
断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称
为残差图.在残差图中,残差点比较均匀地落在以取值为 0 的横轴为对称轴的水平带状区域内,说明选用的
模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为 ,残差平方和越小,模型拟合效果越好.
(3)利用 刻画拟合效果
= .
越大,模型的拟合效果越好, 越小,模型的拟合效果越差.
5.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数 ,应充分利用回归直线过样本点的中心 .
(2)根据经验回归方程计算的 值,仅是一个预报值,不是真实发生的值.
(3)根据 的值可以判断两个分类变量有关的可信程度,若 越大,则两分类变量有关的把握越大.
【题型 4 残差的计算】
【例 4】(24-25 高二下·全国·课后作业)已知由样本数据( , )( = 1,2,3, ,8)组成的一个样本,得到经验
回归方程为 = 2 + 0.75,且 = 1.125,增加两个样本点( 2,5)和(1,3)后,得到新样本的经验回归方程为
= 3 + .在新的经验回归方程下,样本(3,8.7)的残差为( )
A.1.1 B.0.5 C. 0.5 D. 1.1
【解题思路】计算增加样本点后的新的样本中心点,代入经验回归方程可求得 ;根据经验回归方程可求得
,由残差定义可得结果.
8 9 2+1
【解答过程】 ∵ = 1.125 × 8 = 9, ∴ 增加两个样本点后 的平均数为 = 0.8;
=1 10
8
∵ = 2 × 1.125 + 0.75 = 3, ∴ = 3 × 8 = 24, ∴
24+5+3
增加两个样本点后 的平均数为 = 3.2,
=1 10
∴ 3.2 = 3 × 0.8 + ,解得: = 0.8, ∴ 新的经验回归方程为: = 3 + 0.8,
则当 = 3时, = 9.8, ∴ 样本(3,8.7)的残差为8.7 9.8 = 1.1.
故选:D.
【变式 4-1】(23-24 高二下·河南濮阳·期末)某城市选用一种植物进行绿化,设其中一株幼苗从观察之日起,
第 天的高度为 cm,测得一些数据如下表所示
第 天 1 2 3 4 5 6 7
高度 1
1 4 6 9 12 13
cm 1
由表格数据可得到 关于 的经验回归方程为 = 2.04 + ,则第 6 天的残差为( )
A. 0.08 B.2.12 C. 2.12 D.0.08
【解题思路】根据样本中心得回归直线方程,由残差的计算即可求解.
= 1+2+3+4+5+6+7 = 4, = 1+4+6+9+11+12+13【解答过程】 7 7 = 8
根据线性经验回归方程过样本中心(4,8),故有8 = 2.04 × 4 + ,则有 = 0.16,
此时 = 2.04 0.16,当 = 6时, = 2.04 × 6 0.16 = 12.08,残差 = 12 12.08 = 0.08,
故选:A.
【变式 4-2】(2024 高二下·全国·专题练习)已知变量 , 的部分数据如下表,由表中数据得 , 之间的经验
回归方程为 = 0.8 + ,现有一测量数据为(35, ),若该数据的残差为 1.2,则 = ( )
21 23 25 27
15 18 19 20
A.25.6 B.28 C.29.2 D.24.4
【解题思路】求出 、 ,将其代入 = 0.8 + ,可得 ,则得经验回归方程,再将 = 35代入,求出 ,由
残差为 1.2, 即可得到 .
21+23+25+27
【解答过程】由题意可知, = 4 = 24, =
15+18+19+20
4 = 18,
将(24,18)代入 = 0.8 + ,即18 = 0.8 × 24 + ,解得 = 1.2,
所以 = 0.8 1.2,
当 = 35时, = 0.8 × 35 1.2 = 26.8,
则 26.8 = 1.2,所以 = 28.
故选:B.
【变式 4-3】(2024 高三·全国·专题练习)某种产品的广告支出费用 (单位:万元)与销售额 (单位:万
元)之间有如下关系:
2 4 5 6 8
30 40 70 50 60
^
已知 与 的线性回归方程为 = 5 + 25,则当广告支出费用为 6 万元时,残差为(  )
A.-10 B.-5 C.5 D.10
【解题思路】求得 = 6的预测值,由残差的定义可求残差.
【解答过程】当 = 6时, = 5 × 6 + 25 = 55,此时残差为50 55 = 5.
故选:B.
【题型 5 刻画回归效果的方式】
【例 5】(23-24 高二下·山西太原·期中)以下说法错误的是( )
A.用样本相关系数 来刻画成对样本数据的相关程度时,若| |越大,则成对样本数据的线性相关程度
越强
B.经验回归方程 = + 一定经过点 ,
C.用残差平方和来刻画模型的拟合效果时,若残差平方和越小,则相应模型的拟合效果越好
D.用决定系数 2来刻画模型的拟合效果时,若 2越小,则相应模型的拟合效果越好
【解题思路】根据回归分析的相关性质依次讨论各选项即可得答案.
【解答过程】对于 A,用样本相关系数 来刻画成对样本数据的相关程度时,若| |越大,
则成对样本数据的线性相关程度越强,故 A 正确;
对于 B,经验回归方程 = + 一定经过点 , ,故 B 正确;
对于 C,用残差平方和来刻画模型的拟合效果时,若残差平方和越小,
则相应模型的拟合效果越好,故 C 正确;
对于 D,用决定系数 2来刻画模型的拟合效果时,若 2越大,则相应模型的拟合效果越好,故 D 错误.
故选:D.
【变式 5-1】(2024·浙江·一模)为研究光照时长 (小时)和种子发芽数量 (颗)之间的关系,某课题研
究小组采集了 9 组数据,绘制散点图如图所示,并对 , 进行线性回归分析.若在此图中加上点 后,再次
对 , 进行线性回归分析,则下列说法正确的是( )
A. , 不具有线性相关性 B.决定系数 2变大
C.相关系数 变小 D.残差平方和变小
【解题思路】从图中分析得到加入 点后,回归效果会变差,再由决定系数,相关系数,残差平方和及相关
性的概念和性质作出判断即可.
【解答过程】对于 A,加入 点后,变量 与预报变量 相关性变弱,
但不能说 , 不具有线性相关性,所以 A 不正确
对于 B,决定系数越接近于 1,拟合效果越好,所以加上点 后,决定系数 2变小,故 B 不正确;
对于 C,从图中可以看出 点较其他点,偏离直线远,所以加上点 后,回归效果变差.
所以相关系数 的绝对值越趋于 0,故 C 正确;
对于 D,残差平方和变大,拟合效果越差,所以加上点 后,残差平方和变大,故 D 不正确;
故选:C.
【变式 5-2】(23-24 高二下·浙江·期中)下列说法正确的是( )
A.线性回归分析中决定系数 2用来刻画回归的效果,若 2值越小,则模型的拟合效果越好
B.两个随机变量的线性相关性越强,则相关系数 r 的值越接近于 1
C.正态分布 ( , 2)的图象越瘦高, 越大
D.残差平方和越小的模型,拟合的效果越好
【解题思路】 2值越大,模型的拟合效果越好可判断 A;两个随机变量的线性相关性越强, 则相关系数
的绝对值越接近于 1,可判断 B,正态分布 ( , 2)的图象越瘦高, 越小可判断 C;残差平方和越小的模型,
拟合的效果越好,判断 D;
【解答过程】对于 A: 2值越大,模型的拟合效果越好,故 A 错误;
对于 B, 两个随机变量的线性相关性越强, 则相关系数 的绝对值越接近于 1 ,故 B 错误.
对于 C,正态分布 ( , 2)的图象越瘦高, 越小,故 C 错误;
对于 D,残差平方和越小的模型,拟合的效果越好,故 D 正确.
故选:D.
【变式 5-3】(24-25 高三上·天津西青·阶段练习)如图所示,5 个( , )数据,去掉 (3,10) 后,下列说法
正确的是( )
A.相关系数 变小 B.决定系数 2变小
C.残差平方和变小 D.解释变量 与预报变量 的相关性变弱
【解题思路】由散点图知,去掉离群点 后, 与 的相关性变强,且为正相关,由此判断即可.
【解答过程】由散点图知,去掉离群点 后, 与 的相关性变强,且为正相关,
所以相关系数 的值变大,决定系数 2的值变大,残差平方和变小.
故选:C.
【题型 6 求回归直线方程】
【例 6】(24-25 高二下·辽宁抚顺·开学考试)观测两相关变量得如下数据:则两变量间的回归直线方程为
( )
X 1 2 3 4 5
Y 9 7 5 3 1
A. = 12 1 B. = 2 11
C. = 2 + 13 D. = 2 + 4
【解题思路】利用回归直线方程过样本中心点即可求解.
1 2 3 4 5
【解答过程】由表中数据可得 = 5 = 3, =
9 7 5 3 1
5 = 5,
所以样本中心点为( 3, 5),代入选项中检验 B 正确.
故选:B.
【变式 6-1】(24-25 高二下·全国·课后作业)为预测某种产品的回收率 ,需要研究它和原料有效成分含量
8 8
之间的相关关系,若已知 与 之间存在线性相关关系,现取了 8 组观察值,计算知 = 52,
=1 =1
8 8
= 228, 2 = 478, = 1849,则 关于 的经验回归方程是( )
=1 =1
A. = 11.47 + 2.62 B. = 11.47 + 2.62
C. = 2.62 + 11.47 D. = 11.47 2.62
【解题思路】根据公式可求得结果.
8 8
= = 52 = 6.5 = = 228【解答过程】由题可得 =1 8 , =1 = 28.5,8 8 8


= =1 = 1849 8×6.5×28.5由 478 8×6.52 ≈ 2.62, 2 2
=1
= = 28.5 2.62 × 6.5 ≈ 11.47,
所以所求经验回归方程为 = 2.62 + 11.47.
故选:A.
【变式 6-2】(23-24 高三上·湖南邵阳·阶段练习)某品牌手机商城统计了开业以来前 5 个月的手机销量情况
如下表所示:
时间 x 1 2 3 4 5
销售量 y(千只) 0.5 0.7 1.0 1.2 1.6
若 y 与 x 线性相关,且线性回归方程为 = 0.27 + ,则下列说法不正确的是( )
A.由题中数据可知,变量 y 与 x 正相关
B.线性回归方程 = 0.27 + 中, = 0.21
C. = 5时,残差为 0.06
D.可以预测 = 6时,该商场手机销量约为 1.81 千只
【解题思路】利用回归直线方程的概念一一判断求解.
【解答过程】对 A,由图表可知,变量 y 与 x 正相关,
且0.27 > 0,即变量 y 与 x 正相关,A 正确;
B = 1+2+3+4+5 = 3, = 0.5+0.7+1.0+1.2+1.6对 ,由图表数据可得, 5 5 = 1,
因为样本中心(3,1)满足回归直线,所以1 = 0.27 × 3 + ,解得 = 0.19,B 错误;
对 C, = 5时,残差为1.6 (0.27 × 5 + 0.19) = 0.06,C 正确;
对 D, = 6时,该商场手机销量约为 = 0.27 × 6 + 0.19 = 1.81千只,D 正确;
故选:B.
【变式 6-3】(24-25 高二下·江西·阶段练习)一组样本数据( 1, 1),( 2, 2), ,( , )在一条直线附近波动,
1 1
拟合的回归直线记为 ,满足: = = 1, = = 1.令 = , = ( = 1,2, , ),得 =1 =1

到新样本数据( 1, 1),( 2, 2), ,( 2 , ),且 = 4, = 2,则直线 的方程为( )
=1 =1

( ) ( )
附: = =1 = =1 , = ..
( )2 2 2
=1 =1
A. = 2 1 B. = 2
C. = D. = + 1
【解题思路】利用最小二乘法公式求解线性回归方程.

( ) ( ) 4
【解答过程】由 = =1 = =1 = 2 = 2, = = 1 2 × 1 = 1,( )2 2
=1 =1
则直线 的方程为 = 2 1.
故选:A.
【题型 7 线性回归分析】
【例 7】(23-24 高二下·四川德阳·期末)高温可以使病毒中的蛋白质失去活性,从而达到杀死病毒的效果,
某科研团队打算构建病毒的成活率与温度的某种数学模型,通过实验得到部分数据如下表:
温度 x(℃) 6 8 10
病毒数量 y(万个) 30 22 20
由上表中的数据求得回归方程为 = + ,可以预测当温度为 14℃时,病毒数量为( )

( ) ( )
参考公式: = =1 , = +
( )2
=1
A.12 B.10 C.9 D.11
【解题思路】设回归方程 = + ,利用表中数据,根据最小二乘原理求得系数,即得方程,再用方程代
入温度预测病毒数量即可.
^ ^ ^
【解答过程】y 关于 x 的线性回归方程为 = + ,直线过样本中心点 ,
= 6+8+10 = 8 = 30+22+20由表格数据得 3 , 3 = 24,
4
= 6 × 30 + 8 × 22 + 10 × 20 = 556,
=1
4
2 = 62 2 2 + 8 + 10 = 200,
=1

556 3×8×24
故根据最小二乘原理知 = =1 =
2 2 200 3×82
= 2.5,

=1
所以 = = 24 + 2.5 × 8 = 44,
^
即线性回归方程为 = 2.5 + 44;
^
将 = 14代入方程,得 = 9,
即可预测病毒数量为9.
故选:C.
【变式 7-1】(23-24 高二下·广东广州·期末)为了预测某地的经济增长情况,某经济学专家根据该地 2023
年 1~6 月的 GDP 的数据 (单位:百亿元)建立了线性回归模型,得到的经验回归方程为 = 0.4 + ,其
中自变量 指的是1 6月的编号,其中部分数据如表所示:
时间 1 月 2 月 3 月 4 月 5 月 6 月
编号 1 2 3 4 5 6
百亿元 1 2 3 11.1 5 6
6 6
参考数据: 2 = 796, ( 2 ) = 70.则下列说法不正确的是( )
=1 =1
A.经验回归直线经过点(3.5,11)
B. = 9.6
C.根据该模型,该地 2023 年 12 月的 GDP 的预测值为 14.4 百亿元
D.相应于点( 4, 4)的残差为 0.1
【解题思路】求得数据的样本中心点,即可判断 A;结合回归直线方程求出 可判断 B;将 = 12代入回归
直线方程求得预测值,可判断 C;根据残差的定义计算可判断 D.
1
【解答过程】选项 A:由题意得: = 6 × (1 + 2 + 3 + 4 + 5 + 6) = 3.5,
6 6 6
因为 2 = 796
2
, = 2 6 2 = 70,所以796 6 2 = 70,得 = 11,
=1 =1 =1
因此该经验回归直线经过样本点的中心(3.5,11),故 A 正确;
选项 B:由 A 知,11 = 0.4 × 3.5 + ,得 = 9.6,故 B 正确;
选项 C:由 B 得 = 0.4 + 9.6,则当 = 12时, = 4.8 + 9.6 = 14.4,
故该地 2023 年 12 月的 GDP 的预测值为14.4百亿元,故 C 正确;
选项 D:当 = 4时, = 1.6 + 9.6 = 11.2,
相应于点( 4, 4)的残差为11.1 11.2 = 0.1,故 D 错误,
故选:D.
【变式 7-2】(24-25 高二下·全国·课后作业)随着经济的发展某地居民收入逐年增长,下表是该地某银行连
续五年的储蓄存款(年底余额):
年份 2013 2014 2015 2016 2017
储蓄存款 (千亿元) 5 6 7 8 10
为了研究计算的方便,工作人员将上表的数据进行了处理, = 2012, = 5得到下表:
时间代号 1 2 3 4 5
0 1 2 3 5
(1)求 关于 的经验回归方程;
(2)通过(1)中的方程,求出 关于 的经验回归方程;
(3)用所求经验回归方程预测到 2021 年年底,该银行储蓄存款可达多少?


附:对于经验回归方程 = + ,其中 = =1 , = .
2 2
=1
【解题思路】(1)利用最小二乘法求出 z 关于 t 的线性回归方程;
(2)通过 = 2012, = 5代入,把 z 关于 t 的线性回归方程化成 y 关于 x 的回归方程;
(3)利用回归方程代入求值.
【解答过程】(1)设 关于 的线性回归方程为 = + ,
= 1 1经计算得: 5(1 + 2 + 3 + 4 + 5) = 3, = 5(0 + 1 + 2 + 3 + 5) = 2.2,
5
= 1 × 0 + 2 × 1 + 3 × 2 + 4 × 3 + 5 × 5 = 45,
=1
5
2 = 12 + 22 + 32 + 42 + 52 = 55,
=1
∴ = 45 5×3×2.255 5×32 = 1.2, = = 2.2 1.2 × 3 = 1.4,
∴ = 1.2 1.4;
(2)将 = 2012, = 5代入 = 1.2 1.4得: 5 = 1.2 × ( 2012) 1.4,
即 = 1.2 2410.8;
(3) ∵ = 2021时, = 1.2 × 2021 2410.8 = 14.4(千亿元),
∴ 预测到2021年年底,该银行储蓄存款额可达14.4千亿元.
【变式 7-3】(24-25 高三上·湖北·阶段练习)某市为创建全国文明城市,自 2019 年 1 月 1 日起,在机动车
斑马线礼让行人方面,通过公开违规行车的照片及车牌号,效果显著.下表是该市人民广场某路口连续 5
年监控设备抓拍到该路口机动车不礼让行人的统计数据:记方案执行时间为执行后第 年,不礼让行人车数
为 (单位:百辆).
/年 1 2 3 4 5
/百辆 5.8 5.2 4.5 3.7 2.8
(1)求不礼让行人车数 与执行时间 之间的经验回归方程;
(2)预测该路口 2025 年不礼让行人车数.


参考公式:经验回归方程 = + 中斜率和截距的最小二乘法估计公式分别为 = =1 2 , =
=1

【解题思路】(1)根据线性回归方程的求法计算得解;
(2)根据所求回归方程代入数据预测即可.
5 5 5 5
【解答过程】(1)由题意得 = 2 =1 = 3, = =1 = 4.4, = 55, = 58.5
5 5 =1 =1
由最小二乘法估计可得
5 5
5
= =1 = =1 = 58.5 665
2
5
2 5 2 55 45
= 0.75

=1 =1
= = 4.4 + 0.75 × 3 = 6.65,
∴ 不礼让行人车数与执行时间的经验回归方程为 = 0.75 + 6.65;
(2)在 2025 年年底时,该方案已执行 7 年,
令 = 7得到 = 6.65 0.75 × 7 = 1.4,
2025 年该路口不礼让行人车数的预测值是 140 辆.
【题型 8 非线性回归分析】
【例 8】(2024·福建宁德·三模)2024 海峓两岸各民族欢度“三月三”暨福籽同心爱中华 福建省第十一届“三
月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙
两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午 10 点开始第一次向指挥中心反馈入口人流
量,以后每过一个小时反馈一次.指挥中心统计了前 5 次的数据( , ),其中 = 1,2,3,4,5, 为第 次入口人流量
数据(单位:百人),由此得到 关于 的回归方程 = log2( + 1) + 5.已知 = 9,根据回归方程(参考数
据:log23 ≈ 1.6,log25 ≈ 2.3),可顶测下午 4 点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
【解题思路】首先利用换元法将回归方程转化为线性回归方程,再代入样本点中心,求 ,再根据方程进行
预测.
【解答过程】设 = log2( + 1), = 1,2,3,4,5,则 = + 5
= log22+log23+log24+log25+log26 = 4+2log23+log25 ≈ 4+2×1.6+2.3所以 5 5 5 = 1.9,且 = 9,
^
则9 = × 1.9 + 5 4,得 = 1.9,
^
= 4所以 1.9log2( + 1) + 5,
^ 4
下午 4 点对应的 = 7,此时预测游客的人流量 = 1.9 × log28 + 5 ≈ 11.3.
故选:C.
【变式 8-1】(2025 高三·全国·专题练习)中国茶文化博大精深,茶水的口感与茶叶类型和水的温度有关为
了建立茶水温度 随时间 变化的函数模型,小明每隔1分钟测量一次茶水温度,得到若干组数据( 1, 1)、
( 2, 2)、 、( , ),绘制了如图所示的散点图.小明选择了如下2个函数模型来拟合茶水温度 随时间 的
变化情况,函数模型一: = + ( < 0, ≥ 0);函数模型二: = + ( > 0,0 < < 1, ≥ 0),下列说
法不正确的是( )
A.变量 与 具有负的相关关系
B.由于水温开始降得快,后面降得慢,最后趋于平缓,故模型二能更好的拟合茶水温度随时间的变化
情况
C.若选择函数模型二,利用最小二乘法求得到 = + 的图象一定经过点 ,
D.当 = 5时,通过函数模型二计算得 = 65.1,用温度计测得实际茶水温度为65.2,则残差为0.1
【解题思路】根据题中所给散点图,根据正负相关的概念即可判断 A 选项;根据水温的变化情况,以及指
数函数的单调性,即可判断 B 选项;根据最小二乘法可求出的回归方程一定经过 , ,即可判断 C 选项;
根据残差的定义可判断 D 选项.
【解答过程】对于 A 选项,观察散点图,变量 与 具有负的相关关系,A 对;
对于 B 选项,由于函数模型二中的函数 = + ( > 0,0 < < 1, ≥ 0),
在 ≥ 0时,函数单调递减,且递减速度越来越慢,
所以,模型二能更好的拟合茶水温度随时间的变化情况,B 对;
对于 C 选项,若选择函数模型二,利用最小二乘法求出的回归方程一定经过 , ,C 错;
对于 D 选项,根据残差的定义可知,残差 = 真实值 预测值,故残差为65.2 65.1 = 0.1,D 对.
故选:C.
【变式 8-2】(23-24 高二下·湖北·期末)某乡村企业希望通过技术革新增加产品收益,根据市场调研,技术
革新投入经费 (单位:万元)和增加收益 (单位:万元)的数据如下表:
4 6 8 10 12
27 42 55 56 60
为了进一步了解技术革新投入经费 对增加收益 的影响,通过对表中数据进行分析,分别提出了两个回归
模型:① = + ,② = + .
(1)根据以上数据,计算模型①中 与 的相关系数 (结果精确到 0.01);
(2)若0.95 ≤ | | ≤ 1,则选择模型①;否则选择模型②.根据(1)的结果,试建立增加收益 关于技术革新
投入经费 的回归模型,并预测 = 16时 的值(结果精确到 0.01).

( )( )
附:i)回归直线 = + 的斜率、截距的最小二乘估计以及相关系数分别为: = =1 =
( )2
=1


( )( ) =1
=1
, = , =
2 ( )2 (
=1
)2
=1 =1
5
ii)参考数据:设 = , 2936 ≈ 54.18, 29360 ≈ 171.35, ≈ 2.78, ( )2 ≈ 1.33,
=1
5
( )( ) ≈ 29.91.
=1
5 2 5 5
【解题思路】(1)根据所给数据求出 , , 2 , ( ) , ( ),即可求
=1 =1 =1
出相关系数;
(2)根据(1)的结论,可判断选择模型②,令 = ,求出 关于 的线性回归方程,即可求出 关于 的
经验方程,再代入计算可得.
【解答过程】(1)因为 = 15(4 + 6 + 8 + 10 + 12) = 8,
= 15(27 + 42 + 55 + 56 + 60) = 48,
5 2
所以 = (4 8)2 + (6 8)2 + (8 8)2 + (10 8)2 + (12 8)2 = 40,
=1
5
( )2 = (27 48)2 + (42 48)2 + (55 48)2 + (56 48)2 + (60 48)2 = 734,
=1
5
( ) = (4 8) × (27 48) + (6 8) × (42 48) + (8 8) × (55 48)
=1
+ (10 8) × (56 48) + (12 8) × (60 48) = 160,
5
( )
=1 160
模型① 160中,相关系数 = 5 5 = ≈ 171.35 ≈ 0.93,

2 ( )2 29360
=1 =1
(2)因为 = 0.93 < 0.95,所以选择模型②,
令 = ,先建立 关于 的线性回归方程,
5
( ) ( )
= =1 = 29.91由于 5 ≈ 22.49,
( )2 1.33
=1
= = 48 22.49 × 2.78 ≈ 14.52,
所以 关于 的线性回归方程为 = 14.52 + 22.49 ,
即 = 14.52 + 22.49 ,
当 = 16时, = 14.52 + 22.49 16 = 75.44(万元),
所以若投入经费16万元,收益约为75.44万元.
【变式 8-3】(24-25 高二下·吉林长春·阶段练习)《中共中央国务院关于全面推进乡村振兴加快农业农村现
代化的意见》,这是 21 世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振
兴,要大力推进数字乡村建设,推进智慧农业发展.某乡村合作社借助互联网直播平台进行农产品销售,众
多网红主播参与到直播当中,在众多网红直播中,统计了10名网红直播的观看人次 和农产品销售量
( = 1,2,3, ,10)的数据,得到如图所示的散点图.
(1)利用散点图判断, = + 和 = + ln 哪一个更适合作为观看人次 和销售量 的回归方程类型;(只
要给出判断即可,不必说明理由)
(2)对数据作出如下处理:得到相关统计量的值如表:
10 10 10 10
2( )2
=1 =1 =1 =1
9.4 30.3 2 366 6.6 439.2 66
1 10
其中令 = ln , = 10 . =1
根据(1)的判断结果及表中数据,求 (单位:千件)关于 (单位:十万次)的回归方程,并预测当观看
人次为280万人时的销售量;
参考数据和公式:ln2 ≈ 0.69,ln7 ≈ 1.95
附:对于一组数据( 1, 1)、( 2, 2)、 、( , ),其回归线 = + 的斜率和截距的最小二乘估计分别为:


= =1 2 , = .
=1
【解题思路】(1)根据散点图中散点的分布情况可选择合适的回归模型;
(2)令 = ln ,则 = + ,将表格中的数据代入最小二乘法公式,可求得 、 的值,进而可得出 关
于 的回归方程,将 = 28代入回归方程可得出销售量.
【解答过程】(1)解:由散点图可知,散点分布在一条对数型曲线附近,所以选择回归方程 = + ln 更
适合.
(2)解:令 = ln ,则 = + ,
10 10 2
因为 = 66, = 6.6,
=1 =1
10

所以 = =1 6610 = 6.6 = 10, 2
=1
又因为 = 30.3, = 2,所以 = = 30.3 10 × 2 = 10.3,
所以 与 的线性回归方程为 = 10.3 + 10 ,
故 关于 的回归方程为 = 10.3 + 10ln .
令 = 28,代入回归方程可得 = 10.3 + 10ln28 = 10.3 + 10 × (2ln2 + ln7) ≈ 43.6(千件)
所以预测观看人次为280万人时的销售量约为43600件.
【题型 9 线性回归与其他知识综合】
【例 9】(23-24 高二下·河北·阶段练习)由于人们健康意识的提升,运动爱好者人群不断扩大,运动相关
行业得到快速发展.某运动品牌专卖店从 2019 年至 2023 年的年销售额如下表:
年份 2019 2020 2021 2022 2023
年份编号 1 2 3 4 5
年销售额 /万元 30 35 45 60 80
(1)请根据表中的数据用最小二乘法求 与 的经验回归方程 = + ,并预测 2024 年该店的年销售额.
(2)该专卖店为了回馈广大消费者,推出了消费抽奖返现活动,规则如下:凡一次性消费满 500 元可抽奖 1
次,满 1000 元可抽奖 2 次.其中一次抽奖返现金额及概率如下表:
返现金额 50 100
2 1
概率
3 3
3 1
已知一位消费者一次性消费满 500 元的概率为4,满 1000 元的概率为4,求这位消费者抽奖返现金额 的分
布列与期望.

( ) ( )
附:经验回归方程 = + 中, = =1 = =1 , = .
( )2 2 2
=1 =1
【解题思路】(1)分别求出 , ,再根据经验回归方程计算,并代入 = 6,即可求解;
(2)分别求出概率,并列出分布列,即可求解.
【解答过程】解:(1 1+2+3+4+5 30+35+45+60+80)因为 = 5 = 3, = 5 = 50,
5 5
= 1 × 30 + 2 × 35 + 3 × 45 + 4 × 60 + 5 × 80 = 875, 2 = 1 + 4 + 9 + 16 + 25 = 55,
=1 =1
5
5
= =1 = 875 5×3×50所以 5
2 5 2 55 5×9
= 12.5,,

=1
= = 50 12.5 × 3 = 12.5,
所以 与 的经验回归方程为 = 12.5 + 12.5.
当 = 6时, = 12.5 × 6 + 12.5 = 87.5,所以预测 2024 年该店的年销售额为 87.5 万元.
(2) 可以取50,100,150,200.
= 3 2 1 3 1 1
2 13
( = 50) 4 × 3 = 2, ( = 100) = 4 × 3 + 4 ×
2 =
3 36,
1 2 1 1 1 1 2 1
( = 150) = × C14 2 × 3 × 3 = 9 , ( = 200) = 4 × 3 = 36 ,
所以 的分布列为
50 100 150 200
1 13 1 1
2 36 9 36
1 13所以 ( ) = 50 × 2 +100 × 36 +150 ×
1
9 +200 ×
1 250
36 = 3 .
【变式 9-1】(2025 高三·全国·专题练习)试题调研原创基础学科招生改革试点也称“强基计划”,主要是为
了选拔培养有志于服务国家重大战略需求且综合素质优秀或基础学科拔尖的学生.报考强基计划的考生需
参加由试点高校自主命题的考试.
(1)为了更好地服务于高三学生,某研究机构对随机抽取的 5 名高三学生的记忆力指标 x 和判断力指标 y 进
行统计分析,得到下表数据:
x 6 8 9 10 12
y 2 3 4 5 6
请用样本相关系数说明该组数据中 y 与 x 之间的关系可用线性回归模型进行拟合,并求 y 关于 x 的经验回归
方程 = + (精确到 0.01).
(2)现有甲、乙两所试点高校的强基计划笔试环节都设有三门考试科目且每门科目是否通过相互独立,若某
2
考生报考甲高校,每门笔试科目通过的概率均为5,该考生报考乙高校,每门笔试科目通过的概率依次为 m,
1 2
4,3,其中0 < < 1.根据规定每名考生只能报考强基计划的一所试点高校,以笔试过程中通过科目数的
期望为依据,当 m 的取值范围为多少时,该考生更应报考乙高校?

( ) ( )
=1 =1
附:x 和 y 的样本相关系数 = = ,若| | > 0.95,则可认为
( )2 ( )2 2 2 2 2
=1 =1 =1 =1
y 与 x 线性相关较强.经验回归方程 = + 中 和 的最小二乘估计

( ) ( )
分别为 = =1 =1 = , = . 2 ≈ 1.414.
( )2 2 2
=1 =1
5 5 5
【解题思路】(1)根据表格,找出 = 9, = 4, = 194, 2 = 425, 2 = 90,代入
=1 =1 =1
公式求得样本相关系数 ≈ 0.99 > 0.95,即可判断;再求出 = 0.7,所以 = 4 9 × 0.7 = 2.3,即可求解.
2 2( )由题,甲校通过的笔试科目 ~ 3, ,将乙校通过的科目期望用待求参数表示,并大于甲校通过笔试
5
科目的期望,解不等式即可.
1 = 6+8+9+10+12 = 9 = 2+3+4+5+6
5
【解答过程】( )根据表格中的数据,可得 5 , 5 = 4, = 12 + 24 + =1
36 + 50 + 72 = 194,
5 5
2 = 36 + 64 + 81 + 100 + 144 = 425, 2 = 4 + 9 + 16 + 25 + 36 = 90,
=1 =1
194 5×9×4 14
所以样本相关系数 = (425 5×81)×(90 5×16) = ≈ 0.99 > 0.9510 2 ,
故 y 与 x 之间的关系可用线性回归模型进行拟合.
5
5
= =1 = 194 5×9×45
2 5 2 425 5×81
= 0.7,所以 = 4 9 × 0.7 = 2.3.

=1
故所求经验回归方程为 = 0.7 2.3.
2 2 2 6( )该考生通过甲高校的考试科目数为 X,则 ~ 3, , ( ) = 3 × 5 = 5.5
设该考生通过乙高校的考试科目数为 Y,则 Y 的所有可能取值为 0,1,2,3,
( = 0) =
1
(1 ) 1 1 × 1 2 =
4 3 4
(1 ),
1 2 7 1( = 1) = 1 1 × 1 2 + (1 ) × 24 × 1 + (1 ) 1
1 ×
4 3 3 4 3
= 12 3 ,
( = 2) = ×
1 × 2 + × 1 × 2 + × 1 × 2 1 54 1 1 3 (1 ) = +3 4 4 3 6 12 ,
( = 3) = ×
1
4 ×
2
3 =
1
6 ,
7 1 1 11所以 ( ) = 112 3 + 2 +
5 +3 × 6 = 12 + .6 12
当 11 6( ) > ( )时,该考生更应报考乙高校,所以12 + > 5,
0 < < 1 17又 ,得60 < < 1,
17
故所求 m 的取值范围为 ,1 .
60
【变式 9-2】(24-25 高三下·重庆·阶段练习)自 2016 年 1 月 1 日起,我国全面二孩政策正式实施,这次人
口与生育政策的历史性调整,使得“要不要再生一个”,“生二孩能休多久产假”等问题成为千千万万个家庭在
生育决策上避不开的话题.为了解针对产假的不同安排方案形成的生育意愿,某调查机构随机抽取了 200 户
有生育二胎能力的适龄家庭进行问卷调查,得到如下数据:
产假安排 (单位:周) 14 15 16 17 18
有生育意愿家庭数 (单位:
4 8 16 20 26
户)
(1)请用相关系数说明该组数据中变量 与 之间的关系可以用线性回归模型拟合,并求 关于 的线性回归方
程;
(2)用(1)中所求的经验回归方程来拟合这组成对数据,当样本数据的残差的绝对值大于 1 时,称该对数据
为一个“次数据”,现从这 5 个成对数据中任取 3 个做残差分析,求取到的数据中“次数据”个数 的分布列和
数学期望.


=1
附:①样本相关系数 = ,当| | ∈2 2 [0.75,1]时,相关性较强,当| | ∈ [0.3,0.75)时,
=1 =1
相关性一般;


②经验回归方程 = + 中斜率和截距的最小二乘估计公式分别为 = =1
2
, = ;

=1
5 5
③ = 1240, 2 = 1412, 22 ≈ 4.7.
=1 =1
【解题思路】(1)由已知求出 , ,再公式求出 ≈ 0.993,即可说明相关性很强,因此变量 与 之间的关
系可以用线性回归模型拟合;利用公式求出 、 ,即可得到 关于 的线性回归方程;
(2)由回归方程求出预测值 ,可得残差的绝对值,判断是否为“次数据”,可得“次数据”和非“次数据”个数,
“次数据”个数为 ,求出对应概率,即可列出分布列求出数学期望.
1
【解答过程】(1)由已知, = 5(14 + 15 + 16 + 17 + 18) = 16,
= 15(4 + 8 + 16 + 20 + 26) = 14.8,
5 2
= (14 16)2 + (15 16)2 + (16 16)2 + (17 16)2 + (18 16)2 = 10,
=1
5 5
5
=1 =1
则 = 5 2 5 = 5 2 2
5
2
5 2
=1 =1 =1 =1
1240 5×16×14.8
= ≈ 0.993
2 ,10× 1412 5×14.8
因为| | ≈ 0.993,说明相关性很强,因此变量 与 之间的关系可以用线性回归模型拟合.
5 5
5
因为 = =15 = =1 =
1240 5×16×14.8
5 10 = 5.6, 2 2
=1 =1
= = 14.8 5.6 × 16 = 74.8,
所以 关于 的线性回归方程为 = 5.6 74.8.
(2)由(1)回归方程为 = 5.6 74.8,样本数据的残差的绝对值大于 1 时,称该对数据为一个“次数据”,
则由题意,列出下表:
产假安排 (单位:周) 14 15 16 17 18
有生育意愿家庭数 (单位:
4 8 16 20 26
户)
预测值 3.6 9.2 14.8 20.4 26
残差的绝对值 0.4 1.2 1.2 0.4 0
是否为“次数据” 否 是 是 否 否
则“次数据”共有 2 个,非“次数据”共有 3 个,
从这 5 个数据中任取 3 个,“次数据”个数为 ,
C3 1 C2 1 1 23C2 3 C3C2 3
则 ( = 0) = 3C3 = 10, ( = 1) = C3 = 5, ( = 2) =5 5 C3 = ,5 10
分布列为:
X 0 1 2
P 1 3 3
10 5 10
数学期望为 ( ) = 0 ×
1 3 3 6
10 +1 × 5 +2 × 10 = 5.
【变式 9-3】(2024·陕西宝鸡·模拟预测)统计显示,我国在线直播生活购物用户规模近几年保持高速增长
态势,下表为2020年—2024年我国在线直播生活购物用户规模(单位:亿人),其中2020年—2024年对应
的代码依次为1—5.
年份代码 1 2 3 4 5
市场规模 3.98 4.56 5.04 5.86 6.36
5
≈ 5.16, ≈ 1.68, ≈ 45.10,其中 =
=1
参考公式:对于一组数据( 1, 1)、( 2, 2)、 、( , ),其经验回归直线 = + 的斜率和截距的最小二


乘估计公式分别为 = =1 , ≈ 1.83.
2 2
=1
(1)由上表数据可知,若用函数模型 = + 拟合 与 的关系,请估计2028年我国在线直播生活购物用户
的规模(结果精确到0.01);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率 ,现从我国在线直播购物用户中随机
抽取5人,记这5人中选择在品牌官方直播间购物的人数为 ,若 ( = 5) = ( = 4),求 的数学期望和方
差.
【解题思路】(1)将题中数据代入最小二乘法公式,求出 的值,即可得出 与 的拟合函数关系式,再将 = 9
代入函数关系式,即可得出结论;
(2)由题意可知, (5, ),由 ( = 5) = ( = 4)结合独立重复试验的概率公式可求得 的值,然后利
用二项分布的期望和方差公式可求得结果.
【解答过程】(1)设 = ,则 = + ,
5 5
因为 ≈ 5.16, ≈ 1.68, 2 = = 15,
=1 =1
5
5
所以, = =1 45.10 5×1.68×5.165 ≈ 15 5×1.682 ≈ 1.98, 2 5 2
=1
所以, 与 的拟合函数关系式为 = 1.98 +1.83
当 = 9时, = 1.98 × 3 + 1.83 = 7.77,
则估计2028年我国在线直播生活购物用户的规模为7.77亿人.
(2)由题意知 (5, ),所以, ( = 4) = C4 4 45 (1 ) = 5 (1 ),
( = 5) = C5 55 ,
由 ( = 5) = ( = 4),可得5 4(1 ) = 5,
因为0 < < 1 5,解得 = 6,
5 25 5 25所以, ( ) = 5 × 6 = 6 , ( ) = 5 × 6 1
5 = 36.6专题 8.2 一元线性回归模型及其应用【九大题型】
【人教 A 版(2019)】
【题型 1 解释回归直线方程的意义】 ....................................................................................................................1
【题型 2 由散点图画求近似回归直线】 ................................................................................................................2
【题型 3 根据回归方程进行数据估计】 ................................................................................................................4
【题型 4 残差的计算】 ............................................................................................................................................6
【题型 5 刻画回归效果的方式】 ............................................................................................................................7
【题型 6 求回归直线方程】 ....................................................................................................................................8
【题型 7 线性回归分析】 ........................................................................................................................................9
【题型 8 非线性回归分析】 ..................................................................................................................................10
【题型 9 线性回归与其他知识综合】 ..................................................................................................................13
【知识点 1 一元线性回归模型】
1.一元线性回归模型
把式子 为 Y 关于 x 的一元线性回归模型.其中,Y 称为因变量或响应变量,x 称
为自变量或解释变量;a 和 b 为模型的未知参数,a 称为截距参数,b 称为斜率参数;e 是 Y 与 bx+a 之间的
随机误差.
2.随机误差
在线性回归模型 Y=bx+a+e 中,a 和 b 为模型的未知参数,e 是 Y 与 bx+a 之间的误差,通常 e 为随机变
量,称为随机误差.它的均值 E(e)=0,方程 D(e)=σ2>0.
线性回归模型的完整表达式为 ,在此模型中,随机误差 e 的方差 σ2越小,用 bx+a
预报真实值 y 的精度越高.
【题型 1 解释回归直线方程的意义】
【例 1】(24-25 高二下·全国·课后作业)关于线性回归的描述,有下列命题:
①回归直线一定经过样本点的中心;
②相关系数 r 越大,线性相关程度越强;
③决定系数 2越接近 1 拟合效果越好;
④随机误差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
【变式 1-1】(23-24 高二下·山东青岛·期中)下列有关一元线性回归分析的命题正确的是( )
A.若两个变量的线性相关程度越强,则样本相关系数 就越接近于 1
B.经验回归直线是经过散点图中样本数据点最多的那条直线
C.在经验回归方程 = 2 0.5 中,若解释变量 增加 1 个单位,则预测值 平均减少 0.5 个单位
D.若甲、乙两个模型的决定系数 2分别为 0.87 和 0.78,则模型乙的拟合效果更好
【变式 1-2】(23-24 高二下·海南·期末)以下关于一元线性回归模型的说法中,错误的是( )
A.相关系数 的绝对值越接近 0,则两个变量的线性相关程度越弱
B.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好
C.点( , )一定在经验回归直线 = + 上
D.若经验回归方程为 = 3 + 10,则 每增加 1 个单位, 的值就增加 10 个单位
【变式 1-3】(23-24 高二下·河南南阳·开学考试)在线性回归方程 = + 中, 为回归系数,下列关于
的说法中不正确的是( )
A. 为回归直线的斜率
B. > 0,表示随 增加, 值增加, < 0,表示随 增加, 值减少
C. 是唯一确定的值
D.回归系数 的统计意义是当 每增加(或减少)一个单位, 平均改变 个单位
【题型 2 由散点图画求近似回归直线】
【例 2】(24-25 高二下·全国·课后作业)若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理
的是( )

A. = B. = e C. = + ln D. = e
【变式 2-1】(23-24 高二下·河南信阳·期末)如图是两个变量的散点图,y 关于 x 的回归方程可能是( )
A. = 3ln| | +2 B. = 3 1 C. = 2 3 +2 D
1
. = 10 + 2
【变式 2-2】(23-24 高二下·福建福州·期末)某个国家某种病毒传播的中期感染人数 y 和天数 x 的散点图如
图所示,下列最适宜作为感染人数 y 和天数 x 的经验回归方程类型的是( )
A. = + B. = + e
C. = + ln D. = +
【变式 2-3】(24-25 高二·全国·课后作业)如图是某地区 2012 年至 2021 年的空气污染天数 Y(单位:天)
与年份 X 的折线图.根据 2012 年至 2016 年的数据,2017 年至 2021 年的数据,2012 年至 2021 年的数据分
^ ^
别建立线性回归模型 = 1 + 1, = 2 + 2, = 3 + 3,则( )
A. 1 < 2< 3, 1 < 2 < 3 B. 1 < 3 < 2, 1 < 3 < 2
C. 2 < 3 < 1, 1 < 3 < 2 D. 2 < 3 < 1, 3 < 2 < 1
【题型 3 根据回归方程进行数据估计】
【例 3】(24-25 高二下·全国·课后作业)已知由一组样本数据确定的经验回归方程为 = 1.5 + 1,且
= 2,发现有两组数据(2.6,2.8)与(1.4,5.2)误差较大,去掉这两组数据后,重新求得经验回归直线的斜率为
1.4,那么当 = 6时, 的值为( )
A.9.6 B.10 C.10.6 D.9.4
【变式 3-1】(23-24 高二下·辽宁朝阳·期末)已知一组数据( , )( = 1,2, ,20)满足线性回归关系,且经验
1 20 20
回归方程为 = 10 + 30,若20 = 3,则 = ( ) =1 =1
A.30 B.60 C.630 D.1200
【变式 3-2】(24-25 高二下·江西·阶段练习)某市卫健委为了研究本市初中男生的脚长 x(单位:cm)和身
高 y(单位:cm)的关系,从该市随机抽取 100 名初中男生,根据测量数据的散点图可以看出 y 与 x 之间有
100 100
线性相关关系.设其经验回归方程为 = 4 + , = 2250, = 16000,若该市某位初中男生
=1 =1
的脚长为 25cm,据此估计其身高为( )
A.166cm B.168cm C.170cm D.172cm
【变式 3-3】(23-24 高二下·河南南阳·阶段练习)相关变量的样本数据如下表,
x 1 2 3 4 5 6 7
y 2.9 3.3 3.6 4.4 4.8 a 5.9
经回归分析可得 y 与 x 线性相关,并由最小二乘法求得回归直线方程为 = 0.5 + 2.3,下列说法正确的是
( )
A.x 增加 1 时,y 一定增加 2.3 B.变量 x 与 y 负相关
C.当 y 为 6.3 时,x 一定是 8 D.a=5.2
【知识点 2 一元线性回归模型参数的最小二乘估计】
1.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的 n 对样本数据为 ,由
(i=1,2, ,n),得 ,显然 越小,表示样本数据点离直线 y=bx+a
的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和 Q= 来刻画各样本观测数据与直线
y=bx+a 的“整体接近程度”.
当 a,b 的取值为 时,Q 达到最小.将 称为 Y 关于 x 的经验回
归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最
小二乘法,求得的 叫做 b,a 的最小二乘估计.
经验回归直线一定过点 .
2.求经验回归方程的一般步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
(2)列表求出 的值;
(3)利用公式先计算 ,再根据经验回归直线过样本点的中心 计算 ;
(4)写出经验回归方程 .
求经验回归方程,关键在于正确求出系数 ,由于计算量较大,所以计算时要仔细谨慎、分层进行,
避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
3.残差分析
对于响应变量 Y,通过观测得到的数据称为观测值,通过经验回归方程得到的 称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判
断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称
为残差图.在残差图中,残差点比较均匀地落在以取值为 0 的横轴为对称轴的水平带状区域内,说明选用的
模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为 ,残差平方和越小,模型拟合效果越好.
(3)利用 刻画拟合效果
= .
越大,模型的拟合效果越好, 越小,模型的拟合效果越差.
5.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数 ,应充分利用回归直线过样本点的中心 .
(2)根据经验回归方程计算的 值,仅是一个预报值,不是真实发生的值.
(3)根据 的值可以判断两个分类变量有关的可信程度,若 越大,则两分类变量有关的把握越大.
【题型 4 残差的计算】
【例 4】(24-25 高二下·全国·课后作业)已知由样本数据( , )( = 1,2,3, ,8)组成的一个样本,得到经验
回归方程为 = 2 + 0.75,且 = 1.125,增加两个样本点( 2,5)和(1,3)后,得到新样本的经验回归方程为
= 3 + .在新的经验回归方程下,样本(3,8.7)的残差为( )
A.1.1 B.0.5 C. 0.5 D. 1.1
【变式 4-1】(23-24 高二下·河南濮阳·期末)某城市选用一种植物进行绿化,设其中一株幼苗从观察之日起,
第 天的高度为 cm,测得一些数据如下表所示
第 天 1 2 3 4 5 6 7
高度 1
1 4 6 9 12 13
cm 1
由表格数据可得到 关于 的经验回归方程为 = 2.04 + ,则第 6 天的残差为( )
A. 0.08 B.2.12 C. 2.12 D.0.08
【变式 4-2】(2024 高二下·全国·专题练习)已知变量 , 的部分数据如下表,由表中数据得 , 之间的经验
回归方程为 = 0.8 + ,现有一测量数据为(35, ),若该数据的残差为 1.2,则 = ( )
21 23 25 27
15 18 19 20
A.25.6 B.28 C.29.2 D.24.4
【变式 4-3】(2024 高三·全国·专题练习)某种产品的广告支出费用 (单位:万元)与销售额 (单位:万
元)之间有如下关系:
2 4 5 6 8
30 40 70 50 60
^
已知 与 的线性回归方程为 = 5 + 25,则当广告支出费用为 6 万元时,残差为(  )
A.-10 B.-5 C.5 D.10
【题型 5 刻画回归效果的方式】
【例 5】(23-24 高二下·山西太原·期中)以下说法错误的是( )
A.用样本相关系数 来刻画成对样本数据的相关程度时,若| |越大,则成对样本数据的线性相关程度
越强
B.经验回归方程 = + 一定经过点 ,
C.用残差平方和来刻画模型的拟合效果时,若残差平方和越小,则相应模型的拟合效果越好
D.用决定系数 2来刻画模型的拟合效果时,若 2越小,则相应模型的拟合效果越好
【变式 5-1】(2024·浙江·一模)为研究光照时长 (小时)和种子发芽数量 (颗)之间的关系,某课题研
究小组采集了 9 组数据,绘制散点图如图所示,并对 , 进行线性回归分析.若在此图中加上点 后,再次
对 , 进行线性回归分析,则下列说法正确的是( )
A. , 不具有线性相关性 B.决定系数 2变大
C.相关系数 变小 D.残差平方和变小
【变式 5-2】(23-24 高二下·浙江·期中)下列说法正确的是( )
A.线性回归分析中决定系数 2用来刻画回归的效果,若 2值越小,则模型的拟合效果越好
B.两个随机变量的线性相关性越强,则相关系数 r 的值越接近于 1
C.正态分布 ( , 2)的图象越瘦高, 越大
D.残差平方和越小的模型,拟合的效果越好
【变式 5-3】(24-25 高三上·天津西青·阶段练习)如图所示,5 个( , )数据,去掉 (3,10) 后,下列说法
正确的是( )
A.相关系数 变小 B.决定系数 2变小
C.残差平方和变小 D.解释变量 与预报变量 的相关性变弱
【题型 6 求回归直线方程】
【例 6】(24-25 高二下·辽宁抚顺·开学考试)观测两相关变量得如下数据:则两变量间的回归直线方程为
( )
X 1 2 3 4 5
Y 9 7 5 3 1
A. = 12 1 B. = 2 11
C. = 2 + 13 D. = 2 + 4
【变式 6-1】(24-25 高二下·全国·课后作业)为预测某种产品的回收率 ,需要研究它和原料有效成分含量
8 8
之间的相关关系,若已知 与 之间存在线性相关关系,现取了 8 组观察值,计算知 = 52,
=1 =1
8 8
= 228, 2 = 478, = 1849,则 关于 的经验回归方程是( )
=1 =1
A. = 11.47 + 2.62 B. = 11.47 + 2.62
C. = 2.62 + 11.47 D. = 11.47 2.62
【变式 6-2】(23-24 高三上·湖南邵阳·阶段练习)某品牌手机商城统计了开业以来前 5 个月的手机销量情况
如下表所示:
时间 x 1 2 3 4 5
销售量 y(千只) 0.5 0.7 1.0 1.2 1.6
若 y 与 x 线性相关,且线性回归方程为 = 0.27 + ,则下列说法不正确的是( )
A.由题中数据可知,变量 y 与 x 正相关
B.线性回归方程 = 0.27 + 中, = 0.21
C. = 5时,残差为 0.06
D.可以预测 = 6时,该商场手机销量约为 1.81 千只
【变式 6-3】(24-25 高二下·江西·阶段练习)一组样本数据( 1, 1),( 2, 2), ,( , )在一条直线附近波动,
1 1
拟合的回归直线记为 ,满足: = = 1, = = 1.令 = , = ( = 1,2, , ),得 =1 =1

到新样本数据( 1, 1),( 2, 2), ,( , ),且 = 4, 2 = 2,则直线 的方程为( )
=1 =1

( ) ( )
附: = =1 = =1 , = ..
( 2 )2 2
=1 =1
A. = 2 1 B. = 2
C. = D. = + 1
【题型 7 线性回归分析】
【例 7】(23-24 高二下·四川德阳·期末)高温可以使病毒中的蛋白质失去活性,从而达到杀死病毒的效果,
某科研团队打算构建病毒的成活率与温度的某种数学模型,通过实验得到部分数据如下表:
温度 x(℃) 6 8 10
病毒数量 y(万个) 30 22 20
由上表中的数据求得回归方程为 = + ,可以预测当温度为 14℃时,病毒数量为( )

( ) ( )
参考公式: = =1 , = +
( )2
=1
A.12 B.10 C.9 D.11
【变式 7-1】(23-24 高二下·广东广州·期末)为了预测某地的经济增长情况,某经济学专家根据该地 2023
年 1~6 月的 GDP 的数据 (单位:百亿元)建立了线性回归模型,得到的经验回归方程为 = 0.4 + ,其
中自变量 指的是1 6月的编号,其中部分数据如表所示:
时间 1 月 2 月 3 月 4 月 5 月 6 月
编号 1 2 3 4 5 6
百亿元 1 2 3 11.1 5 6
6 6
参考数据: 2 = 796, ( 2 ) = 70.则下列说法不正确的是( )
=1 =1
A.经验回归直线经过点(3.5,11)
B. = 9.6
C.根据该模型,该地 2023 年 12 月的 GDP 的预测值为 14.4 百亿元
D.相应于点( 4, 4)的残差为 0.1
【变式 7-2】(24-25 高二下·全国·课后作业)随着经济的发展某地居民收入逐年增长,下表是该地某银行连
续五年的储蓄存款(年底余额):
年份 2013 2014 2015 2016 2017
储蓄存款 (千亿元) 5 6 7 8 10
为了研究计算的方便,工作人员将上表的数据进行了处理, = 2012, = 5得到下表:
时间代号 1 2 3 4 5
0 1 2 3 5
(1)求 关于 的经验回归方程;
(2)通过(1)中的方程,求出 关于 的经验回归方程;
(3)用所求经验回归方程预测到 2021 年年底,该银行储蓄存款可达多少?


附:对于经验回归方程 = + ,其中 = =1 , = .
2 2
=1
【变式 7-3】(24-25 高三上·湖北·阶段练习)某市为创建全国文明城市,自 2019 年 1 月 1 日起,在机动车
斑马线礼让行人方面,通过公开违规行车的照片及车牌号,效果显著.下表是该市人民广场某路口连续 5
年监控设备抓拍到该路口机动车不礼让行人的统计数据:记方案执行时间为执行后第 年,不礼让行人车数
为 (单位:百辆).
/年 1 2 3 4 5
/百辆 5.8 5.2 4.5 3.7 2.8
(1)求不礼让行人车数 与执行时间 之间的经验回归方程;
(2)预测该路口 2025 年不礼让行人车数.


参考公式:经验回归方程 = + 中斜率和截距的最小二乘法估计公式分别为 = =1 2 , =
=1

【题型 8 非线性回归分析】
【例 8】(2024·福建宁德·三模)2024 海峓两岸各民族欢度“三月三”暨福籽同心爱中华 福建省第十一届“三
月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙
两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午 10 点开始第一次向指挥中心反馈入口人流
量,以后每过一个小时反馈一次.指挥中心统计了前 5 次的数据( , ),其中 = 1,2,3,4,5, 为第 次入口人流量
数据(单位:百人),由此得到 关于 的回归方程 = log2( + 1) + 5.已知 = 9,根据回归方程(参考数
据:log23 ≈ 1.6,log25 ≈ 2.3),可顶测下午 4 点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
【变式 8-1】(2025 高三·全国·专题练习)中国茶文化博大精深,茶水的口感与茶叶类型和水的温度有关为
了建立茶水温度 随时间 变化的函数模型,小明每隔1分钟测量一次茶水温度,得到若干组数据( 1, 1)、
( 2, 2)、 、( , ),绘制了如图所示的散点图.小明选择了如下2个函数模型来拟合茶水温度 随时间 的
变化情况,函数模型一: = + ( < 0, ≥ 0);函数模型二: = + ( > 0,0 < < 1, ≥ 0),下列说
法不正确的是( )
A.变量 与 具有负的相关关系
B.由于水温开始降得快,后面降得慢,最后趋于平缓,故模型二能更好的拟合茶水温度随时间的变化
情况
C.若选择函数模型二,利用最小二乘法求得到 = + 的图象一定经过点 ,
D.当 = 5时,通过函数模型二计算得 = 65.1,用温度计测得实际茶水温度为65.2,则残差为0.1
【变式 8-2】(23-24 高二下·湖北·期末)某乡村企业希望通过技术革新增加产品收益,根据市场调研,技术
革新投入经费 (单位:万元)和增加收益 (单位:万元)的数据如下表:
4 6 8 10 12
27 42 55 56 60
为了进一步了解技术革新投入经费 对增加收益 的影响,通过对表中数据进行分析,分别提出了两个回归
模型:① = + ,② = + .
(1)根据以上数据,计算模型①中 与 的相关系数 (结果精确到 0.01);
(2)若0.95 ≤ | | ≤ 1,则选择模型①;否则选择模型②.根据(1)的结果,试建立增加收益 关于技术革新
投入经费 的回归模型,并预测 = 16时 的值(结果精确到 0.01).

( )( )
附:i)回归直线 = + 的斜率、截距的最小二乘估计以及相关系数分别为: = =1 =
( )2
=1


( )( ) =1
=1
, = , =
2 ( )2 ( )2 =1 =1 =1
5
ii)参考数据:设 = , 2936 ≈ 54.18, 29360 ≈ 171.35, ≈ 2.78, ( )2 ≈ 1.33,
=1
5
( )( ) ≈ 29.91.
=1
【变式 8-3】(24-25 高二下·吉林长春·阶段练习)《中共中央国务院关于全面推进乡村振兴加快农业农村现
代化的意见》,这是 21 世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振
兴,要大力推进数字乡村建设,推进智慧农业发展.某乡村合作社借助互联网直播平台进行农产品销售,众
多网红主播参与到直播当中,在众多网红直播中,统计了10名网红直播的观看人次 和农产品销售量
( = 1,2,3, ,10)的数据,得到如图所示的散点图.
(1)利用散点图判断, = + 和 = + ln 哪一个更适合作为观看人次 和销售量 的回归方程类型;(只
要给出判断即可,不必说明理由)
(2)对数据作出如下处理:得到相关统计量的值如表:
10 10 10 10
( 2
2
)
=1 =1 =1 =1
9.4 30.3 2 366 6.6 439.2 66
10
其中令 = ln
1
, = 10 . =1
根据(1)的判断结果及表中数据,求 (单位:千件)关于 (单位:十万次)的回归方程,并预测当观看
人次为280万人时的销售量;
参考数据和公式:ln2 ≈ 0.69,ln7 ≈ 1.95
附:对于一组数据( 1, 1)、( 2, 2)、 、( , ),其回归线 = + 的斜率和截距的最小二乘估计分别为:


= =1 2 , = .
=1
【题型 9 线性回归与其他知识综合】
【例 9】(23-24 高二下·河北·阶段练习)由于人们健康意识的提升,运动爱好者人群不断扩大,运动相关
行业得到快速发展.某运动品牌专卖店从 2019 年至 2023 年的年销售额如下表:
年份 2019 2020 2021 2022 2023
年份编号 1 2 3 4 5
年销售额 /万元 30 35 45 60 80
(1)请根据表中的数据用最小二乘法求 与 的经验回归方程 = + ,并预测 2024 年该店的年销售额.
(2)该专卖店为了回馈广大消费者,推出了消费抽奖返现活动,规则如下:凡一次性消费满 500 元可抽奖 1
次,满 1000 元可抽奖 2 次.其中一次抽奖返现金额及概率如下表:
返现金额 50 100
2 1
概率
3 3
3 1
已知一位消费者一次性消费满 500 元的概率为4,满 1000 元的概率为4,求这位消费者抽奖返现金额 的分
布列与期望.

( ) ( )
附:经验回归方程 = + 中, = =1 = =1 , = .
( )2 2 2
=1 =1
【变式 9-1】(2025 高三·全国·专题练习)试题调研原创基础学科招生改革试点也称“强基计划”,主要是为
了选拔培养有志于服务国家重大战略需求且综合素质优秀或基础学科拔尖的学生.报考强基计划的考生需
参加由试点高校自主命题的考试.
(1)为了更好地服务于高三学生,某研究机构对随机抽取的 5 名高三学生的记忆力指标 x 和判断力指标 y 进
行统计分析,得到下表数据:
x 6 8 9 10 12
y 2 3 4 5 6
请用样本相关系数说明该组数据中 y 与 x 之间的关系可用线性回归模型进行拟合,并求 y 关于 x 的经验回归
方程 = + (精确到 0.01).
(2)现有甲、乙两所试点高校的强基计划笔试环节都设有三门考试科目且每门科目是否通过相互独立,若某
2
考生报考甲高校,每门笔试科目通过的概率均为5,该考生报考乙高校,每门笔试科目通过的概率依次为 m,
1 2
4,3,其中0 < < 1.根据规定每名考生只能报考强基计划的一所试点高校,以笔试过程中通过科目数的
期望为依据,当 m 的取值范围为多少时,该考生更应报考乙高校?

( ) ( )
=1 =1
附:x 和 y 的样本相关系数 = = ,若| | > 0.95,则可认为
( )2 ( )2 2 2 2 2
=1 =1 =1 =1
y 与 x 线性相关较强.经验回归方程 = + 中 和 的最小二乘估计

( ) ( )
分别为 = =1 =1 = , = . 2 ≈ 1.414.
( )2 2 2
=1 =1
【变式 9-2】(24-25 高三下·重庆·阶段练习)自 2016 年 1 月 1 日起,我国全面二孩政策正式实施,这次人
口与生育政策的历史性调整,使得“要不要再生一个”,“生二孩能休多久产假”等问题成为千千万万个家庭在
生育决策上避不开的话题.为了解针对产假的不同安排方案形成的生育意愿,某调查机构随机抽取了 200 户
有生育二胎能力的适龄家庭进行问卷调查,得到如下数据:
产假安排 (单位:周) 14 15 16 17 18
有生育意愿家庭数 (单位:
4 8 16 20 26
户)
(1)请用相关系数说明该组数据中变量 与 之间的关系可以用线性回归模型拟合,并求 关于 的线性回归方
程;
(2)用(1)中所求的经验回归方程来拟合这组成对数据,当样本数据的残差的绝对值大于 1 时,称该对数据
为一个“次数据”,现从这 5 个成对数据中任取 3 个做残差分析,求取到的数据中“次数据”个数 的分布列和
数学期望.


=1
附:①样本相关系数 = 2 2,当| | ∈ [0.75,1]时,相关性较强,当| | ∈ [0.3,0.75)时,
=1 =1
相关性一般;


②经验回归方程 = + 中斜率和截距的最小二乘估计公式分别为 = =1
2
, = ;

=1
5 5
③ 2 = 1240, = 1412, 22 ≈ 4.7.
=1 =1
【变式 9-3】(2024·陕西宝鸡·模拟预测)统计显示,我国在线直播生活购物用户规模近几年保持高速增长
态势,下表为2020年—2024年我国在线直播生活购物用户规模(单位:亿人),其中2020年—2024年对应
的代码依次为1—5.
年份代码 1 2 3 4 5
市场规模 3.98 4.56 5.04 5.86 6.36
5
≈ 5.16, ≈ 1.68, ≈ 45.10,其中 =
=1
参考公式:对于一组数据( 1, 1)、( 2, 2)、 、( , ),其经验回归直线 = + 的斜率和截距的最小二


乘估计公式分别为 = =1 , ≈ 1.83.
2 2
=1
(1)由上表数据可知,若用函数模型 = + 拟合 与 的关系,请估计2028年我国在线直播生活购物用户
的规模(结果精确到0.01);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率 ,现从我国在线直播购物用户中随机
抽取5人,记这5人中选择在品牌官方直播间购物的人数为 ,若 ( = 5) = ( = 4),求 的数学期望和方
差.

展开更多......

收起↑

资源列表