第8章第2节 一元线性回归模型及其应用 2025-2026学年高中数学选择性必修三同步复习讲义(人教A版2019)

资源下载
  1. 二一教育资源

第8章第2节 一元线性回归模型及其应用 2025-2026学年高中数学选择性必修三同步复习讲义(人教A版2019)

资源简介

第8章第2节 一元线性回归模型及其应用
题型1 经验回归方程与经验回归直线 题型2 回归分析
题型3 残差及残差图 题型4 非线性回归模型
题型5 决定系数与模型的拟合效果
▉题型1 经验回归方程与经验回归直线
【知识点的认识】
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛.分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围.因此,可以认为关于的回归函数的类型为线性函数.
【解题方法点拨】
例:对于线性回归方程,则
解:,因为回归直线必过样本中心(),
所以.
故答案为:58.5.
方法就是根据线性回归直线必过样本中心(),求出,代入即可求.这里面可以看出线性规划这类题解题方法比较套路化,需要熟记公式.
1.已知两个随机变量(X,Y)的4组成对数据为(4,2),(6,m),(8,5),(10,6).由这4组数据可得Y关于X的线性回归方程为,则m=(  )
A.2.8 B.3 C.3.3 D.4
【答案】B
【解答】解:由题意可知,,,
因为线性回归方程过样本中心点(,),
所以,
解得m=3.
故选:B.
2.下列说法正确的是(  )
A.样本数据点的中心不一定在线性回归直线上
B.残差平方和越小的模型,拟合的效果越好
C.回归直线就是散点图中经过样本数据点最多的那条直线
D.如果两个变量的相关性越强,则相关系数r就越接近于1
【答案】B
【解答】解:因为样本数据点的中心一定在线性回归直线上,所以A选项错误;
因为残差平方和越小的模型,拟合的效果越好,所以B选项正确;
因为线性回归直线在散点图中可能不经过任一样本数据点,所以C选项错误;
因为如果两个变量的相关性越强,则相关系数r的绝对值就越接近于1,所以D选项错误.
故选:B.
3.对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去预测值称为残差.将某公司新产品自上市起的月份x与该月的对应销量y(单位:万件)整理成如表格:
月份x 1 2 3 4 5
销量y 0.5 s 1 t 1.4
建立y与x的线性回归方程为0.21x+0.37,则第2个月和第4个月的残差和为(  )
A.﹣0.919 B.﹣0.1 C.0.1 D.0.919
【答案】C
【解答】解:由题意可得,,
将其代入回归方程,得1,故s+t=2.1,将2,4代入线性回归方程,
则第2,4个月的预测值分别为,,
故第2个月和第4个月的残差和为s﹣0.79+t﹣1.21=0.1.
故选:C.
4.下列结论中,错误的是(  )
A.数据4,1,6,2,9,5,8的第60百分位数为6
B.若随机变量ξ~N(1,σ2),P(ξ≤﹣2)=0.21,则P(ξ≤4)=0.79
C.已知经验回归方程为,且,则
D.根据分类变量X与Y成对样本数据,计算得到χ2=9.632,依据小概率值α=0.001的χ2独立性检验(x0.001=10.828),可判断X与Y有关联,此推断犯错误的概率不大于0.001
【答案】D
【解答】解:A选项,数据4,1,6,2,9,5,8排序后得到1,2,4,5,6,8,9,
7×60%=4.2,故选取第5个数据作为第60百分位数,即为6,A正确;
B选项,因为ξ~N(1,σ2),根据对称性可知P(ξ≥4)=P(ξ≤﹣2)=0.21,
故P(ξ≤4)=1﹣0.21=0.79,B正确;
C选项,已知经验回归方程为,且,则21.8=20,9.1,C正确;
D选项,χ2=9.632<10.828,故不能得到此结论,D错误.
故选:D.
5.具有相关关系的变量x、y满足的线性回归直线方程为y=bx+a,x、y的数据如下:
x ﹣1 1 3 5
y 0 0.8 1.2 2
求的最小值(  )
A.4 B.6 C.8 D.9
【答案】C
【解答】解:由数据得到,,
∴a+2b=1.
∴.
当且仅当,即a,b时上式“=”成立.
故选:C.
6.已知由样本数据(xi,yi)(i=1,2,3,…,10)组成一个样本,可得到回归直线方程为,且3,4.7,则样本点(4,7)的残差为(  )
A.0.3 B.﹣0.3 C.1.3 D.﹣1.3
【答案】A
【解答】解:由回归直线方程为,且3,4.7,可得24.7﹣2×3=﹣1.3,
∴2x﹣1.3,∴当x=4时,6.7,
故残差为7﹣6.7=0.3.
故选:A.
7.下列说法中正确的是(  )
A.回归直线恒过样本中心点,且至少过一个样本点
B.用决定系数R2刻画回归效果时,R2越接近1,说明模型的拟合效果越差
C.若随机变量X~B(4,),则D(2X+1)=6
D.基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α
【答案】D
【解答】解:回归直线恒过样本中心点,但不一定过样本点,故A错误;
用决定系数R2刻画回归效果时,R2越接近1,说明模型的拟合效果越好,故B错误;
若随机变量X~B(4,),则D(X)=4(1),D(2X+1)=4D(X)=4,故C错误;
根据独立性检验可知D正确.
故选:D.
8.已知变量x,γ呈线性相关关系,回归方程为x,且变量x,y的样本数据如下表所示
x ﹣2 ﹣1 0 1 2
y 5 4 m 2 1
据此计算出在x=3时,预测值为﹣0.2,则m的值为(  )
A.3 B.2.8 C.2 D.1
【答案】C
【解答】解:∵回归方程为x,且在x=3时,预测值为﹣0.2,
∴,即,
又,,
∴样本点的中心的坐标为(0,),代入线性回归方程,
可得,解得m=2.
故选:C.
9.第19届亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月吉祥物的销量,如下表所示:若y与x线性相关,且线性回归方程为,则下列说法正确的是:(  )
时间x 1 2 3 4 5
销售量y(万只) 5 4.5 4 3.5 2.5
A.由题中数据可知,变量y与x正相关
B.当x=5时,残差为0.2
C.线性回归方程
D.可以预测当x=6时销量约为2万只
【答案】C
【解答】解:根据题意可得y随x的增大而减小,变量y与x负相关,∴A选项错误;
根据题意可得,,又,
∴,
∴线性回归方程为,∴C选项正确;
∵,残差,∴B选项错误;
∵当x=6时销量约为(万只),∴D选项错误.
故选:C.
10.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中.已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为(30,m),若该数据的残差为0.6,则m=(  )
色差x 21 23 25 27
色度y 15 18 19 20
A.23.4 B.23.6 C.23.8 D.24.0
【答案】A
【解答】解:,,
则样本点的中心的坐标为(24,18),代入,
得,可得.
∴,当x=30时,,
可得m=22.8+0.6=23.4.
故选:A.
11.某学习小组对一组数据(xi,yi)(i=1,2,3,…,7)进行回归分析,甲同学首先求出回归直线方程,样本点的中心为(2,m).乙同学对甲的计算过程进行检查,发现甲将数据(4,6)误输成(6,4),将这两个数据修正后得到回归直线方程,则实数k=(  )
A. B. C. D.
【答案】D
【解答】解:由题意可得m=3×2+2=8,假设甲输入的(x1,y1)为(6,4),
则6+x2+x3+ +x7=2×7=14,则x2+x3+ +x7=8,
且4+y2+y3+ +y7=7×8=56,则y2+y3+ +y7=52,
则改为正确数据时,4+x2+x3+ +x7=12,
即,
因为6+y2+y3+ +y7=58,即,
所以样本中心点为,
将点代入回归直线方程,
解得.
故选:D.
12.已知变量x,y的部分数据如下表,由表中数据得x,y之间的经验回归方程为,现有一测量数据为(35,n),若该数据的残差为1.2,则n=(  )
x 21 23 25 27
y 15 18 19 20
A.25.6 B.28 C.29.2 D.24.4
【答案】B
【解答】解:由题意可知,,,
将(24,18)代入,得18=0.8×24,解得,
∴,
当x=35时,,
则n﹣26.8=1.2,n=28.
故选:B.
13.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为(30,23.6),则该数据的残差为(  )
色差x 21 23 25 27
色度y 15 18 19 20
A.﹣0.96 B.﹣0.8 C.0.8 D.0.96
【答案】C
【解答】解:由题意可知,,,
将(24,18)代入,即,解得,
所以,
当x=30时,,
所以该数据的残差为23.6﹣22.8=0.8.
故选:C.
14.下列说法正确的是(  )
A.若两个随机变量的线性相关性越强,则相关系数r的值越接近于1
B.根据分类变量X与Y的成对样本数据,计算得到χ2=4.712,依据α=0.05的独立性检验(x0.05=3.841),可判断X与Y无关
C.对具有线性相关关系的变量x,y,其线性回归方程为0.3x﹣m,若样本点的中心为(m,2.8),则实数m的值是﹣4
D.已知随机变量X服从二项分布,若E(3X+1)=6,则n=6
【答案】C
【解答】解:两个随机变量的线性相关性越强,则相关系数|r|的值越接近于1,故A错误;
根据分类变量X与Y的成对样本数据,计算得到χ2=4.712,依据α=0.05的独立性检验(x0.05=3.841),
可判断X与Y有关,故B错误;
线性回归方程为0.3x﹣m,
若样本点的中心为(m,2.8),
则0.3m﹣m=2.8,解得m=﹣4,故C正确;
随机变量X服从二项分布,若E(3X+1)=6,
则,解得n=5,故D错误.
故选:C.
▉题型2 回归分析
【知识点的认识】
1、回归直线:
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.记为:x.求回归直线方程的一般步骤:
①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系;
②求回归系数;
③写出回归直线方程,并利用回归直线方程进行预测说明.
2、回归分析:
对具有相关关系的两个变量进行统计分析的一种常用方法.
建立回归模型的基本步骤是:
①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).
③由经验确定回归方程的类型.
④按一定规则估计回归方程中的参数 (最小二乘法);
⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,模型是否合适等.
15.有一散点图如图所示,在六组数据(xi,yi)(i=1,2,…,6)中去掉B点后重新进行回归分析,则下列说法正确的是(  )
A.样本数据的两变量x,y正相关
B.相关系数r的绝对值更接近于0
C.残差平方和变大
D.变量x与变量y相关性变强
【答案】D
【解答】解:由图可知,样本数据的两变量x,y负相关,故A错误;
由图可知,点B相对其它点,偏离直线远,
故去掉B点后,回归直线效果更好,故BC错误,D正确.
故选:D.
16.下列有关线性回归分析的四个命题:
①线性回归直线必过样本数据的中心点(,);
②回归直线就是散点图中经过样本数据点最多的那条直线;
③当相关性系数r>0时,两个变量正相关;
④如果两个变量的相关性越强,则相关性系数r就越接近于1.
其中真命题的个数为(  )
A.1个 B.2个 C.3个 D.4个
【答案】B
【解答】解:①线性回归直线必过样本数据的中心点(,),故①正确;
②回归直线在散点图中可能不经过任一样本数据点,故②错误;
③当相关性系数r>0时,则两个变量正相关,故③正确;
④如果两个变量的相关性越强,则相关性系数r就越接近于1或﹣1,故④错误.
故真命题的个数为2个,
故选:B.
▉题型3 残差及残差图
【知识点的认识】
﹣残差:实际值与回归模型预测值的差异.
﹣残差图:用来检查回归模型的拟合效果,横轴通常为预测值,纵轴为残差.
【解题方法点拨】
﹣计算:通过回归方程预测值,并计算残差.
﹣绘图:绘制残差图,分析残差是否符合随机分布.
17.已知一系列样本点(xi,yi)(i=1,2,3,…)的一个经验回归方程为,若样本点(1,﹣1)的残差为2,则(  )
A.﹣1 B.1 C.﹣5 D.5
【答案】C
【解答】解:∵样本点(1,﹣1)的残差为2,
∴,
解得.
故选:C.
18.如果散点图中所有的散点都落在一条斜率不为0的直线上,则下列结论错误的是(  )
A.解释变量和响应变量线性相关
B.相关系数r=±1
C.决定系数R2=1
D.残差平方和等于1
【答案】D
【解答】解:若散点图中所有的散点都落在一条斜率不为0的直线上,则直线对应的函数为一次函数,
故解释变量和响应变量是一次函数关系,故A正确;
因为样本点都落在直线上,所以样本相关系数|r|=1,所以r=±1,所以B正确;
决定系数和残差平方和都能反映模型的拟合程度,故决定系数R2=1,残差平方和为0,故C正确,D错误.
故选:D.
19.已知变量x和y的统计数据如表,若由表中数据得到回归直线方程为,则x=4时的残差为(  )
x 4 4.5 5 5.5 6
y 7 6 4 2 1
A.0.2 B.﹣0.3 C.0.4 D.﹣0.2
【答案】D
【解答】解:因为,(7+6+4+2+1)=4,
则样本中心点为(5,4),
代入,可得a=4+5×3.2=20,
所以回归直线方程为y=﹣3.2x+20,
当x=4时,y=﹣3.2×4+20=7.2,
所以x=4时的残差为7﹣7.2=﹣0.2.
故选:D.
▉题型4 非线性回归模型
【知识点的认识】
﹣非线性回归:用于数据与回归模型之间的关系不是线性的情况,例如多项式回归、指数回归等.
【解题方法点拨】
﹣建模:选择合适的非线性模型,根据数据特点建立回归方程.
﹣拟合:使用非线性回归方法估计模型参数.
20.MCN即多频道网络,是一种新的网红经济运行模式,这种模式将不同类型和内容的PGC(专业生产内容)联合起来,在资本有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现,在中国以直播电商、短视频为代表的新兴网红经济的崛起,使MCN机构的服务需求持续增长.数据显示,近年来中国MCN市场规模迅速扩大.下表为2018年﹣2022年中国MCN市场规模(单位:百亿元),其中2018年﹣2022年对应的代码依次为1﹣5.
年份代码x 1 2 3 4 5
中国MCN市场规模y 1.12 1.68 2.45 3.35 4.32
(1)由上表数据可知,可用指数函数模型y=a bx拟合y与x的关系,
①建立y关于x的回归方程;
②预测2025年中国MCN市场规模(单位:百亿元):
(2)从2018年﹣2022年中国MCN市场规模中随机抽取3个数据,记这3个数据中与的差的绝对值小于1的个数为X,求X的分布列与期望.
参考数据:
2.58 0.84 46.83 15.99
其中.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线的斜率和截距的最小二乘估计公式分别为.
参考数据:e2.196=8.99,e2,535=12.61,e2.874=17.71
【答案】(1)①;②12.61;
(2)分布列见解析,.
【解答】解:(1)因为用指数函数模型y=a bx拟合y与x的关系,
所以lny=ln(a bx)=lna+xlnb,
设lny=v,所以v=lna+xlnb,则v=lna+xlnb,
因为,
所以,
又,,
所以将(3,0.84)代入,得lna=﹣0.177,
所以,则,
所以,
所以y关于x的回归方程为,
所以预测2025年中国MCN市场规模为e﹣0.177+0.339×8=e2.535=12.61(单位:百亿元);
(2)2018年﹣2022年中国MCN市场规模的5个数据中,与的差的绝对值小于1的数据有1.68,2.45,3.35,共3个,
所以X的可能取值为1,2,3,

所以X的分布列为:
X 1 2 3
P
所以.
21.生态学家高斯为研究有限资源下的种群增长问题,在实验室培养了草履虫,调查得到一组数据((ti,yi)(i=1,2, ,8),其中yi表示第ti天草履虫的数量),经研究该组数据可用Logistic模型拟合,函数模型为y.设初始数量为y0(y0∈N*)(个/m1),A1.经计算得到如下统计量的值:33.4,其中,
(1)求y关于t的经验回归方程,以及y0的估计值(r,A精确到小数点后1位);
(2)Logistic模型可用于研究生物学中一般种群的“S”型增长,某种群数量f(t)与时间t的关系为f(t)(A,K>0),证明:当种群数量达到K的一半时,该种群增长速度最快.
附:对于一组数据(x1,y1),(x2,y2), ,(xn,yn),其经验回归直线x的斜率和截距的最小二乘估计分别为40.4.
【答案】(1);5;(2)证明见解答.
【解答】解:(1)根据题意可得,
所以.
令,
所以z=﹣rt+b,
又4.5,,
所以,
所以,由,解得y0≈4.8,又,
所以y0的估计值为5;
(2)证明:因为,
所以
,当且仅当,
即Ae﹣r=1时取最大值,此时,
即当种群数量达到K值一半时,该种群增长速度最快.
22.某企业最近十年的年份编号x与利润y(单位,万元)的统计数据如表所示:
x 1 2 3 4 5 6 7 8 9 10
lnx …… 1.8 1.9 2.1 2.2 2.3
y 10 25 35 42 48 54 58 60 62 56
若y与x满足经验回归方程:,令u=lnx.
(1)根据提供的数据及最小二乘原理,求y关于x的经验回归方程;(系数精确到1)
(2)若企业利润的残差~N(μ,σ2),其中μ=0,σ=1.6.残差值在区间(μ﹣3σ,μ+3σ)外,就认为某年的利润统计数据有误.现对数据进行核查,发现后五年中某一年数据有误,其真实数据为66万元,求修正数据后的经验回归方程.(系数精确到1)
附:,,;.
【答案】(1)22lnx+12;
(2).
【解答】解:(1)y与x满足经验回归方程:,令u=lnx,
则u,
由题意可知,45,
所以22,
所以12,
所以y关于x的经验回归方程为22lnx+12;
(2)观察发现第十年的利润有“离群现象”,猜想第十年数据有误,运算知第十年的残差值e≈﹣6.6不在“3σ”内,
所以第十年的数据有误,其利润应为y10=66(万元),
此时790.8+(ln10)(66﹣56)≈813.8,46,
所以24,
所以,
所以修正数据后的经验回归方程为.
23.众所周知,乒乓球被称为中国的“国球”,是一种世界流行的球类体育项目,包括进攻、对抗和防守.某学校为了丰富学生的课后活动内容,增强学生体质,决定组织乒乓球活动社.以下是接下来7个星期(用x=1表示第1个星期,用x=2表示第二个星期,以此类推)参加活动的累计人数y(人)的统计数据.
x 1 2 3 4 5 6 7
y 6 14 20 37 74 108 203
(1)根据表中数据可以判断y与x大致满足回归模型,试建立y与x的回归方程(精确到0.01);
(2)为了更好地开展体育类型活动,学校继续调查全校同学的身高情况.采用按比例分层抽样抽取了男生30人,其身高的平均数和方差分别为171.5和13.0;抽取了女生20人,其身高的平均数和方差分别为161.5和27.0,试求全体学生身高的平均数和方差.
参考数据:,其中;
参考公式:对于一组数据(u1,v1),(u2,v2), ,(un,vn),其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)y=100.25x+0.57,
(2)平均数为167.5,方差为42.6.
【解答】解:(1)根据题意可知,y=cdx,两边取常用对数可得lgy=lg(cdx)=lgc+xlgd,
设z=lgy,a=lgc,b=lgd,则回归方程变为z=a+bx,
,n=7,,
根据参考公式,


则z=0.25x+0.57,
因为a=lgc,b=lgd,所以lgc≈0.57,则c≈100.57,lgd≈0.25,则d≈100.25,
所以y与x的回归方程为,
即y=100.25x+0.57;
(2)全体学生身高的平均数,
根据方差公式(其中n1,n2为各层人数,为各层方差,为各层平均数,为总平均数),
将n1=30,,,n2=20,,,代入可得:

则全体学生身高的平均数为167.5,方差为42.6.
▉题型5 决定系数与模型的拟合效果
【知识点的认识】
﹣决定系数R2:衡量回归模型对数据的解释能力,取值范围在0到1之间,越接近1表示模型拟合效果越好.
【解题方法点拨】
﹣计算:通过回归模型的预测值与实际值计算决定系数,评估模型的解释力.
24.某团队尝试用回归模型甲、乙、丙、丁描述人的1000米跑步成绩与肺活量的关系,已知模型甲、乙、丙、丁对应的决定系数R2分别为0.14,0.17,0.72,0.45,则拟合效果最好的模型是(  )
A.甲 B.乙 C.丙 D.丁
【答案】C
【解答】解:已知模型甲、乙、丙、丁对应的决定系数R2分别为0.14,0.17,0.72,0.45,
又R2越大,模型的拟合效果越好,因为0.72>0.45>0.17>0.14,
所以模型丙拟合效果最好.
故选:C.
25.下列说法正确的个数是(  )
①线性相关系数|r|越接近1,两个变量的线性相关程度越强;
②独立性检验可以100%确定两个变量之间是否具有某种关系;
③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
④甲、乙两个模型的决定系数R2分别约为0.88和0.80,则模型甲的拟合效果更好.
A.1 B.2 C.3 D.4
【答案】C
【解答】解:对于①,线性相关系数|r|越接近1,两个变量的线性相关程度越强,故①正确;
对于②,独立性检验并不能100%确定两个变量之间是否具有某种关系,存在犯错误的可能性,故②错误;
对于③,在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,故③正确;
对于④,决定系数R2的值越接近于1,相关系越强,所以模型甲的拟合效果更好,故④正确.
故选:C.
26.在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2016年至2023年的新增光伏装机量进行调查,根据散点图选择了两个模型进行拟合,并得到相应的经验回归方程.为判断模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1)甲同学通过计算残差作出了两个模型的残差图,如图所示;
(2)乙同学求出模型①的残差平方和为0.4175、模型②的残差平方和为1.5625;
(3)丙同学分别求出模型①的决定系数0.9520、模型②的决定系数为0.9781;
经检验,模型①拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是  丙  .(填“甲”或“乙”或“丙”)
【答案】丙.
【解答】解:甲的残差图中,模型①的残差点更均匀地分布在以横轴为对称轴的水平带状区域内,且水平带状区域更窄,
说明模型①拟合效果更好,
残差平方和越大,即决定系数越小,说明数据点越离散,
所以乙的计算结果显示模型①的拟合效果更好,
而丙的计算结果显示模型②的拟合效果更好.
故答案为:丙.
27.已知成对样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2)中x1,x2,…,xn不全相等,且所有样本点(xi,yi)(i=1,2,…,n)都在直线上,则这组成对样本数据的样本相关系数r= ﹣1  ,其决定系数R2= 1  .
【答案】﹣1;1.
【解答】解:因为所有样本点(xi,yi)(i=1,2,…,n)都在直线上,
所以这组样本数据完全负相关,
所以r=﹣1,R2=1.
故答案为:﹣1;1.第8章第2节 一元线性回归模型及其应用
题型1 经验回归方程与经验回归直线 题型2 回归分析
题型3 残差及残差图 题型4 非线性回归模型
题型5 决定系数与模型的拟合效果
▉题型1 经验回归方程与经验回归直线
【知识点的认识】
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛.分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围.因此,可以认为关于的回归函数的类型为线性函数.
【解题方法点拨】
例:对于线性回归方程,则
解:,因为回归直线必过样本中心(),
所以.
故答案为:58.5.
方法就是根据线性回归直线必过样本中心(),求出,代入即可求.这里面可以看出线性规划这类题解题方法比较套路化,需要熟记公式.
1.已知两个随机变量(X,Y)的4组成对数据为(4,2),(6,m),(8,5),(10,6).由这4组数据可得Y关于X的线性回归方程为,则m=(  )
A.2.8 B.3 C.3.3 D.4
2.下列说法正确的是(  )
A.样本数据点的中心不一定在线性回归直线上
B.残差平方和越小的模型,拟合的效果越好
C.回归直线就是散点图中经过样本数据点最多的那条直线
D.如果两个变量的相关性越强,则相关系数r就越接近于1
3.对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去预测值称为残差.将某公司新产品自上市起的月份x与该月的对应销量y(单位:万件)整理成如表格:
月份x 1 2 3 4 5
销量y 0.5 s 1 t 1.4
建立y与x的线性回归方程为0.21x+0.37,则第2个月和第4个月的残差和为(  )
A.﹣0.919 B.﹣0.1 C.0.1 D.0.919
4.下列结论中,错误的是(  )
A.数据4,1,6,2,9,5,8的第60百分位数为6
B.若随机变量ξ~N(1,σ2),P(ξ≤﹣2)=0.21,则P(ξ≤4)=0.79
C.已知经验回归方程为,且,则
D.根据分类变量X与Y成对样本数据,计算得到χ2=9.632,依据小概率值α=0.001的χ2独立性检验(x0.001=10.828),可判断X与Y有关联,此推断犯错误的概率不大于0.001
5.具有相关关系的变量x、y满足的线性回归直线方程为y=bx+a,x、y的数据如下:
x ﹣1 1 3 5
y 0 0.8 1.2 2
求的最小值(  )
A.4 B.6 C.8 D.9
6.已知由样本数据(xi,yi)(i=1,2,3,…,10)组成一个样本,可得到回归直线方程为,且3,4.7,则样本点(4,7)的残差为(  )
A.0.3 B.﹣0.3 C.1.3 D.﹣1.3
7.下列说法中正确的是(  )
A.回归直线恒过样本中心点,且至少过一个样本点
B.用决定系数R2刻画回归效果时,R2越接近1,说明模型的拟合效果越差
C.若随机变量X~B(4,),则D(2X+1)=6
D.基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α
8.已知变量x,γ呈线性相关关系,回归方程为x,且变量x,y的样本数据如下表所示
x ﹣2 ﹣1 0 1 2
y 5 4 m 2 1
据此计算出在x=3时,预测值为﹣0.2,则m的值为(  )
A.3 B.2.8 C.2 D.1
9.第19届亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月吉祥物的销量,如下表所示:若y与x线性相关,且线性回归方程为,则下列说法正确的是:(  )
时间x 1 2 3 4 5
销售量y(万只) 5 4.5 4 3.5 2.5
A.由题中数据可知,变量y与x正相关
B.当x=5时,残差为0.2
C.线性回归方程
D.可以预测当x=6时销量约为2万只
10.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中.已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为(30,m),若该数据的残差为0.6,则m=(  )
色差x 21 23 25 27
色度y 15 18 19 20
A.23.4 B.23.6 C.23.8 D.24.0
11.某学习小组对一组数据(xi,yi)(i=1,2,3,…,7)进行回归分析,甲同学首先求出回归直线方程,样本点的中心为(2,m).乙同学对甲的计算过程进行检查,发现甲将数据(4,6)误输成(6,4),将这两个数据修正后得到回归直线方程,则实数k=(  )
A. B. C. D.
12.已知变量x,y的部分数据如下表,由表中数据得x,y之间的经验回归方程为,现有一测量数据为(35,n),若该数据的残差为1.2,则n=(  )
x 21 23 25 27
y 15 18 19 20
A.25.6 B.28 C.29.2 D.24.4
13.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为(30,23.6),则该数据的残差为(  )
色差x 21 23 25 27
色度y 15 18 19 20
A.﹣0.96 B.﹣0.8 C.0.8 D.0.96
14.下列说法正确的是(  )
A.若两个随机变量的线性相关性越强,则相关系数r的值越接近于1
B.根据分类变量X与Y的成对样本数据,计算得到χ2=4.712,依据α=0.05的独立性检验(x0.05=3.841),可判断X与Y无关
C.对具有线性相关关系的变量x,y,其线性回归方程为0.3x﹣m,若样本点的中心为(m,2.8),则实数m的值是﹣4
D.已知随机变量X服从二项分布,若E(3X+1)=6,则n=6
▉题型2 回归分析
【知识点的认识】
1、回归直线:
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.记为:x.求回归直线方程的一般步骤:
①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系;
②求回归系数;
③写出回归直线方程,并利用回归直线方程进行预测说明.
2、回归分析:
对具有相关关系的两个变量进行统计分析的一种常用方法.
建立回归模型的基本步骤是:
①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).
③由经验确定回归方程的类型.
④按一定规则估计回归方程中的参数 (最小二乘法);
⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,模型是否合适等.
15.有一散点图如图所示,在六组数据(xi,yi)(i=1,2,…,6)中去掉B点后重新进行回归分析,则下列说法正确的是(  )
A.样本数据的两变量x,y正相关
B.相关系数r的绝对值更接近于0
C.残差平方和变大
D.变量x与变量y相关性变强
16.下列有关线性回归分析的四个命题:
①线性回归直线必过样本数据的中心点(,);
②回归直线就是散点图中经过样本数据点最多的那条直线;
③当相关性系数r>0时,两个变量正相关;
④如果两个变量的相关性越强,则相关性系数r就越接近于1.
其中真命题的个数为(  )
A.1个 B.2个 C.3个 D.4个
▉题型3 残差及残差图
【知识点的认识】
﹣残差:实际值与回归模型预测值的差异.
﹣残差图:用来检查回归模型的拟合效果,横轴通常为预测值,纵轴为残差.
【解题方法点拨】
﹣计算:通过回归方程预测值,并计算残差.
﹣绘图:绘制残差图,分析残差是否符合随机分布.
17.已知一系列样本点(xi,yi)(i=1,2,3,…)的一个经验回归方程为,若样本点(1,﹣1)的残差为2,则(  )
A.﹣1 B.1 C.﹣5 D.5
18.如果散点图中所有的散点都落在一条斜率不为0的直线上,则下列结论错误的是(  )
A.解释变量和响应变量线性相关
B.相关系数r=±1
C.决定系数R2=1
D.残差平方和等于1
19.已知变量x和y的统计数据如表,若由表中数据得到回归直线方程为,则x=4时的残差为(  )
x 4 4.5 5 5.5 6
y 7 6 4 2 1
A.0.2 B.﹣0.3 C.0.4 D.﹣0.2
▉题型4 非线性回归模型
【知识点的认识】
﹣非线性回归:用于数据与回归模型之间的关系不是线性的情况,例如多项式回归、指数回归等.
【解题方法点拨】
﹣建模:选择合适的非线性模型,根据数据特点建立回归方程.
﹣拟合:使用非线性回归方法估计模型参数.
20.MCN即多频道网络,是一种新的网红经济运行模式,这种模式将不同类型和内容的PGC(专业生产内容)联合起来,在资本有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现,在中国以直播电商、短视频为代表的新兴网红经济的崛起,使MCN机构的服务需求持续增长.数据显示,近年来中国MCN市场规模迅速扩大.下表为2018年﹣2022年中国MCN市场规模(单位:百亿元),其中2018年﹣2022年对应的代码依次为1﹣5.
年份代码x 1 2 3 4 5
中国MCN市场规模y 1.12 1.68 2.45 3.35 4.32
(1)由上表数据可知,可用指数函数模型y=a bx拟合y与x的关系,
①建立y关于x的回归方程;
②预测2025年中国MCN市场规模(单位:百亿元):
(2)从2018年﹣2022年中国MCN市场规模中随机抽取3个数据,记这3个数据中与的差的绝对值小于1的个数为X,求X的分布列与期望.
参考数据:
2.58 0.84 46.83 15.99
其中.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线的斜率和截距的最小二乘估计公式分别为.
参考数据:e2.196=8.99,e2,535=12.61,e2.874=17.71
21.生态学家高斯为研究有限资源下的种群增长问题,在实验室培养了草履虫,调查得到一组数据((ti,yi)(i=1,2, ,8),其中yi表示第ti天草履虫的数量),经研究该组数据可用Logistic模型拟合,函数模型为y.设初始数量为y0(y0∈N*)(个/m1),A1.经计算得到如下统计量的值:33.4,其中,
(1)求y关于t的经验回归方程,以及y0的估计值(r,A精确到小数点后1位);
(2)Logistic模型可用于研究生物学中一般种群的“S”型增长,某种群数量f(t)与时间t的关系为f(t)(A,K>0),证明:当种群数量达到K的一半时,该种群增长速度最快.
附:对于一组数据(x1,y1),(x2,y2), ,(xn,yn),其经验回归直线x的斜率和截距的最小二乘估计分别为40.4.
22.某企业最近十年的年份编号x与利润y(单位,万元)的统计数据如表所示:
x 1 2 3 4 5 6 7 8 9 10
lnx …… 1.8 1.9 2.1 2.2 2.3
y 10 25 35 42 48 54 58 60 62 56
若y与x满足经验回归方程:,令u=lnx.
(1)根据提供的数据及最小二乘原理,求y关于x的经验回归方程;(系数精确到1)
(2)若企业利润的残差~N(μ,σ2),其中μ=0,σ=1.6.残差值在区间(μ﹣3σ,μ+3σ)外,就认为某年的利润统计数据有误.现对数据进行核查,发现后五年中某一年数据有误,其真实数据为66万元,求修正数据后的经验回归方程.(系数精确到1)
附:,,;.
23.众所周知,乒乓球被称为中国的“国球”,是一种世界流行的球类体育项目,包括进攻、对抗和防守.某学校为了丰富学生的课后活动内容,增强学生体质,决定组织乒乓球活动社.以下是接下来7个星期(用x=1表示第1个星期,用x=2表示第二个星期,以此类推)参加活动的累计人数y(人)的统计数据.
x 1 2 3 4 5 6 7
y 6 14 20 37 74 108 203
(1)根据表中数据可以判断y与x大致满足回归模型,试建立y与x的回归方程(精确到0.01);
(2)为了更好地开展体育类型活动,学校继续调查全校同学的身高情况.采用按比例分层抽样抽取了男生30人,其身高的平均数和方差分别为171.5和13.0;抽取了女生20人,其身高的平均数和方差分别为161.5和27.0,试求全体学生身高的平均数和方差.
参考数据:,其中;
参考公式:对于一组数据(u1,v1),(u2,v2), ,(un,vn),其回归直线的斜率和截距的最小二乘估计公式分别为,.
▉题型5 决定系数与模型的拟合效果
【知识点的认识】
﹣决定系数R2:衡量回归模型对数据的解释能力,取值范围在0到1之间,越接近1表示模型拟合效果越好.
【解题方法点拨】
﹣计算:通过回归模型的预测值与实际值计算决定系数,评估模型的解释力.
24.某团队尝试用回归模型甲、乙、丙、丁描述人的1000米跑步成绩与肺活量的关系,已知模型甲、乙、丙、丁对应的决定系数R2分别为0.14,0.17,0.72,0.45,则拟合效果最好的模型是(  )
A.甲 B.乙 C.丙 D.丁
25.下列说法正确的个数是(  )
①线性相关系数|r|越接近1,两个变量的线性相关程度越强;
②独立性检验可以100%确定两个变量之间是否具有某种关系;
③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
④甲、乙两个模型的决定系数R2分别约为0.88和0.80,则模型甲的拟合效果更好.
A.1 B.2 C.3 D.4
26.在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2016年至2023年的新增光伏装机量进行调查,根据散点图选择了两个模型进行拟合,并得到相应的经验回归方程.为判断模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1)甲同学通过计算残差作出了两个模型的残差图,如图所示;
(2)乙同学求出模型①的残差平方和为0.4175、模型②的残差平方和为1.5625;
(3)丙同学分别求出模型①的决定系数0.9520、模型②的决定系数为0.9781;
经检验,模型①拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是    .(填“甲”或“乙”或“丙”)
27.已知成对样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2)中x1,x2,…,xn不全相等,且所有样本点(xi,yi)(i=1,2,…,n)都在直线上,则这组成对样本数据的样本相关系数r=   ,其决定系数R2=   .

展开更多......

收起↑

资源列表