第4章第2节 一元线性回归模型 高中数学选择性必修二同步复习讲义(湘教版2020)

资源下载
  1. 二一教育资源

第4章第2节 一元线性回归模型 高中数学选择性必修二同步复习讲义(湘教版2020)

资源简介

第4章第2节 一元线性回归模型
题型1 最小二乘法 题型2 经验回归方程与经验回归直线
题型3 回归分析 题型4 残差及残差图
题型5 非线性回归模型 题型6 决定系数与模型的拟合效果
▉题型1 最小二乘法
【知识点的认识】
最小二乘法(又称最小平方法)是一种数学优化技术.它通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.最小二乘法还可用于曲线拟合.其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达.
【解题方法点拨】
例:关于x与y有如表数据:
请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程为 y=0.7x+0.35  .
解:∵由题意知 ,

∴0.7
∴要求的线性回归方程是y=0.7x+0.35,
故答案为:y=0.7x+0.35.
集体步骤就是先做出x,y的平均数,代入 的公式,利用最小二乘法做出线性回归直线的方程的系数,写出回归直线的方程,得到结果.
1.用最小二乘法得到一组数据(xi,yi)(i=1,2,3,4,5)的线性回归方程为2x+3,若xi=25,则yi等于(  )
A.11 B.13 C.53 D.65
▉题型2 经验回归方程与经验回归直线
【知识点的认识】
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛.分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围.因此,可以认为关于的回归函数的类型为线性函数.
【解题方法点拨】
例:对于线性回归方程,则
解:,因为回归直线必过样本中心(),
所以.
故答案为:58.5.
方法就是根据线性回归直线必过样本中心(),求出,代入即可求.这里面可以看出线性规划这类题解题方法比较套路化,需要熟记公式.
2.已知变量x和变量y的一组成对样本数据为(xi,yi)(i=1,2,3,…,8),其中,其回归直线方程为,当增加两个样本数据(﹣1,5)和(2,9)后,重新得到的回归直线方程斜率为3,则在新的回归直线方程的估计下,样本数据(4,10)所对应的残差为(  )
A.﹣3 B.﹣2 C.﹣1 D.1
3.已知由样本数据(xi,yi)(i=1,2,3,…,10)组成一个样本,可得到回归直线方程为,且3,4.7,则样本点(4,7)的残差为(  )
A.0.3 B.﹣0.3 C.1.3 D.﹣1.3
4.如果某地财政收入x(亿元)与支出y(亿元)满足线性回归方程bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5,如果今年该地区的财政收入为10亿元,则年支出预计不会超过(  )
A.9亿元 B.9.5亿元 C.10亿元 D.10.5亿元
5.已知变量y与变量x的关系可以用模型(c1,c2为常数)拟合,设z=lny,变换后得到一组数据如下:
x 2 3 4 5 6
z 1.02 1.20 1.42 1.62 1.84
由上表可得经验回归方程为,则c1=(  )
A.0.206 B.e0.206 C.0.596 D.e0.596
6.由如表所示的变量x,y之间的一组数据,得到x,y之间的线性回归方程为,则(  )
x 6 8 10 12
y 7 t 5.5 4.5
A.点(8,t)一定在回归直线上
B.x每增加1个单位,y大约增加0.5个单位
C.t=7
D.y与x是正相关的
7.为了解某地区某种水果的年产量x(单位:吨)对价格y(单位:万元/吨)的影响,对近五年该水果的年产量和价格统计如表:
x 300 350 400 450 500
y 1.8 1.7 1.5 1.4 1.1
若y关于x的回归直线方程为,则(  )
A.2.82 B.2.86 C.2.88 D.2.92
8.为了研究某种商品的广告投入x和收益y之间的相关关系,某研究小组收集了5组样本数据如表所示,得到线性回归方程为,则当广告投入为10万元时,收益的预测值为(  )万元.
x/万元 1 2 3 4 5
y/万元 0.50 0.80 1.00 1.20 1.50
A.2.48 B.2.58 C.2.68 D.2.88
9.由如表所示的变量x,y之间的一组数据,得x,y之间的线性回归方程为,则(  )
x 6 8 10 12
y 7 t 5.5 4.5
A.点(8,t)一定在回归直线上
B.x每增加1个单位,y大约增加0.5个单位
C.t=7
D.去掉(12,4.5)这组数据后,求得的回归直线方程斜率将变大
10.某种产品的投入x(单位:万元)与收入y(单位:万元)之间的关系如下表所示:
x/万元 2 4 5 6 8
y/万元 30 40 60 50 70
若y与x的经验回归方程为,则相应于点(2,30)的残差为(  )
A.﹣0.5 B.0.5 C.﹣1.5 D.1.5
11.生物兴趣小组在研究某种流感病毒的数量与环境温度之间的关系时,发现在一定温度范围内,病毒数量与环境温度近似存在线性相关关系,为了寻求它们之间的回归方程,兴趣小组通过实验得到了下列三组数据:
温度x(℃) 6 8 10
病毒数量y(万个) 30 22 m
计算得到的回归方程为:,但由于保存不妥,丢失了一个数据(表中用字母m代替),则m的值为(  )
A.19 B.20 C.21 D.无法确定
12.由样本数据(xi,yi)(i=1,2,3, ,10),求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点(2,2)的残差值为    .
13.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得表数据.请根据上表提供的数据,求出y关于x的线性回归方程为    ,据此可预测判断力为4的同学的记忆力为    .
x 6 8 10 12
y 2 3 5 6
(回归直线方程是:,其中,)
▉题型3 回归分析
【知识点的认识】
1、回归直线:
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.记为:x.求回归直线方程的一般步骤:
①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系;
②求回归系数;
③写出回归直线方程,并利用回归直线方程进行预测说明.
2、回归分析:
对具有相关关系的两个变量进行统计分析的一种常用方法.
建立回归模型的基本步骤是:
①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).
③由经验确定回归方程的类型.
④按一定规则估计回归方程中的参数 (最小二乘法);
⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,模型是否合适等.
14.中国茶文化博大精深,茶水的口感与茶叶的类型和水的温度有关.某数学建模小组建立了茶水冷却时间x和茶水温度y的一组数据(xi,yi).经过分析,提出了四种回归模型,①②③④四种模型的残差平方和的值分别是0.98,0.80,0.12,1.36.则拟合效果最好的模型是(  )
A.模型① B.模型② C.模型③ D.模型④
▉题型4 残差及残差图
【知识点的认识】
﹣残差:实际值与回归模型预测值的差异.
﹣残差图:用来检查回归模型的拟合效果,横轴通常为预测值,纵轴为残差.
【解题方法点拨】
﹣计算:通过回归方程预测值,并计算残差.
﹣绘图:绘制残差图,分析残差是否符合随机分布.
15.已知变量x和y的统计数据如表,若由表中数据得到回归直线方程为,则x=4时的残差为(  )
x 4 4.5 5 5.5 6
y 7 6 4 2 1
A.0.2 B.﹣0.3 C.0.4 D.﹣0.2
16.为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.图1是该公司2013年至2022年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1﹣10分别对应年份2013﹣2022.
根据散点图,分别用模型①y=bx+a,②作为年研发投入y关于年份代码x的经验回归方程模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:
75 2.25 82.5 4.5 120 28.35
表中.
(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入y关于年份代码x的经验回归方程模型?并说明理由;
(2)根据(1)中所选模型,求出y关于x的经验回归方程,并预测该公司2028年的高科技研发投入.
附:对于一组数据(x1,y1),(x2,y2), ,(xn,yn),其经验回归直线x的斜率和截距的最小二乘估计分别为.
▉题型5 非线性回归模型
【知识点的认识】
﹣非线性回归:用于数据与回归模型之间的关系不是线性的情况,例如多项式回归、指数回归等.
【解题方法点拨】
﹣建模:选择合适的非线性模型,根据数据特点建立回归方程.
﹣拟合:使用非线性回归方法估计模型参数.
(多选)17.下列说法中正确的是(  )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于0
B.若随机变量ξ,η满足η=4ξ﹣3,则E(η)=4E(ξ)﹣3,D(η)=16D(ξ)
C.随机变量ξ~N(1,σ2),且P(ξ≤0)=P(ξ≥a),若x+y=a(x>0,y>0),则的最小值为
D.已知一组样本数据(xi,yi)(i=1,2,…,5)中y关于x的非线性回归方程为6x2+a,,则a=﹣6
18.一只药用昆虫的产卵数y与一定范围内的温度x有关,现收集了该种药用昆虫的6组观测数据如表:
温度x/℃ 21 23 24 27 29 32
产卵数y/个 6 11 20 27 57 77
经计算得:,,,,,线性回归模型的残差平方和,e8.0605≈3167,其中xi,yi分别为观测数据中的温度和产卵数,i=1,2,3,4,5,6.
(Ⅰ)若用线性回归模型,求y关于x的回归方程x(精确到0.1);
(Ⅱ)若用非线性回归模型求得y关于x的回归方程为0.06e0.2303x,且相关指数R2=0.9522.
(i)试与(Ⅰ)中的回归模型相比,用R2说明哪种模型的拟合效果更好.
(ii)用拟合效果好的模型预测温度为35℃时该种药用昆虫的产卵数(结果取整数).
附:一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线x的斜率和截距的最小二乘估计为,;相关指数R2.
▉题型6 决定系数与模型的拟合效果
【知识点的认识】
﹣决定系数R2:衡量回归模型对数据的解释能力,取值范围在0到1之间,越接近1表示模型拟合效果越好.
【解题方法点拨】
﹣计算:通过回归模型的预测值与实际值计算决定系数,评估模型的解释力.
(多选)19.下列说法:
①对于回归分析,决定系数r的绝对值越小,说明拟合效果越好
②以模型y=c ekx去拟合一组数据时,为了求出回归方程,设z=lny,将其变换后得到线性方程,则c,k的值分别是e4和0.3
③已知随机变量X N(0,σ2),若P(|X|<2)=a,则P(X>2)的值为
④通过回归直线及回归系数,可以精确反映变量的取值和变化趋势
其中正确的选项有(  )
A.① B.② C.③ D.④
20.某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f(单位:心跳次数/分钟)的对应数据(Wi,fi)(i=1,2,…,8),根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=lnWi,yi=lnfi,计算得,,.由最小二乘法得经验回归方程为,则k的值为    ;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数R2≈   .(参考公式:决定系数)
21.全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业呢?由人民日报社指导,《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如表:
科技投入x 1 2 3 4 5 6 7
收益y 19 20 22 31 40 50 70
根据数据特点,甲认为样本点分布在指数型曲线y=2bx+a的周围,据此他对数据进行了一些初步处理.如表:
5 140 1239 149 2134 130
其中zi=log2yi,.
(1)请根据表中数据,建立y关于x的回归方程(系数精确到0.1,用的近似值算);
(2)①乙认为样本点分布在直线y=mx+n的周围,并计算得回归方程为8.25x+3,以及该回归模型的决定系数(即相关指数)R乙2=0.893,试计算R甲2,比较甲乙两人所建立的模型,谁的拟合效果更好?(精确到0.001)
②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线方程的斜率和截距的最小二乘法估计分别为,,决定系数:R2=1,参考数据:log25≈2.3.第4章第2节 一元线性回归模型
题型1 最小二乘法 题型2 经验回归方程与经验回归直线
题型3 回归分析 题型4 残差及残差图
题型5 非线性回归模型 题型6 决定系数与模型的拟合效果
▉题型1 最小二乘法
【知识点的认识】
最小二乘法(又称最小平方法)是一种数学优化技术.它通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.最小二乘法还可用于曲线拟合.其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达.
【解题方法点拨】
例:关于x与y有如表数据:
请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程为 y=0.7x+0.35  .
解:∵由题意知 ,

∴0.7
∴要求的线性回归方程是y=0.7x+0.35,
故答案为:y=0.7x+0.35.
集体步骤就是先做出x,y的平均数,代入 的公式,利用最小二乘法做出线性回归直线的方程的系数,写出回归直线的方程,得到结果.
1.用最小二乘法得到一组数据(xi,yi)(i=1,2,3,4,5)的线性回归方程为2x+3,若xi=25,则yi等于(  )
A.11 B.13 C.53 D.65
【答案】D
【解答】解:∵xi=25,∴5,
代入2x+3,可得13,
∴yi=65.
故选:D.
▉题型2 经验回归方程与经验回归直线
【知识点的认识】
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛.分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围.因此,可以认为关于的回归函数的类型为线性函数.
【解题方法点拨】
例:对于线性回归方程,则
解:,因为回归直线必过样本中心(),
所以.
故答案为:58.5.
方法就是根据线性回归直线必过样本中心(),求出,代入即可求.这里面可以看出线性规划这类题解题方法比较套路化,需要熟记公式.
2.已知变量x和变量y的一组成对样本数据为(xi,yi)(i=1,2,3,…,8),其中,其回归直线方程为,当增加两个样本数据(﹣1,5)和(2,9)后,重新得到的回归直线方程斜率为3,则在新的回归直线方程的估计下,样本数据(4,10)所对应的残差为(  )
A.﹣3 B.﹣2 C.﹣1 D.1
【答案】B
【解答】解:已知原回归直线方程为,且原样本数据的样本中心点为.
原样本有8个数据,,增加两个样本数据(﹣1,5)和(2,9)后,
新的,
原样本2,原样本y总和为8×2=16,新增加的两个y值为5和9,
新的.
∴增加两个样本数据后,新的样本数据的平均值为,
且新的回归直线斜率为3.由于回归直线一定过样本中心点,
将代入新的回归直线方程3x+a,可得a=0.
因此,新的回归直线方程为3x.
对于样本数据(4,10),其在新的回归直线方程下的预测值为3×4=12.
因此,残差为e=y10﹣12=﹣2.
故选:B.
3.已知由样本数据(xi,yi)(i=1,2,3,…,10)组成一个样本,可得到回归直线方程为,且3,4.7,则样本点(4,7)的残差为(  )
A.0.3 B.﹣0.3 C.1.3 D.﹣1.3
【答案】A
【解答】解:由回归直线方程为,且3,4.7,可得24.7﹣2×3=﹣1.3,
∴2x﹣1.3,∴当x=4时,6.7,
故残差为7﹣6.7=0.3.
故选:A.
4.如果某地财政收入x(亿元)与支出y(亿元)满足线性回归方程bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5,如果今年该地区的财政收入为10亿元,则年支出预计不会超过(  )
A.9亿元 B.9.5亿元 C.10亿元 D.10.5亿元
【答案】D
【解答】解:∵某地的财政收入x与支出y满足的线性回归模型是y=bx+a+e(单位:亿元),其中b=0.8,a=2,
∴y=0.8x+2+e
当x=10时,y=0.8x+2+e=10+e
∵|e|≤0.5,∴﹣0.5≤e≤0.5
∴9.5≤y≤10.5,
∴今年支出预计不超出10.5亿元
故选:D.
5.已知变量y与变量x的关系可以用模型(c1,c2为常数)拟合,设z=lny,变换后得到一组数据如下:
x 2 3 4 5 6
z 1.02 1.20 1.42 1.62 1.84
由上表可得经验回归方程为,则c1=(  )
A.0.206 B.e0.206 C.0.596 D.e0.596
【答案】D
【解答】解:由表格中数据得,,
因为经验回归方程过样本中心点(,),
所以,解得,
因此,
由两边取对数,得lny=c2x+lnc1,
又因为z=lny,所以z=c2x+lnc1,
所以c2=0.206,lnc1=0.596,
即.
故选:D.
6.由如表所示的变量x,y之间的一组数据,得到x,y之间的线性回归方程为,则(  )
x 6 8 10 12
y 7 t 5.5 4.5
A.点(8,t)一定在回归直线上
B.x每增加1个单位,y大约增加0.5个单位
C.t=7
D.y与x是正相关的
【答案】C
【解答】解:由题意可知,,,
因为线性回归方程过样本中心点,
所以,
解得t=7,故C正确;
当x=8时,可得,所以点(8,t)不在回归直线上,故A错误;
因为,所以x每增加1个单位,y大约减少0.5个单位,故B错误;
因为0,说明y与x负相关,故D错误.
故选:C.
7.为了解某地区某种水果的年产量x(单位:吨)对价格y(单位:万元/吨)的影响,对近五年该水果的年产量和价格统计如表:
x 300 350 400 450 500
y 1.8 1.7 1.5 1.4 1.1
若y关于x的回归直线方程为,则(  )
A.2.82 B.2.86 C.2.88 D.2.92
【答案】B
【解答】解:,,
故,解得.
故选:B.
8.为了研究某种商品的广告投入x和收益y之间的相关关系,某研究小组收集了5组样本数据如表所示,得到线性回归方程为,则当广告投入为10万元时,收益的预测值为(  )万元.
x/万元 1 2 3 4 5
y/万元 0.50 0.80 1.00 1.20 1.50
A.2.48 B.2.58 C.2.68 D.2.88
【答案】C
【解答】解:由题意可知,,
因为线性回归方程过样本中心点(3,1),
所以,
解得,
所以0.24x+0.28,
所以当x=10时,0.24×10+0.28=2.68,
即当广告投入为10万元时,收益的预测值为2.68万元.
故选:C.
9.由如表所示的变量x,y之间的一组数据,得x,y之间的线性回归方程为,则(  )
x 6 8 10 12
y 7 t 5.5 4.5
A.点(8,t)一定在回归直线上
B.x每增加1个单位,y大约增加0.5个单位
C.t=7
D.去掉(12,4.5)这组数据后,求得的回归直线方程斜率将变大
【答案】C
【解答】解:,,
因为回归直线方程一定过样本中心点,
所以,解得t=7,故C选项正确;
当﹣0.5×8+10.5=6.5≠7,所以点(8,t)不在回归直线上,故A选项错误;
x每增加1个单位,y大约减少0.5个单位,故B选项错误;
当﹣0.5×12+10.5=4.5,所以(12,4.5)在回归直线上,故去掉点(12,4.5)不影响回归直线方程,故D选项错误.
故选:C.
10.某种产品的投入x(单位:万元)与收入y(单位:万元)之间的关系如下表所示:
x/万元 2 4 5 6 8
y/万元 30 40 60 50 70
若y与x的经验回归方程为,则相应于点(2,30)的残差为(  )
A.﹣0.5 B.0.5 C.﹣1.5 D.1.5
【答案】A
【解答】解:将x=2代入回归方程中,,
则预测值为30.5,根据题意可知,实际值为30,
根据残差的定义可知,残差为30﹣30.5=﹣0.5.
故选:A.
11.生物兴趣小组在研究某种流感病毒的数量与环境温度之间的关系时,发现在一定温度范围内,病毒数量与环境温度近似存在线性相关关系,为了寻求它们之间的回归方程,兴趣小组通过实验得到了下列三组数据:
温度x(℃) 6 8 10
病毒数量y(万个) 30 22 m
计算得到的回归方程为:,但由于保存不妥,丢失了一个数据(表中用字母m代替),则m的值为(  )
A.19 B.20 C.21 D.无法确定
【答案】B
【解答】解:由题意可知,8,,
因为回归方程过点(,),
所以44,
解得m=20.
故选:B.
12.由样本数据(xi,yi)(i=1,2,3, ,10),求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点(2,2)的残差值为    .
【答案】.
【解答】解:回归直线方程为,且,
当时,,
去除偏离点(4,10)后,剩余数据的中心点为,
则,,
将点的坐标代入回归直线方程,可得,解得,
所以,新的回归直线方程为,
当x=2时,,
所以,去除偏离点后,相应于样本点(2,2)的残差值为.
故答案为:.
13.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得表数据.请根据上表提供的数据,求出y关于x的线性回归方程为    ,据此可预测判断力为4的同学的记忆力为  9  .
x 6 8 10 12
y 2 3 5 6
(回归直线方程是:,其中,)
【答案】①;②9.
【解答】解:设y关于x的线性回归方程为,
由表格数据得,,
,,
故根据最小二乘原理知,
所以,
即线性回归方程为;将y=4代入方程,得x=9,
即可预测可预测判断力为4的同学的记忆力为9.
故答案为:①;②9.
▉题型3 回归分析
【知识点的认识】
1、回归直线:
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.记为:x.求回归直线方程的一般步骤:
①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系;
②求回归系数;
③写出回归直线方程,并利用回归直线方程进行预测说明.
2、回归分析:
对具有相关关系的两个变量进行统计分析的一种常用方法.
建立回归模型的基本步骤是:
①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).
③由经验确定回归方程的类型.
④按一定规则估计回归方程中的参数 (最小二乘法);
⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,模型是否合适等.
14.中国茶文化博大精深,茶水的口感与茶叶的类型和水的温度有关.某数学建模小组建立了茶水冷却时间x和茶水温度y的一组数据(xi,yi).经过分析,提出了四种回归模型,①②③④四种模型的残差平方和的值分别是0.98,0.80,0.12,1.36.则拟合效果最好的模型是(  )
A.模型① B.模型② C.模型③ D.模型④
【答案】C
【解答】解:对于回归模型,残差平方和越小,回归模型的拟合效果越好,所以拟合效果最好的模型是③.
故选:C.
▉题型4 残差及残差图
【知识点的认识】
﹣残差:实际值与回归模型预测值的差异.
﹣残差图:用来检查回归模型的拟合效果,横轴通常为预测值,纵轴为残差.
【解题方法点拨】
﹣计算:通过回归方程预测值,并计算残差.
﹣绘图:绘制残差图,分析残差是否符合随机分布.
15.已知变量x和y的统计数据如表,若由表中数据得到回归直线方程为,则x=4时的残差为(  )
x 4 4.5 5 5.5 6
y 7 6 4 2 1
A.0.2 B.﹣0.3 C.0.4 D.﹣0.2
【答案】D
【解答】解:因为,(7+6+4+2+1)=4,
则样本中心点为(5,4),
代入,可得a=4+5×3.2=20,
所以回归直线方程为y=﹣3.2x+20,
当x=4时,y=﹣3.2×4+20=7.2,
所以x=4时的残差为7﹣7.2=﹣0.2.
故选:D.
16.为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.图1是该公司2013年至2022年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1﹣10分别对应年份2013﹣2022.
根据散点图,分别用模型①y=bx+a,②作为年研发投入y关于年份代码x的经验回归方程模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:
75 2.25 82.5 4.5 120 28.35
表中.
(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入y关于年份代码x的经验回归方程模型?并说明理由;
(2)根据(1)中所选模型,求出y关于x的经验回归方程,并预测该公司2028年的高科技研发投入.
附:对于一组数据(x1,y1),(x2,y2), ,(xn,yn),其经验回归直线x的斜率和截距的最小二乘估计分别为.
【答案】见试题解答内容
【解答】解:(1)根据图2可知,模型①的残差波动性很大,说明拟合关系较差;
模型②的残差波动性很小,基本分布在0的附近,说明拟合关系很好,所以选择模型②更适宜.
(2)设,所以y=c+dt,
所以6.3,,
所以y关于x的经验回归方程为,
令x=16,则y=60.825+6.3×4=86.025,
即预测该公司2028年的高科技研发投入86.025亿元.
▉题型5 非线性回归模型
【知识点的认识】
﹣非线性回归:用于数据与回归模型之间的关系不是线性的情况,例如多项式回归、指数回归等.
【解题方法点拨】
﹣建模:选择合适的非线性模型,根据数据特点建立回归方程.
﹣拟合:使用非线性回归方法估计模型参数.
(多选)17.下列说法中正确的是(  )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于0
B.若随机变量ξ,η满足η=4ξ﹣3,则E(η)=4E(ξ)﹣3,D(η)=16D(ξ)
C.随机变量ξ~N(1,σ2),且P(ξ≤0)=P(ξ≥a),若x+y=a(x>0,y>0),则的最小值为
D.已知一组样本数据(xi,yi)(i=1,2,…,5)中y关于x的非线性回归方程为6x2+a,,则a=﹣6
【答案】BCD
【解答】解:对于选项A,两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故A错误;
对于选项B,若η=4ξ﹣3,则E(η)=4E(ξ)﹣3,D(η)=16D(ξ),故B正确;
对于选项C,因为随机变量ξ~N(1,σ2),且P(ξ≤0)=P(ξ≥a),
所以1,解得a=2,
所以x+y=2,又因为x>0,y>0
则,
所以时,等号成立,故C正确;
对于选项D,由题意可知,,
代入非线性回归方程6x2+a,得60=6×11+a,解得a=﹣6,故D正确.
故选:BCD.
18.一只药用昆虫的产卵数y与一定范围内的温度x有关,现收集了该种药用昆虫的6组观测数据如表:
温度x/℃ 21 23 24 27 29 32
产卵数y/个 6 11 20 27 57 77
经计算得:,,,,,线性回归模型的残差平方和,e8.0605≈3167,其中xi,yi分别为观测数据中的温度和产卵数,i=1,2,3,4,5,6.
(Ⅰ)若用线性回归模型,求y关于x的回归方程x(精确到0.1);
(Ⅱ)若用非线性回归模型求得y关于x的回归方程为0.06e0.2303x,且相关指数R2=0.9522.
(i)试与(Ⅰ)中的回归模型相比,用R2说明哪种模型的拟合效果更好.
(ii)用拟合效果好的模型预测温度为35℃时该种药用昆虫的产卵数(结果取整数).
附:一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线x的斜率和截距的最小二乘估计为,;相关指数R2.
【答案】见试题解答内容
【解答】解:(Ⅰ)依题意,n=6,,…(2分)
33﹣6.6×26=﹣138.6,…(3分)
∴y关于x的线性回归方程为6.6x﹣138.6…(4分)
(Ⅱ) ( i )利用所给数据,,得,
线性回归方程6.6x﹣138.6
的相关指数R2.…(6分)
∵0.9398<0.9522,…(7分)
因此,回归方程0.06e0.2303x比线性回归方程6.6x﹣138.6拟合效果更好…..…(8分)
(ii)由( i )得温度x=35℃时,0.06e0.2303×35=0.06×e8.0605…..…..…(9分)
又∵e8.0605≈3167,…(10分)
∴0.06×3167≈190(个)…(11分)
所以当温度x=35℃时,该种药用昆虫的产卵数估计为190个…(12分)
▉题型6 决定系数与模型的拟合效果
【知识点的认识】
﹣决定系数R2:衡量回归模型对数据的解释能力,取值范围在0到1之间,越接近1表示模型拟合效果越好.
【解题方法点拨】
﹣计算:通过回归模型的预测值与实际值计算决定系数,评估模型的解释力.
(多选)19.下列说法:
①对于回归分析,决定系数r的绝对值越小,说明拟合效果越好
②以模型y=c ekx去拟合一组数据时,为了求出回归方程,设z=lny,将其变换后得到线性方程,则c,k的值分别是e4和0.3
③已知随机变量X N(0,σ2),若P(|X|<2)=a,则P(X>2)的值为
④通过回归直线及回归系数,可以精确反映变量的取值和变化趋势
其中正确的选项有(  )
A.① B.② C.③ D.④
【答案】BC
【解答】解:对于A,①中对于回归分析,决定系数r的绝对值越大,说明拟合效果越好,故A错误;
对于B,②中lny=kx+lnc=0.3x+4,
则c,k的值分别是e4和0.3,故B正确;
对于C,③中已知随机变量X∽N(0,σ2),P(|X|<2)=a,
故由对称性可知,P(X>2)的值为,故C正确;
对于D,④中通过回归直线及回归系数,只能大致的(不能精确)反映变量的取值和变化趋势,故D错误.
故选:BC.
20.某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f(单位:心跳次数/分钟)的对应数据(Wi,fi)(i=1,2,…,8),根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=lnWi,yi=lnfi,计算得,,.由最小二乘法得经验回归方程为,则k的值为  ﹣0.3  ;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数R2≈ 0.98  .(参考公式:决定系数)
【答案】﹣0.3;0.98.
【解答】解:∵,,经验回归方程为,
∴5=87.4,
∴0.3,
对f=cWk(c,k为参数)两边同时取对数得,lnf=lnc+klnW,
∵令xi=lnWi,yi=lnfi,
∴k0.3,
由公式可知,R2≈1110.98.
故答案为:﹣0.3;0.98.
21.全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业呢?由人民日报社指导,《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如表:
科技投入x 1 2 3 4 5 6 7
收益y 19 20 22 31 40 50 70
根据数据特点,甲认为样本点分布在指数型曲线y=2bx+a的周围,据此他对数据进行了一些初步处理.如表:
5 140 1239 149 2134 130
其中zi=log2yi,.
(1)请根据表中数据,建立y关于x的回归方程(系数精确到0.1,用的近似值算);
(2)①乙认为样本点分布在直线y=mx+n的周围,并计算得回归方程为8.25x+3,以及该回归模型的决定系数(即相关指数)R乙2=0.893,试计算R甲2,比较甲乙两人所建立的模型,谁的拟合效果更好?(精确到0.001)
②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线方程的斜率和截距的最小二乘法估计分别为,,决定系数:R2=1,参考数据:log25≈2.3.
【答案】(1);(2)①甲建立的回归模型拟合效果更好;②科技投入的费用至少要9.3百万元.
【解答】解:(1)将y=2bx+a两边取对数得:log2y=bx+a,令z=log2y,则,
∵,∴根据最小二乘估计可知:0.3,
∴,
∴回归方程为,即.
(2)①甲建立的回归模型的.
∴甲建立的回归模型拟合效果更好.
②由①知,甲建立的回归模型拟合效果更好.
设20.3x+3.8≥100,得0.3x+3.8≥log2100=2+2log25,解得:x≥9.3.
∴科技投入的费用至少要9.3百万元,下一年的收益才能达到1亿.

展开更多......

收起↑

资源列表