第8章第2节 一元线性回归分析析 高中数学选择性必修二同步复习讲义(沪教版2020)

资源下载
  1. 二一教育资源

第8章第2节 一元线性回归分析析 高中数学选择性必修二同步复习讲义(沪教版2020)

资源简介

第8章第2节 一元线性回归分析
题型1 最小二乘法 题型2 经验回归方程与经验回归直线
题型3 非线性回归模型 题型4 决定系数与模型的拟合效果
▉题型1 最小二乘法
【知识点的认识】
最小二乘法(又称最小平方法)是一种数学优化技术.它通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.最小二乘法还可用于曲线拟合.其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达.
【解题方法点拨】
例:关于x与y有如表数据:
请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程为 y=0.7x+0.35  .
解:∵由题意知 ,

∴0.7
∴要求的线性回归方程是y=0.7x+0.35,
故答案为:y=0.7x+0.35.
集体步骤就是先做出x,y的平均数,代入 的公式,利用最小二乘法做出线性回归直线的方程的系数,写出回归直线的方程,得到结果.
1.用最小二乘法得到一组数据(xi,yi)(i=1,2,3,4,5)的线性回归方程为2x+3,若xi=25,则yi等于(  )
A.11 B.13 C.53 D.65
▉题型2 经验回归方程与经验回归直线
【知识点的认识】
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛.分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围.因此,可以认为关于的回归函数的类型为线性函数.
【解题方法点拨】
例:对于线性回归方程,则
解:,因为回归直线必过样本中心(),
所以.
故答案为:58.5.
方法就是根据线性回归直线必过样本中心(),求出,代入即可求.这里面可以看出线性规划这类题解题方法比较套路化,需要熟记公式.
2.已知下列说法:
①对于经验回归方程,变量增加一个单位时,平均增加3个单位;
②甲、乙两个模型的R2分别为0.98和0.80,则模型甲的拟合效果更好;
③对分类变量X与Y,随机变量χ2越大,则判断“X与Y有关系”的把握程度越大;
④两个随机变量的线性相关性越强,则相关系数就越接近1.
其中说法错误的个数为(  )
A.1 B.2 C.3 D.4
3.为了解某地区某种水果的年产量x(单位:吨)对价格y(单位:万元/吨)的影响,对近五年该水果的年产量和价格统计如表:
x 300 350 400 450 500
y 1.8 1.7 1.5 1.4 1.1
若y关于x的回归直线方程为,则(  )
A.2.82 B.2.86 C.2.88 D.2.92
4.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中.已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为(30,m),若该数据的残差为0.6,则m=(  )
色差x 21 23 25 27
色度y 15 18 19 20
A.23.4 B.23.6 C.23.8 D.24.0
5.某种植基地统计出花卉种植面积y与年份x的数据如下:
x 1 2 3 4 5
y 5 7 9 10 14
根据如表数据得到y关于x的线性回归方程为,则第6年的花卉种植面积约为(  )
A.17 B.16 C.15.3 D.15
6.某公司近几年投入A款产品的年研发费用x与年利润y的统计数据如表:
年研发费用x 5 4 6 3 4 2
年利润y 12 10 13 9 11 5
若y与x的回归直线方程为,则(  )
A.2.1 B.2.2 C.2.3 D.2.4
7.已知变量x,y线性相关,其一组样本数据(xi,yi)(i=1,2,…,9),满足,用最小二乘法得到的经验回归方程为2x﹣1.若增加一个数据(﹣3,3)后,得到修正后的回归直线的斜率为2.1,则数据(4,8)的残差的绝对值为(  )
A.0.1 B.0.2 C.0.3 D.0.4
8.观测两相关变量得如下数据:则两变量间的回归直线方程为(  )
X ﹣1 ﹣2 ﹣3 ﹣4 ﹣5
Y ﹣9 ﹣7 ﹣5 ﹣3 ﹣1
A. B. C. D.
9.已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为x+10.3,则的值为(  )
x 6 8 9 10 12
y 6 5 4 3 2
A.﹣0.6 B.﹣0.7 C.﹣0.8 D.﹣0.9
(多选)10.下列说法正确的是(  )
A.两个变量的线性相关性越强,则相关系数r越大
B.若随机变量ξ,η满足η=2ξ+1,则D(η)=4D(ξ)
C.若随机变量X服从正态分布N(3,σ2),且P(X≤4)=0.7,则P(3<x<4)=0.2
D.已知一系列样本点的一个经验回归方程为,若样本点(m,3)与(2,n)的残差相等,则3m+n=9
(多选)11.已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,则下列说法正确的是(  )
x 6 8 10 12
y 6 m 3 2
A.变量x,y之间呈现负相关关系
B.m=4
C.可以预测,当x=11时,y约为2.6
D.由表格数据知,该回归直线必过点(9,4)
(多选)12.为调研加工零件效率,调研员通过试验获得加工零件个数x与所用时间y(单位:min)的5组数据为:(1,5),(2,9),(3,12),(4,15),(5,19),根据以上数据可得经验回归方程为:,则下列选项正确的有(  )
A.
B.回归直线必过点(2,9)
C.加工6个零件的时间大约为22.2min
D.若去掉(3,12),剩下4组数据的经验回归方程不会有变化
(多选)13.一组样本数据(xi,yi)(i=1,2,3,…,100),其中xi>1895,,,求得其经验回归方程为:,残差为.对样本数据进行处理:xi′=ln(xi﹣1895),得到新的数据(xi′,yi),求得其经验回归方程为:,其残差为.,分布如图所示,且~N(0,),,则(  )
A.样本(xi,yi)负相关
B.
C.
D.处理后的决定系数变大
(多选)14.下列说法正确的有(  )
A.某学生8次考试的数学成绩分别为:109,101,141,108,120,132,135,141,则这8次数学成绩的上四分位数为135
B.对于事件A,B,若A B,且P(A)=0.3,P(B)=0.6,则P(B|A)=1
C.两组样本数据x1,x2,x3,x4和y1,y2,y3,y4的平均数分别为,若已知xi+yi=10(i=1,2,3,4),则
D.已知变量x,y的n对样本数据(x1,y1),(x2,y2), ,(xn,yn),n∈N*,变量x,y的线性回归方程为y=0.3x﹣m(m∈R),若2.8,则m=4
15.一组互不相等的样本数据(x1,y1),(x2,y2),…,(x8,y8),其中,若在样本中加入数据(14,11)后,新样本数据的回归直线方程与原样本数据的相同,则这组样本数据的回归直线方程为   .
16.某工厂为研究某种产品的产量x(吨)与所需某种原材料的重量y(吨)的相关性,在生产过程中收集了6组对应数据(x,y),如下表所示.根据表中数据,得出y关于x的经验回归方程为x﹣0.8,则m=   .
x 2 3 4 5 6 7
y 1.5 2 3 4 5.5 m
17.华容道是古老的中国民间益智游戏,以其变化多端、百玩不厌的特点与魔方、独立钻石一起被国外智力专家并称为“智力游戏界的三个不可思议”.华容道游戏是通过移动各个棋子,帮助曹操从初始位置移到棋盘最下方中部,从出口逃走,不允许跨越棋子,还要设法用最少的步数把曹操移到出口.小华准备参加市里的华容道横刀立马项目大赛.赛前小华进行了15天的训练,经统计得30分钟的通关关数y(道)与训练天数x(天)有如下数据:
x(天) 3 6 9 12 15
y(道) 61 82 91 104 112
通过分析发现30分钟的通关关数y(道)与训练天数x(天)线性相关.
(1)求x与y的样本相关系数(结果四舍五入到0.001);
(2)①求30分钟的通关关数关于训练天数的经验回归方程x(的结果四舍五入到0.01);
②若小华准备按照这种方式继续训练15天,然后直接参加华容道横刀立马项目大赛,请估计小华结束训练时在30分钟内能通关多少道(结果四舍五入到个位)?
参考公式:样本相关系数,回归直线方程x中,,.
参考数据:,,,.
▉题型3 非线性回归模型
【知识点的认识】
﹣非线性回归:用于数据与回归模型之间的关系不是线性的情况,例如多项式回归、指数回归等.
【解题方法点拨】
﹣建模:选择合适的非线性模型,根据数据特点建立回归方程.
﹣拟合:使用非线性回归方法估计模型参数.
18.用模型y=ln(kx+b)去拟合x与y的关系,令z=ey,得到z关于x的回归直线方程为z=3x+e,则b=(  )
A.1 B.2 C.e D.2e
19.已知一组成对数据(xi,yi)(i=1,2,…,6)中y关于x的一元非线性回归方程y=bx2+1,已知,,,则b=(  )
A.3 B.1 C.﹣1 D.﹣3
20.新型冠状病毒引起的肺炎疫情暴发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示:
周数(x) 1 2 3 4 5
治愈人数(Y) 2 17 36 103 142
由表格可得Y关于x的非线性经验回归方程为,则此回归模型第5周的残差为(  )
A.0 B.2 C.3 D.﹣2
21.红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图,现用两种模型①y=ebx+a,②y=cx2+d分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中zi=lnyi;;;
25 2.9 646 168 422688 50.4 70308
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)求出y关于x的回归方程.附:对于一组数据(ω1,v1),(ω2,v2),…(ωn,vn),其回归直线的斜率和截距的最小二乘估计分别为,,.
22.MCN即多频道网络,是一种新的网红经济运行模式,这种模式将不同类型和内容的PGC(专业生产内容)联合起来,在资本有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现,在中国以直播电商、短视频为代表的新兴网红经济的崛起,使MCN机构的服务需求持续增长.数据显示,近年来中国MCN市场规模迅速扩大.下表为2018年﹣2022年中国MCN市场规模(单位:百亿元),其中2018年﹣2022年对应的代码依次为1﹣5.
年份代码x 1 2 3 4 5
中国MCN市场规模y 1.12 1.68 2.45 3.35 4.32
(1)由上表数据可知,可用指数函数模型y=a bx拟合y与x的关系,
①建立y关于x的回归方程;
②预测2025年中国MCN市场规模(单位:百亿元):
(2)从2018年﹣2022年中国MCN市场规模中随机抽取3个数据,记这3个数据中与的差的绝对值小于1的个数为X,求X的分布列与期望.
参考数据:
2.58 0.84 46.83 15.99
其中.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线的斜率和截距的最小二乘估计公式分别为.
参考数据:e2.196=8.99,e2,535=12.61,e2.874=17.71
23.某高科技公司对其产品研发年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表1和散点图.通过初步分析,求得年销售量y关于年投资额x的线性回归方程为.
表1 x12345y0.511.535.5
表2 x12345z=lny﹣0.700.41.11.7
(1)该公司科研团队通过进一步分析散点图的特征后,计划用y=ebx+a作为年销售量y关于年投资额x的非线性回归方程,请根据参考数据及表2的数据,求出此方程;
(2)若求得线性回归模型的相关系数,请根据参考数据,求出(1)中非线性回归模型的相关系数,并比较两种回归方程的拟合效果哪个更好?(精确到0.01)
参考数据:,;e﹣0.68≈0.54,e﹣0.09≈0.96,e0.50≈1.74,e1.09≈3.15,e1.68≈5.67;
参考公式:,,.
▉题型4 决定系数与模型的拟合效果
【知识点的认识】
﹣决定系数R2:衡量回归模型对数据的解释能力,取值范围在0到1之间,越接近1表示模型拟合效果越好.
【解题方法点拨】
﹣计算:通过回归模型的预测值与实际值计算决定系数,评估模型的解释力.
24.在一元线性回归模型中,设变量X和变量Y的样本相关系数为r1,决定系数为,变量U和变量V的样本相关系数为r2,决定系数为,且r1=0.778,r2=﹣0.962,则(  )
A.X和Y之间呈正线性相关关系,且
B.X和Y之间呈负线性相关关系,且
C.U和V之间呈负线性相关关系,且
D.U和V之间呈正线性相关关系,且
(多选)25.某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如下表所示:
编号 1 2 3 4 5 6 7 8 9 10
身高/cm 165 168 170 172 173 174 175 177 179 182
体重/kg 55 89 61 65 67 70 75 75 78 80
由表中数据制作成如图所示的散点图.
由最小二乘法计算得到经验回归直线l1的方程为,相关系数为r1,决定系数为;经过残差分析确定(168,89)为离群点(对应残差过大),把它去掉后,再用剩下的9组数据计算得到经验回归直线l2的方程为,相关系数为r2,决定系数为.则以下结论中正确的有(  )
A. B.
C.r1<r2 D.
26.变量x与y的成对样本数据的散点图如图所示,若用拟合成对数据,其决定系数记为R12;若用bx+a拟合成对数据,其决定系数记为R22.则R12与R22大小关系为 .(由大到小)第8章第2节 一元线性回归分析
题型1 最小二乘法 题型2 经验回归方程与经验回归直线
题型3 非线性回归模型 题型4 决定系数与模型的拟合效果
▉题型1 最小二乘法
【知识点的认识】
最小二乘法(又称最小平方法)是一种数学优化技术.它通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.最小二乘法还可用于曲线拟合.其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达.
【解题方法点拨】
例:关于x与y有如表数据:
请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程为 y=0.7x+0.35  .
解:∵由题意知 ,

∴0.7
∴要求的线性回归方程是y=0.7x+0.35,
故答案为:y=0.7x+0.35.
集体步骤就是先做出x,y的平均数,代入 的公式,利用最小二乘法做出线性回归直线的方程的系数,写出回归直线的方程,得到结果.
1.用最小二乘法得到一组数据(xi,yi)(i=1,2,3,4,5)的线性回归方程为2x+3,若xi=25,则yi等于(  )
A.11 B.13 C.53 D.65
【答案】D
【解答】解:∵xi=25,∴5,
代入2x+3,可得13,
∴yi=65.
故选:D.
▉题型2 经验回归方程与经验回归直线
【知识点的认识】
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛.分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围.因此,可以认为关于的回归函数的类型为线性函数.
【解题方法点拨】
例:对于线性回归方程,则
解:,因为回归直线必过样本中心(),
所以.
故答案为:58.5.
方法就是根据线性回归直线必过样本中心(),求出,代入即可求.这里面可以看出线性规划这类题解题方法比较套路化,需要熟记公式.
2.已知下列说法:
①对于经验回归方程,变量增加一个单位时,平均增加3个单位;
②甲、乙两个模型的R2分别为0.98和0.80,则模型甲的拟合效果更好;
③对分类变量X与Y,随机变量χ2越大,则判断“X与Y有关系”的把握程度越大;
④两个随机变量的线性相关性越强,则相关系数就越接近1.
其中说法错误的个数为(  )
A.1 B.2 C.3 D.4
【答案】B
【解答】解:对于①,对于经验回归方程,变量增加一个单位时,平均减少5个单位,故①错误;
对于②,由相关指数R2的性质可知,R2值较大,模型拟合效果越好,
甲、乙两个模型的R2分别为0.98和0.80,由甲模型的R2值较大,故模型甲的拟合效果更好,故②正确;
对于③,对分类变量X与Y,随机变量χ2越大,变量的相关性越强,则判断“X与Y有关系”的把握程度越大,故③正确;
对于④,两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1,故④错误.
所以错误的共有2个.
故选:B.
3.为了解某地区某种水果的年产量x(单位:吨)对价格y(单位:万元/吨)的影响,对近五年该水果的年产量和价格统计如表:
x 300 350 400 450 500
y 1.8 1.7 1.5 1.4 1.1
若y关于x的回归直线方程为,则(  )
A.2.82 B.2.86 C.2.88 D.2.92
【答案】B
【解答】解:,,
故,解得.
故选:B.
4.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中.已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为(30,m),若该数据的残差为0.6,则m=(  )
色差x 21 23 25 27
色度y 15 18 19 20
A.23.4 B.23.6 C.23.8 D.24.0
【答案】A
【解答】解:,,
则样本点的中心的坐标为(24,18),代入,
得,可得.
∴,当x=30时,,
可得m=22.8+0.6=23.4.
故选:A.
5.某种植基地统计出花卉种植面积y与年份x的数据如下:
x 1 2 3 4 5
y 5 7 9 10 14
根据如表数据得到y关于x的线性回归方程为,则第6年的花卉种植面积约为(  )
A.17 B.16 C.15.3 D.15
【答案】C
【解答】解:由表中数据得3,9,
又线性回归方程为过(3,9),
即9=2.1×3,解得2.7,
故y关于x的线性回归方程为2.1x+2.7,
则第6年的花卉种植面积约为2.1×6+2.7=15.3.
故选:C.
6.某公司近几年投入A款产品的年研发费用x与年利润y的统计数据如表:
年研发费用x 5 4 6 3 4 2
年利润y 12 10 13 9 11 5
若y与x的回归直线方程为,则(  )
A.2.1 B.2.2 C.2.3 D.2.4
【答案】D
【解答】解:由表可知,,,
则样本中心点为(4,10),代入回归直线方程,
得:,解得.
故选:D.
7.已知变量x,y线性相关,其一组样本数据(xi,yi)(i=1,2,…,9),满足,用最小二乘法得到的经验回归方程为2x﹣1.若增加一个数据(﹣3,3)后,得到修正后的回归直线的斜率为2.1,则数据(4,8)的残差的绝对值为(  )
A.0.1 B.0.2 C.0.3 D.0.4
【答案】A
【解答】解:因为,
所以,
因为经验回归方程2x﹣1过中心点(,),
所以,
增加数据(﹣3,3)后,,,且回归直线为y=2.1x+b,
所以6=2.1×3+b b=﹣0.3,
则y=2.1x﹣0.3,
所以x=4,有y=2.1×4﹣0.3=8.1,
故残差的绝对值为|8﹣8.1|=0.1.
故选:A.
8.观测两相关变量得如下数据:则两变量间的回归直线方程为(  )
X ﹣1 ﹣2 ﹣3 ﹣4 ﹣5
Y ﹣9 ﹣7 ﹣5 ﹣3 ﹣1
A. B. C. D.
【答案】B
【解答】解:由题意可知,,,
所以样本中心点为(﹣3,﹣5),
而线性回归方程必过样本中心点(﹣3,﹣5),代入选项中检验B正确.
故选:B.
9.已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为x+10.3,则的值为(  )
x 6 8 9 10 12
y 6 5 4 3 2
A.﹣0.6 B.﹣0.7 C.﹣0.8 D.﹣0.9
【答案】B
【解答】解:由表可知:,,
因为样本中心点必在线性回归方程x+10.3上,
所以4=9b+10.3,
解得b=﹣0.7.
故选:B.
(多选)10.下列说法正确的是(  )
A.两个变量的线性相关性越强,则相关系数r越大
B.若随机变量ξ,η满足η=2ξ+1,则D(η)=4D(ξ)
C.若随机变量X服从正态分布N(3,σ2),且P(X≤4)=0.7,则P(3<x<4)=0.2
D.已知一系列样本点的一个经验回归方程为,若样本点(m,3)与(2,n)的残差相等,则3m+n=9
【答案】BCD
【解答】解:对于A,两个变量的线性相关性越强,|r|越大,故A错误;
对于B,由方差的性质可得D(η)=22D(ξ)=4D(ξ),故B正确;
对于C,若随机变量X服从正态分布N(3,σ2),且P(X≤4)=0.7,
则P(X>4)=1﹣P(X≤4)=0.3,则P(3<X<4)=0.5﹣P(X>4)=0.2,故C正确;
对于D,经验回归方程,若样本点(m,3)与(2,n)的残差相等,
则,可得3m+n=9,故D正确.
故选:BCD.
(多选)11.已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,则下列说法正确的是(  )
x 6 8 10 12
y 6 m 3 2
A.变量x,y之间呈现负相关关系
B.m=4
C.可以预测,当x=11时,y约为2.6
D.由表格数据知,该回归直线必过点(9,4)
【答案】ACD
【解答】解:对于A,由得:0.7,故x,y呈负相关关系,A正确;
对于B,(6+8+10+12)=9,(6+m+3+2),
∴0.7×9+10.3,解得m=5,B错误;
对于C,当x=11时,y=﹣0.7×11+10.3=2.6,C正确;
对于D,由m=5知4,回归直线必过点(,),即必过点(9,4),D正确.
故选:ACD.
(多选)12.为调研加工零件效率,调研员通过试验获得加工零件个数x与所用时间y(单位:min)的5组数据为:(1,5),(2,9),(3,12),(4,15),(5,19),根据以上数据可得经验回归方程为:,则下列选项正确的有(  )
A.
B.回归直线必过点(2,9)
C.加工6个零件的时间大约为22.2min
D.若去掉(3,12),剩下4组数据的经验回归方程不会有变化
【答案】ACD
【解答】解:,,
所以恒过(3,12),所以,
解得:,故A正确;
当x=2时,,故B错误;
由,令x=6,则,
故加工6个零件的时间大约为22.2min,故C正确;
因为恒过(3,12),所以剩下4组数据的经验回归方程不会有变化,故D正确.
故选:ACD.
(多选)13.一组样本数据(xi,yi)(i=1,2,3,…,100),其中xi>1895,,,求得其经验回归方程为:,残差为.对样本数据进行处理:xi′=ln(xi﹣1895),得到新的数据(xi′,yi),求得其经验回归方程为:,其残差为.,分布如图所示,且~N(0,),,则(  )
A.样本(xi,yi)负相关
B.
C.
D.处理后的决定系数变大
【答案】AD
【解答】解:由经验回归方程的斜率可知样本(x1,y1)负相关,故A正确;
由已知可得2×103,9.7,
又经验回归方程过样本中心(,),
所以9.7=﹣0.02×2×103,
解得49.7,故B选项错误;
由已知的与分布图可知:的集中度更高、拟合度更好,
所以更小,其决定系数更大,故C错误、D正确.
故选:AD.
(多选)14.下列说法正确的有(  )
A.某学生8次考试的数学成绩分别为:109,101,141,108,120,132,135,141,则这8次数学成绩的上四分位数为135
B.对于事件A,B,若A B,且P(A)=0.3,P(B)=0.6,则P(B|A)=1
C.两组样本数据x1,x2,x3,x4和y1,y2,y3,y4的平均数分别为,若已知xi+yi=10(i=1,2,3,4),则
D.已知变量x,y的n对样本数据(x1,y1),(x2,y2), ,(xn,yn),n∈N*,变量x,y的线性回归方程为y=0.3x﹣m(m∈R),若2.8,则m=4
【答案】CD
【解答】解:对A选项,将该学生的8次考试的数学成绩按从小到大的顺序排列为:
101,108,109,120,132,135,141,141,又0.75×8=6,
所以这8次数学成绩的上四分位数为138,所以A选项错误;
对B选项,因为A B,且P(A)=0.3,P(B)=0.6,
所以P(B|A),所以B选项错误;
对C选项,因为两组样本数据x1,x2,x3,x4和y1,y2,y3,y4的平均数分别为,
若xi+yi=10(i=1,2,3,4),则10,所以C选项正确;
对D选项,因为x,y的线性回归方程为y=0.3x﹣m(m∈R),过样本点中心(,),
又2.8,
所以﹣2.8=0.3×4﹣m,解得m=4,所以D选项正确.
故选:CD.
15.一组互不相等的样本数据(x1,y1),(x2,y2),…,(x8,y8),其中,若在样本中加入数据(14,11)后,新样本数据的回归直线方程与原样本数据的相同,则这组样本数据的回归直线方程为 x﹣3  .
【答案】x﹣3.
【解答】解:由题意知,原数据的样本中心点为(5,2),新数据的样本中心点为(6,3),
设回归直线方程为x,
则,
解得1,3,
所以回归直线方程为x﹣3.
故答案为:x﹣3.
16.某工厂为研究某种产品的产量x(吨)与所需某种原材料的重量y(吨)的相关性,在生产过程中收集了6组对应数据(x,y),如下表所示.根据表中数据,得出y关于x的经验回归方程为x﹣0.8,则m= 6.2  .
x 2 3 4 5 6 7
y 1.5 2 3 4 5.5 m
【答案】6.2.
【解答】解:,
将代入方程,得,所以m=6.2.
故答案为:6.2.
17.华容道是古老的中国民间益智游戏,以其变化多端、百玩不厌的特点与魔方、独立钻石一起被国外智力专家并称为“智力游戏界的三个不可思议”.华容道游戏是通过移动各个棋子,帮助曹操从初始位置移到棋盘最下方中部,从出口逃走,不允许跨越棋子,还要设法用最少的步数把曹操移到出口.小华准备参加市里的华容道横刀立马项目大赛.赛前小华进行了15天的训练,经统计得30分钟的通关关数y(道)与训练天数x(天)有如下数据:
x(天) 3 6 9 12 15
y(道) 61 82 91 104 112
通过分析发现30分钟的通关关数y(道)与训练天数x(天)线性相关.
(1)求x与y的样本相关系数(结果四舍五入到0.001);
(2)①求30分钟的通关关数关于训练天数的经验回归方程x(的结果四舍五入到0.01);
②若小华准备按照这种方式继续训练15天,然后直接参加华容道横刀立马项目大赛,请估计小华结束训练时在30分钟内能通关多少道(结果四舍五入到个位)?
参考公式:样本相关系数,回归直线方程x中,,.
参考数据:,,,.
【答案】(1)0.984;
(2)①;②177道.
【解答】解:(1)因为,
所以;
(2)①,
所以,
所以y关于x的经验回归方程为,
即30分钟的通关关数关于训练天数的经验回归方程为;
②15天后,x=30,则,
所以预估小华结束训练时在30分钟内能通关177道.
▉题型3 非线性回归模型
【知识点的认识】
﹣非线性回归:用于数据与回归模型之间的关系不是线性的情况,例如多项式回归、指数回归等.
【解题方法点拨】
﹣建模:选择合适的非线性模型,根据数据特点建立回归方程.
﹣拟合:使用非线性回归方法估计模型参数.
18.用模型y=ln(kx+b)去拟合x与y的关系,令z=ey,得到z关于x的回归直线方程为z=3x+e,则b=(  )
A.1 B.2 C.e D.2e
【答案】C
【解答】解:由题意可得z=ey=eln(kx+b)=kx+b=3x+e,
所以b=e.
故选:C.
19.已知一组成对数据(xi,yi)(i=1,2,…,6)中y关于x的一元非线性回归方程y=bx2+1,已知,,,则b=(  )
A.3 B.1 C.﹣1 D.﹣3
【答案】B
【解答】解:∵,,
∴2,3,
则3=2b+1,
解得b=1.
故选:B.
20.新型冠状病毒引起的肺炎疫情暴发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示:
周数(x) 1 2 3 4 5
治愈人数(Y) 2 17 36 103 142
由表格可得Y关于x的非线性经验回归方程为,则此回归模型第5周的残差为(  )
A.0 B.2 C.3 D.﹣2
【答案】D
【解答】解:由表中数据可得,,,
Y关于x的非线性经验回归方程为,
则a=60﹣6×11=﹣6,
故Y关于x的非线性经验回归方程为,
当x=5时,144,
故此回归模型第5周的残差为142﹣144=﹣2.
故选:D.
21.红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图,现用两种模型①y=ebx+a,②y=cx2+d分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中zi=lnyi;;;
25 2.9 646 168 422688 50.4 70308
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)求出y关于x的回归方程.附:对于一组数据(ω1,v1),(ω2,v2),…(ωn,vn),其回归直线的斜率和截距的最小二乘估计分别为,,.
【答案】(1)模型①;
(2).
【解答】解:(1)模型①更合适,理由如下:
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,
故选模型①比较合适;
(2)令z=lny,则,
由所给的参考数据可得,,
所以,
因此z关于x的线性回归方程为,
即lny=0.3x﹣4.6,
所以产卵数y关于温度x的回归方程为.
22.MCN即多频道网络,是一种新的网红经济运行模式,这种模式将不同类型和内容的PGC(专业生产内容)联合起来,在资本有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现,在中国以直播电商、短视频为代表的新兴网红经济的崛起,使MCN机构的服务需求持续增长.数据显示,近年来中国MCN市场规模迅速扩大.下表为2018年﹣2022年中国MCN市场规模(单位:百亿元),其中2018年﹣2022年对应的代码依次为1﹣5.
年份代码x 1 2 3 4 5
中国MCN市场规模y 1.12 1.68 2.45 3.35 4.32
(1)由上表数据可知,可用指数函数模型y=a bx拟合y与x的关系,
①建立y关于x的回归方程;
②预测2025年中国MCN市场规模(单位:百亿元):
(2)从2018年﹣2022年中国MCN市场规模中随机抽取3个数据,记这3个数据中与的差的绝对值小于1的个数为X,求X的分布列与期望.
参考数据:
2.58 0.84 46.83 15.99
其中.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线的斜率和截距的最小二乘估计公式分别为.
参考数据:e2.196=8.99,e2,535=12.61,e2.874=17.71
【答案】(1)①;②12.61;
(2)分布列见解析,.
【解答】解:(1)因为用指数函数模型y=a bx拟合y与x的关系,
所以lny=ln(a bx)=lna+xlnb,
设lny=v,所以v=lna+xlnb,则v=lna+xlnb,
因为,
所以,
又,,
所以将(3,0.84)代入,得lna=﹣0.177,
所以,则,
所以,
所以y关于x的回归方程为,
所以预测2025年中国MCN市场规模为e﹣0.177+0.339×8=e2.535=12.61(单位:百亿元);
(2)2018年﹣2022年中国MCN市场规模的5个数据中,与的差的绝对值小于1的数据有1.68,2.45,3.35,共3个,
所以X的可能取值为1,2,3,

所以X的分布列为:
X 1 2 3
P
所以.
23.某高科技公司对其产品研发年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表1和散点图.通过初步分析,求得年销售量y关于年投资额x的线性回归方程为.
表1 x12345y0.511.535.5
表2 x12345z=lny﹣0.700.41.11.7
(1)该公司科研团队通过进一步分析散点图的特征后,计划用y=ebx+a作为年销售量y关于年投资额x的非线性回归方程,请根据参考数据及表2的数据,求出此方程;
(2)若求得线性回归模型的相关系数,请根据参考数据,求出(1)中非线性回归模型的相关系数,并比较两种回归方程的拟合效果哪个更好?(精确到0.01)
参考数据:,;e﹣0.68≈0.54,e﹣0.09≈0.96,e0.50≈1.74,e1.09≈3.15,e1.68≈5.67;
参考公式:,,.
【答案】(1)y=e0.59x﹣1.27;
(2)0.99,非线性回归方程拟合效果更好.
【解答】解:(1)由y=ebx+a,则lny=bx+a,记z=lny,即z=bx+a,
,,
,,
所以z=lny=0.59x﹣1.27,即非线性回归方程为y=e0.59x﹣1.27.
(2)由(1)可得:y=e0.59x﹣1.27,
x 1 2 3 4 5
y 0.5 1 1.5 3 5.5
0.54 0.96 1.74 3.15 5.67

显然,故非线性回归方程拟合效果更好.
▉题型4 决定系数与模型的拟合效果
【知识点的认识】
﹣决定系数R2:衡量回归模型对数据的解释能力,取值范围在0到1之间,越接近1表示模型拟合效果越好.
【解题方法点拨】
﹣计算:通过回归模型的预测值与实际值计算决定系数,评估模型的解释力.
24.在一元线性回归模型中,设变量X和变量Y的样本相关系数为r1,决定系数为,变量U和变量V的样本相关系数为r2,决定系数为,且r1=0.778,r2=﹣0.962,则(  )
A.X和Y之间呈正线性相关关系,且
B.X和Y之间呈负线性相关关系,且
C.U和V之间呈负线性相关关系,且
D.U和V之间呈正线性相关关系,且
【答案】A
【解答】解:因为r1>0,r2<0,故X和Y之间呈正线性相关关系,U和V之间呈负线性相关关系,
故BD错误,
而|r1|<|r2|,故,故A正确,C错误.
故选:A.
(多选)25.某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如下表所示:
编号 1 2 3 4 5 6 7 8 9 10
身高/cm 165 168 170 172 173 174 175 177 179 182
体重/kg 55 89 61 65 67 70 75 75 78 80
由表中数据制作成如图所示的散点图.
由最小二乘法计算得到经验回归直线l1的方程为,相关系数为r1,决定系数为;经过残差分析确定(168,89)为离群点(对应残差过大),把它去掉后,再用剩下的9组数据计算得到经验回归直线l2的方程为,相关系数为r2,决定系数为.则以下结论中正确的有(  )
A. B.
C.r1<r2 D.
【答案】AC
【解答】解:身高的平均数为,
因为离群点(168,89)的横坐标168小于平均值173.5,纵坐标89相对过大,
所以去掉离群点后经验回归直线的截距变小而斜率变大,
所以,,所以A正确,B错误;
去掉离群点后成对样本数据的线性相关程度更强,拟合效果会更好,
所以,所以C正确,D错误.
故选:AC.
26.变量x与y的成对样本数据的散点图如图所示,若用拟合成对数据,其决定系数记为R12;若用bx+a拟合成对数据,其决定系数记为R22.则R12与R22大小关系为 R12>R22 .(由大到小)
【答案】R12>R22.
【解答】解:由散点图的整体形状可知,
利用拟合比利用bx+a拟合效果要好,
故R12>R22,
故答案为:R12>R22.

展开更多......

收起↑

资源列表