4.2 一元线性回归模型 课件+练习-《精讲精练》26版高中同步新教材数学湘教版(2019)选择性必修第二册

资源下载
  1. 二一教育资源

4.2 一元线性回归模型 课件+练习-《精讲精练》26版高中同步新教材数学湘教版(2019)选择性必修第二册

资源简介

(共15张PPT)
1.回归直线与回归直线方程
我们常常用一条直线来反映所给出的散点图的分布趋势,找出与散点图中各点散
布趋势相似的直线,使各点经过或充分靠近该直线,这样所得到的直线就可以比
较科学地反映实际问题中两个变量之间的相关关系.这条直线叫作回归直线,这
条直线的方程叫作回归直线方程.
2.回归分析
(1)由散点图求出回归直线并进行统计推断的过程叫作回归分析.
(2)在回归分析中,被预测或被解释的变量称为因变量,用y表示.用来预测或解释因变量的变量称为自变量,用x表示.
4.2 一元线性回归模型
1 | 回归直线方程
1.一元线性回归方程
如果具有相关关系的两个变量x,y可用方程y=a+bx来近似刻画,则称此式为y关于x的一元线性回归方程,其中a,b称为回归系数.
由于我们是利用样本数据(一组观测值)去估计总体的回归直线方程,因此我们在a,b,y的上方加记号“ ”以区别实际的a,b,y,此时得到估计的回归直线方程形式为 = + x,它是根据样本数据求出的回归方程的估计.
2.一元线性回归模型
(1)当自变量x取值xi(i=1,2,…,n)时,我们将根据回归直线方程估计出的 与实际观
测值yi的误差,即yi- =yi-( + xi)(i=1,2,…,n),称为随机误差,记作ei.
(2)我们把yi= + xi+ei(i=1,2,…,n)这一描述因变量y如何依赖于自变量x和随机误
差ei的方程称为一元线性回归模型.
2 | 一元线性回归模型
3.最小二乘法
(1)用随机误差的平方和即Q= 作为总随机误差来刻画各估计值与实
际值之间的误差.若总随机误差最小,则这条直线就是所要求的回归直线.由于平
方又叫二乘方,所以这种使“随机误差平方和最小”的方法叫作最小二乘法.
(2)( , )称为样本中心,回归直线一定过样本中心.
(3) 此
时,用最小二乘法得到的回归直线方程为 = + x,其中 是回归直线在y轴上的截
距, 是回归直线的斜率.
一般地,运用一元线性回归模型思想解决实际问题的基本步骤如下:
(1)确定研究对象,明确哪个变量是因变量,哪个变量是自变量;
(2)运用相关系数的计算公式,分析自变量与因变量之间的关系;
(3)运用最小二乘原理估计一元线性回归方程的系数,建立一元线性回归方程;
(4)根据一元线性回归方程进行预测.知识拓展 研究两个变量的关系时,依据样本画出散点图,从整体上看,如果样本点没有分布在一条直线附近,就称这两个变量之间不具有线性相关关系.当两个变量不具有线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用一元线性回归模型建立两个变量间的非线性回归方程.常见的非线性回归方程的转换方式如下:
3 | 一元线性回归模型的应用
曲线方程 曲线(曲线的一部分) 变换公式 变换后的
线性函数
y=axb c=ln a, v=ln x, u=ln y u=c+bv
y=aebx c=ln a, u=ln y u=c+bx
y=a c=ln a, v= , u=ln y u=c+bv
y=a+bln x v=ln x y=a+bv
1.在一元线性回归模型中,变量y由变量x唯一确定吗
不是.变量y的值由x和随机误差e共同确定,即自变量x只能解释部分y的变化.
2.在回归分析中,利用回归直线方程求出的函数值一定是真实值吗
不一定.利用回归直线方程求出的值只是预报值.
3.对于散点图中的点没有均匀分布在某条直线附近或毫无规则可言的两个变量,
用最小二乘法能求出对应的回归直线方程吗
能.但求得的回归直线方程并不能反映两个变量间的关系.
知识辨析
1.回归直线方程中系数的两种求法
(1)公式法:利用公式求出回归系数 , .
(2)待定系数法:利用回归直线必过样本中心( , )求回归系数 , .
2.回归分析的两种题型及解题策略
(1)利用回归直线方程进行预测:把回归直线方程看作一次函数的解析式,求函数值.
(2)利用回归直线判断正、负相关:决定两个变量是正相关关系还是负相关关系
的是回归系数 .
1回归直线方程的求解与应用
典例 某地随着经济的发展,农民收入逐年增长,下表是该地一农商银行连续五
年的储蓄存款(年底余额):
为了研究时计算方便,工作人员将上表的数据进行了处理,令t=x-2 016,z=y-6,得到
下表:
年份x 2017 2018 2019 2020 2021
储蓄存款y(百亿元) 6 7.5 8 9.5 11
时间代号t 1 2 3 4 5
z 0 1.5 2 3.5 5
(1)求z关于t的回归直线方程 = t+ ;
(2)通过(1)中的方程,求出y关于x的回归直线方程;
(3)用所求回归方程预测到2024年年底,该农商银行的储蓄存款可达多少.
附:对于回归直线方程 = x+ ,其系数 = , = - .
解析 (1)依题意,得 =3, = ,
所以 =
=
= = ,
= - = - ×3=- ,
所以z关于t的回归直线方程为 = t- .
所以 -6= (x-2 016)- ,
整理得 = x- ,
即y关于x的回归直线方程为 = x- .
(3)当x=2 024时, = =14.4,
因此,预测到2024年年底,该农商银行的储蓄存款可达14.4百亿元.
(2)由(1)可知 = t- ,
因为t=x-2 016,z=y-6,
建立非线性回归模型的基本步骤
(1)确定研究对象,明确涉及的变量;
(2)画出确定好的变量间的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选
用反比例函数型、指数函数型、对数函数型模型等);
(4)通过换元,将非线性回归模型转化为一元线性回归模型;
(5)按照公式计算回归直线方程中的参数,得到回归直线方程;
(6)消去新元,得到非线性回归方程.
2 非线性回归分析
典例 某电器企业统计了近10年的年利润额y(千万元)与投入的年广告费用x
(十万元)的相关数据,得到散点图如图,对数据做出如下处理:令ui=ln xi,vi=ln yi,得
到相关数据如表所示:
uivi ui vi
30.5 15 15 46.5
(1)从①y=bx+a;②y=m·xk(m>0,k>0);③y=cx2+dx+e(c≠0)中选择一个作为年利润额y
关于年广告费用x的回归方程模型,不必说明理由;
(2)根据(1)中选择的回归方程模型,求出y关于x的回归方程;
(3)要使年利润额突破1亿,预计下一年应至少投入多少广告费用.(结果保留到万元)
参考数据: ≈3.678 8,3.678 83≈49.787.
参考公式:在回归直线方程 = u+ 中, = = - .
思路点拨 (1)根据题中散点图确定回归方程模型.
(2)对y=m·xk两边同时取自然对数,利用最小二乘法求k,m,由此得到回归方程.
(3)令y=e >10,解出x的范围,进而确定结果.
解析 (1)由题中散点图知,年利润额y关于年广告费用x的回归方程模型并不是直
线型的,而是曲线型的,所以选择回归方程模型y=m·xk(m>0,k>0)更好.
(2)对y=m·xk两边同时取自然对数,得ln y=kln x+ln m,即v=ku+ln m.
由题表中数据得 = = = ,ln = - =1.5- ×1.5=1,
∴ =e,
∴年利润额y关于年广告费用x的回归方程为y=e .
(3)由(2)知y=e .
令y=e >10,得 > ,即 >3.678 8,
∴x>3.678 83≈49.787,∴x≈49.8(十万元),又∵49.8十万元=498万元,
∴预计下一年应至少投入498万元广告费用.第4章 统计
4.2 一元线性回归模型
4.2.1 回归直线方程
4.2.2 一元线性回归模型的应用
                
题组一 回归直线方程及其应用
1.(多选)关于回归分析,下列说法正确的是(  )
A.回归分析是研究两个具有相关关系的变量的方法
B.运用最小二乘法求得的回归直线一定经过样本中心(,)
C.回归模型中一定存在随机误差
D.散点图能明确反映变量间的关系
2.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批该产品,测得如下数据:
色差x 21 23 25 27 29 31
色度y 15 16 17 21 22 23
已知该产品的色差和色度之间满足线性相关关系,且=0.25x+,现有一对测量数据(32,21.25),则该组数据的随机误差为(  )
A.0.65 B.0.75 C.-0.75 D.0.95
3.(多选)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归直线方程为=0.85x-85.71,则下列结论中正确的是(  )
A.y与x具有正的线性相关关系
B.若该大学女生的平均身高为168 cm,则平均体重约为57.09 kg
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
4.若根据5名儿童的年龄x(岁)和体重y(kg)的数据用最小二乘法得到体重关于年龄的回归直线方程是=2x+18,已知这5名儿童的年龄(岁)分别是3,5,2,6,4,则这5名儿童的平均体重是    kg.
5.为保护生态环境,某地区从2016年开始大力推出新能源汽车,每年抽取1 000辆汽车进行调查.下表所示的是2016年至2020年抽取的1 000辆汽车中新能源汽车的辆数y与年份代码x的相关数据:
年份 2016 2017 2018 2019 2020
年份代码x 1 2 3 4 5
新能源汽 车辆数y 30 50 70 100 110
(1)建立y关于x的回归直线方程;
(2)假设该地区2022年共有30万辆汽车,用样本估计总体,估计该地区2022年有多少辆新能源汽车.
参考公式:回归直线方程=x+中,=
6.某科技公司研发了一项新产品A,经过市场调研,对公司1月份至6月份间该产品的销售量及销售单价进行统计,销售单价x(千元)和销售量y(千件)之间的一组数据如下表所示:
月份i 1 2 3 4 5 6
销售 单价xi 9 9.5 10 10.5 11 8
销售 量yi 11 10 8 6 5 15
(1)试根据1至5月份的数据,建立y关于x的回归直线方程;
(2)用6月份的数据进行检验,若由回归直线方程得到的估计数据与实际数据的误差的绝对值不超过0.65,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想
参考公式:回归直线方程=x+中,=
题组二 非线性回归分析
7.某种微生物的繁殖速度y与生长环境中营养物质的浓度x相关,在一定条件下可用回归模型y=2lg x进行拟合.在这个条件下,要使y增加2个单位,则应该使x(  )
A.增加1个单位
B.增加2个单位
C.增加到原来的2倍
D.增加到原来的10倍
8.用模型y=cekx拟合一组数据时,为了求出回归方程,令z=ln y,变换后得到线性回归方程=2x+0.5,则c=    .
9.某工厂每日生产一种产品x(x≥1)吨,每日生产的该产品当日销售完毕,日销售额为y万元,产品价格随着产量的变化而变化,经过一段时间的产销,得到了x,y的一组统计数据,如下表:
日产量 x(吨) 1 2 3 4 5
日销售额 y(万元) 5 12 16 19 21
(1)请判断y=bx+a与y=dln x+c中哪个模型更适合刻画x,y之间的关系,并从函数增长趋势方面给出简单的理由;
(2)根据你的判断及下面的公式和数据,求出y关于x的回归方程,并估计当日产量为6吨时,日销售额是多少.(结果保留整数)
参考公式:回归直线方程=x+中,=
参考数据:≈0.96,5ln 1+12ln 2+16ln 3+19ln 4+21ln 5≈86,ln 6≈1.8,(ln 1)2+(ln 2)2+(ln 3)2+(ln 4)2+(ln 5)2≈6.2.
10.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金,现该企业为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间共10年的年研发资金投入额xi和年盈利额yi的数据.通过对比分析,建立了两个函数模型:①y=α+βx2;②y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数.令ui=,vi=ln yi(i=1,2,…,10),经计算得如下数据:
26 215 65
2 680 5.36
(ui-)(yi-)
11 250 130
(xi-)(vi-)
2.6 12
(1)请从相关系数的角度分析哪一个模型的拟合程度更好;
(2)根据(1)的选择及表中数据,建立y关于x的回归方程(回归系数精确到0.01).
附:相关系数rxy=.
能力提升练
                
题组一 回归直线方程及其应用
1.下图是某地区2010年至2019年污染天数y与年份x的折线图,根据2010年至2014年的数据,2015年至2019年的数据,2010年至2019年的数据分别得到回归直线方程=x+,=x+,=x+,则(  )
A.<<,<<
B.<<,<<
C.<<,<<
D.<<,<<
2.(多选)某企业实施节能降耗技术改造,在生产某产品的过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据如表,现发现表中有个数据看不清,已知y关于x的回归直线方程为=6x+8,则下列说法正确的是(  )
x 2 3 4 5 6
y 19 25 38 44
A.看不清的数据“ ”的值为34
B.x,y具有正相关关系,相关系数r=6
C.第三个样本点对应的随机误差e3=2
D.据此模型,产量为7吨时,相应的生产能耗约为50吨
3.某机构统计了某市5个地区的外来务工人员数与他们选择留在当地过年的人数占比,得到如下的表格:
A区 B区 C区 D区 E区
外来务工 人员数 5 000 4 000 3 500 3 000 2 500
留在当地 过年的人 数占比 80% 90% 80% 80% 84%
根据这5个地区的数据求得留在当地过年人数y与外来务工人员数x的回归直线方程为=0.813 5x+.该市对外来务工人员中选择留在当地过年的人员每人补贴1 000元,该市F区有10 000名外来务工人员,根据回归直线方程估计F区需要给外来务工人员中选择留在当地过年的人员的补贴总额为    万元.(参考数据:0.813 5×36≈29.29)
4.某商场对A商品近30天的销售情况进行整理,得到如下数据,经统计分析,日销售量y(件)与时间t(天)之间具有线性相关关系.
时间t(天) 2 4 6 8 10
日销售量y(件) 38 37 32 33 30
(1)请根据表格提供的数据,用最小二乘法原理求出y关于t的回归直线方程=t+;
(2)已知A商品近30天内的日销售价格z(元)与时间t(天)的关系式为z=(t∈N).根据(1)中求出的回归直线方程,预测t为何值时,A商品的日销售额最大.
参考公式:回归直线方程=t+中,=,=-.
5.垃圾是人类日常生活和生产中产生的废弃物,由于产出量大,成分复杂多样,且具有污染性,所以需要进行无害化、减量化处理.某市为调查该市各地产生的垃圾数量,采用简单随机抽样的方法抽取了20个县城进行分析,得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个县城的人口(单位:万人)和该县年垃圾产生总量(单位:万吨),并计算得xi=80,yi=4 000,(xi-)2=80,(yi-)2=8 000,(xi-)(yi-)=700.
(1)请用相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行拟合(若|rxy|>0.8,则认为y与x之间高度相关,可用一元线性回归模型拟合它们的关系);
(2)求y关于x的回归直线方程;
(3)某科研机构研发了两款垃圾处理机器,其中甲款机器每台售价100万元,乙款机器每台售价80万元,下表是以往两款垃圾处理机器的使用年限统计表:
使用年限 总计
1年 2年 3年 4年
甲款台数 5 20 15 10 50
乙款台数 15 20 10 5 50
根据以往经验可知,某县城环保机构每年可获得政府补贴的垃圾处理费用为50万元.仅考虑购买机器的成本和每台机器的使用年限(使用年限均为整年),若该机构计划购买其中一款垃圾处理机器,以使用年限的频率估计概率,该机构选择购买哪一款垃圾处理机器更划算
参考公式:相关系数rxy=.
在回归直线方程=x+中,=,=-.
题组二 非线性回归分析
6.某保险公司根据官方公布的2011—2020年的营业收入,制成表格如下:
表1
年份 2011 2012 2013 2014 2015
年份 序号x 1 2 3 4 5
营业 收入y (亿元) 0.52 9.36 33.6 132 352
年份 2016 2017 2018 2019 2020
年份 序号x 6 7 8 9 10
营业 收入y (亿元) 571 912 1 207 1 682 2 135
由表1,得到下面的散点图:
根据已有的函数知识,某同学选用二次函数模型y=bx2+a(b和a均为常数)来拟合y和x的关系.这时,可以令t=x2,得y=bt+a,由表1可得t与y的相关数据如表2.
表2
t 1 4 9 16 25
y 0.52 9.36 33.6 132 352
t 36 49 64 81 100
y 571 912 1 207 1 682 2 135
(1)根据表2中数据,建立y关于t的回归直线方程(系数精确到个位数);
(2)根据(1)中得到的回归直线方程估计2023年的营业收入以及营业收入首次超过4 000亿元的年份.
参考公式:回归直线方程=u+中,=,=-.
参考数据:=38.5,≈703.45,≈1.051×104,(ti-)(yi-)≈2.327×105.
答案与分层梯度式解析
第4章 统计
4.2 一元线性回归模型
4.2.1 回归直线方程
4.2.2 一元线性回归模型的应用
基础过关练
1.ABC 
2.B 由题意得==26,
==19,
故样本中心为(26,19),将(26,19)代入回归直线方程得=12.5,所以=0.25x+12.5,
把x=32代入,得=20.5,故随机误差为21.25-20.5=0.75.故选B.
方法总结
  回归直线不一定过样本点,但一定过样本中心(,),常利用这一结论列方程求回归直线方程中的系数.
3.ABC ∵0.85>0,∴y与x具有正的线性相关关系,A正确;把x=168代入回归直线方程得=57.09,故B正确;设当身高增加1 cm时,对应的体重的估计值为' kg,则'-=0.85(x+1)-85.71-0.85x+85.71=0.85,C正确;当x=170时,=0.85×170-85.71=58.79,故体重的估计值为58.79 kg,D错误.故选ABC.
4.答案 26
解析 由题意得==4,
由于回归直线必过样本中心(,),所以=2+18=2×4+18=26,
故这5名儿童的平均体重是26 kg.
5.解析 (1)由题表中数据可得==3,
==72,
故=
==21,
=-=72-21×3=9,
所以=21x+9.
(2)当x=7时,=21×7+9=156,所以估计该地区2022年共有新能源汽车300 000×=46 800(辆).
6.解析 (1)易得=×(9+9.5+10+10.5+11)=10,=×(11+10+8+6+5)=8,
所以===-3.2,
=-=8-(-3.2)×10=40,
所以y关于x的回归直线方程为=-3.2x+40.
(2)当x=8时,=-3.2×8+40=14.4,
则|-y6|=|14.4-15|=0.6<0.65,
故可以认为(1)中所得到的回归直线方程是理想的.
7.D 设y的增加量为Δy=y2-y1,x的增加量为Δx=x2-x1,可得Δy=2lg x2-2lg x1=2lg =2,解得=10,故要使得y增加2个单位,x应增加到原来的10倍.
8.答案 
解析  由z=ln y,得ln =2x+0.5,所以=e2x+0.5=e0.5·e2x,所以c=e0.5=.
9.解析 (1)y=dln x+c更适合刻画x,y之间的关系.理由:由题表中的数据可知,x的值每增加1,函数值y的增加量分别为7,4,3,2,增加得越来越缓慢,符合对数函数型模型的增长规律,与一元线性回归模型的均匀增长存在较大差异,故y=dln x+c更适合刻画x,y之间的关系.
(2)令z=ln x,由题意得===14.6,所以=≈=10,=-=14.6-10×0.96=5,所以y关于z的回归直线方程为=10z+5,所以y关于x的回归方程为=10ln x+5.
当x=6时,日销售额为10ln 6+5≈23(万元).
10.解析 (1)若选择模型①y=α+βx2,由题意知ui=,
则y与u的相关系数ruy=
=≈0.87.
若选择模型②y=eλx+t,由题意知vi=ln yi,
则v与x的相关系数rxv=
==≈0.92,
因为0.87<0.92,所以从相关系数的角度分析,模型y=eλx+t的拟合程度更好.
(2)由y=eλx+t得ln y=λx+t,即v=λx+t.
==≈0.18,=-=5.36-×26=0.56,
故v关于x的回归直线方程为=0.18x+0.56,
故ln =0.18x+0.56,即=e0.18x+0.56,
故y关于x的回归方程为=e0.18x+0.56.
能力提升练
1.C 由题中统计图可知2010年至2014年,y随着x的增加平缓下降,2015年至2019年,y随着x的增加迅速下降,根据回归直线方程=x+中,的几何意义可知,>,<<0,由题图中点的分布可知,∈(,),∈(,),所以<<,<<.故选C.
2.ACD 对于A,易得==4,由回归直线必过样本中心(,),得=6+8=32,则“ ”=32×5-(19+25+38+44)=34,A正确;
对于B,由回归直线方程及题表中数据知,x,y具有正相关关系,但相关系数的绝对值不超过1,B错误;
对于C,第三个样本点对应的随机误差e3=y3-=34-(6×4+8)=2,C正确;
对于D,x=7时,=6×7+8=50(吨),D正确.故选ACD.
3.答案 818.6
解析 由题意得,
==3 600,
=×(5 000×0.8+4 000×0.9+3 500×0.8+3 000×0.8+2 500×0.84)=2 980,
因为回归直线一定过样本中心(,),所以2 980=0.813 5×3 600+,解得≈51,即=0.813 5x+51.
当x=10 000时,=0.813 5×10 000+51=8 186,
所以估计补贴总额为8 186×0.1=818.6(万元).
4.解析 (1)根据题意得=×(2+4+6+8+10)=6,
=×(38+37+32+33+30)=34,
=22+42+62+82+102=220,
tiyi=2×38+4×37+6×32+8×33+10×30=980,
所以===-1,
=-=34-(-1)×6=40,
故y关于t的回归直线方程为=-t+40.
(2)设日销售额为L元,
则L=
当0当20≤t≤30,t∈N时,L=(-t+100)(-t+40)=t2-140t+4 000=(t-70)2-900,易知当t=20时,L取得最大值,且Lmax=1 600.
综上所述,当t=20时,Lmax=1 600,
所以估计t=20时,A商品的日销售额最大,为1 600元.
5.解析 (1)由题意知,相关系数rxy=
===0.875.
因为|0.875|>0.8,
所以y与x之间高度相关,可用一元线性回归模型进行拟合.
(2)由题意可得,===8.75,
=-=-8.75×=200-8.75×4=165,
所以=8.75x+165.
(3)设该机构购买一台甲款垃圾处理机器抵消政府补贴后的垃圾处理费用为X万元,则X的分布列为
X -50 0 50 100
P 0.1 0.4 0.3 0.2
则E(X)=-50×0.1+0×0.4+50×0.3+100×0.2=30.
设该机构购买一台乙款垃圾处理机器抵消政府补贴后的垃圾处理费用为Y万元,则Y的分布列为
Y -30 20 70 120
P 0.3 0.4 0.2 0.1
则E(Y)=-30×0.3+20×0.4+70×0.2+120×0.1=25.
因为E(X)>E(Y),所以该机构选择购买甲款垃圾处理机器更划算.
6.解析 (1)易得=≈≈22,=-≈703.45-22×38.5≈-144,
故y关于t的回归直线方程为=22t-144.
(2)2023年对应的t的值为169,故该年的营业收入为=22×169-144=3 574(亿元),
所以估计2023年的营业收入为3 574亿元.
依题意,有22t-144>4 000,解得t>188.4,即x2>188.4.
因为13<<14,
所以估计营业收入首次超过4 000亿元的年份序号为14,即2024年.

展开更多......

收起↑

资源列表