【数学总复习-考点精讲】RJA 第十章 第3讲 变量间的相关关系及回归模型 学案

资源下载
  1. 二一教育资源

【数学总复习-考点精讲】RJA 第十章 第3讲 变量间的相关关系及回归模型 学案

资源简介

中小学教育资源及组卷应用平台
第3讲 变量间的相关关系及回归模型
考向预测 核心素养
两个变量线性相关的判断及应用,经验回归方程的求法及应用是高考考查的热点,各种题型均会出现. 数据分析、数学运算
一、知识梳理
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)散点图
每一个成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们把这样的统计图叫做散点图.
(3)相关关系的分类:正相关和负相关.
(4)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关.
2.样本相关系数
(1)r=eq \f(\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)(yi-),\r(\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)2)\r(\o(∑,\s\up6(n),\s\do4(i=1)) (yi-)2)).
(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型参数的最小二乘估计
(1)我们将=x+称为Y关于x的经验回归方程,
其中eq \b\lc\{(\a\vs4\al\co1(\o(b,\s\up6(^))=\f(\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)(yi-),\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)2),,\o(a,\s\up6(^))=-\o(b,\s\up6(^)).))
(2)残差分析
①对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
②残差的散点图
比较均匀地集中在以横轴为对称轴的水平带状区域内,则满足一元线性回归模型对随机误差的假设.
在R2表达式中,(yi-)2与经验回归方程无关,残差平方和(yi-i)2与经验回归方程有关.因此R2越大,意味着残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.
[提醒] (1)经验回归直线过样本的中点(,).
(2)回归分析和独立性检验都是基于成对样本观测数据进行估计或推断 ,得出的结论都可能犯错误.
二、教材衍化
1.(人A选择性必修第三册P103习题8.1T1改编)下列四个散点图中,变量x与y之间具有负的线性相关关系的是(  )
2.(人A选择性必修第三册P138复习T1改编)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的经验回归方程可能是(  )
A.=0.4x+2.3   B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
3.(人A选择性必修第三册P120习题8.2T2(2)改编)已知x,y的对应取值如下表,可得到经验回归方程为=0.95x+,则=(  )
x 0 1 3 4
y 2.2 4.3 4.8 6.7
A.3.25   B.2.6
C.2.2   D.0
4.(人A选择性必修第三册P120习题8.2T2(2)改编)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得经验回归方程=0.67x+54.9.
零件数x/个 10 20 30 40 50
加工时间y/min 62 75 81 89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
参考答案
1解析:选D.观察题图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系,故选D.
2解析:选A.由题意,x与y正相关,故排除C,D,将(,)代入经验回归方程检验得A正确.
3解析:选B.经验回归直线过点(2,4.5),
所以4.5=0.95×2+,
所以=2.6.
4解析:由=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a,
则62+a+75+81+89=75×5,
所以a=68.
答案:68
一、思考辨析
判断正误(正确的打“√”,错误的打“×”)
(1)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系来表示.(  )
(2)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.(  )
(3)任何一组数据都对应着一个经验回归方程.(  )
二、易错纠偏
1.(回归模型意义不明致误)一位母亲记录了自己儿子3~9岁的身高数据(略),由此建立的身高与年龄的一元线性回归模型为=7.19x+73.93,用这个模型预报这个孩子10岁时的身高,则正确的叙述是(  )
A.身高一定是145.83 cm
B.身高在145.83 cm以上
C.身高在145.83 cm左右
D.身高在145.83 cm以下
2.(忽视经验回归直线过样本点中心致误)已知变量x和y的统计数据如下表:
x 3 4 5 6 7
y 2.5 3 4 4.5 6
根据上表可得经验回归方程为=x-0.25,据此可以预测当x=8时,=(  )
A.6.4   B.6.25
C.6.55   D.6.45
3.(决定系数的意义及应用不清致误)x和y的散点图如图所示,在相关关系中,若用y=c1ec2x拟合时的决定系数为R,用=x+拟合时的决定系数为R,则R,R中较大的是________.
参考答案
一、思考辨析
答案:(1)√ (2)× (3)×
二、易错纠偏
1解析:选C.由一元线性回归模型可得=7.19×10+73.93=145.83,所以预报这个孩子10岁时的身高在145.83 cm左右.
2解析:选C.由题中图表可知,=5,=4,因为经验回归方程经过样本的中心(,),则4=5-0.25,得=0.85,则经验回归方程为=0.85x-0.25,再将x=8代入方程,得=6.55.
2解析:由题图知,用y=c1ec2x拟合的效果比=x+拟合的效果要好,所以R>R,故较大者为R.
答案:R
考点一 成对数据的相关性判断(自主练透)
复习指导:通过收集现实问题中的成对数据作出散点图,并利用散点图直观认识变量间的相关关系.
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断(  )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是(  )
A.r2B.r4C.r4D.r23.某公司在2020年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:
月份 1月份 2月份 3月份 4月份 5月份 6月份
收入x 12.3 14.5 15.0 17.0 19.8 20.6
支出y 5.63 5.75 5.82 5.89 6.11 6.18
根据统计资料,则(  )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
参考答案
1解析:选C.由题图可得两组数据均线性相关,且图①的经验回归方程斜率为负,图②的经验回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
2解析:选A.由题图知图①与图③是正相关,故r1>0,r3>0,图②与图④是负相关,故r2<0,r4<0,
且图①与图②的样本点集中在一条直线附近,
因此r23解析:选C.月收入的中位数是=16,收入增加,支出增加,故x与y有正线性相关关系.
判定两个变量相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
考点二 一元线性回归模型(多维探究)
复习指导:经历用不同估算方法描述两个变量线性相关的过程,知道最小二乘法的思想,能根据给出的一元线性回归模型系数公式建立经验回归方程,并进一步了解回归的基本思想、方法及初步应用.
角度1 经验回归方程
(2022·贵州凯里第一中学高二期中)某市2017至2021年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份 2017 2018 2019 2020 2021
年份代号t 1 2 3 4 5
人均纯收入y 3.1 3.5 3.9 4.6 4.9
从表可以看出,人均纯收入y与年份代号t线性相关,已知iyi=64.70.
(1)求y关于t的经验回归方程=t+;
(2)预测2025年的人均纯收入为多少.(附:参考公式:
【解】 (1)由题中表格知,n=5,=(1+2+3+4+5)=3,=(3.1+3.5+3.9+4.6+4.9)=4,
=12+22+32+42+52=55,
则===0.47,=-=4-0.47×3=2.59,
故经验回归方程为=0.47t+2.59.
(2)当年份为2025年时,对应的年份代码t=9,
所以=0.47×9+2.59=6.82,
故2025年的人均纯收入约为6.82千元.
角度2 相关系数
足球是世界普及率最高的运动,我国大力发展校园足球.为了解本地区足球特色学校的发展状况,社会调查小组得到如下统计数据:
年份x 2016 2017 2018 2019 2020
足球特色学校y(百个) 0.30 0.60 1.00 1.40 1.70
根据上表数据,计算y与x的相关系数r,并说明y与x的线性相关程度.
(已知:0.75≤|r|≤1,则认为y与x线性相关程度很强;0.3≤|r|<0.75,则认为y与x线性相关程度一般;|r|≤0.25,则认为y与x线性相关程度较弱.
参考公式和数据:r=eq \f(\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)(yi-),\r(\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)2)\r(\o(∑,\s\up6(n),\s\do4(i=1)) (yi-)2)), (xi-)2=10, (yi-)2=1.3,≈3.605 6)
【解】 由题得=2 018,=1,
所以r=eq \f(\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)(yi-),\r(\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)2)\r(\o(∑,\s\up6(n),\s\do4(i=1)) (yi-)2))

=≈0.998>0.75,
所以y与x的线性相关程度很强.
一元线性回归模型应用要点
(1)建立经验回归方程的步骤
①计算出,,x+x+…+x,x1y1+x2y2+…+xnyn的值;
②利用公式计算参数,;
③写出经验回归方程=x+.
(2)经验回归方程的拟合效果,可以利用相关系数判断,当|r|越接近于1时,两变量的线性相关程度越强.
|跟踪训练|
某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如下表:
x 1 2 3 4
y 12 28 42 56
(1)在图中画出表中数据的散点图;
(2)根据散点图选择合适的回归模型拟合y与x的关系(不必说明理由);
(3)建立y关于x的经验回归方程,预测第5年的销售量.
参考公式:经验回归方程=x+的斜率和截距的最小二乘估计分别为=eq \f(\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)(yi-),\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)2)=eq \f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-nx,\o(∑,\s\up6(n),\s\do4(i=1))x-n2),=-.
解:(1)作出的散点图如图:
(2)根据散点图观察,可以用一元线性回归模型拟合y与x的关系.
(3)观察(1)中散点图可知各点大致分布在一条直线附近,列出表格:
i xi yi x xiyi
1 1 12 1 12
2 2 28 4 56
3 3 42 9 126
4 4 56 16 224
∑ 10 138 30 418
可得=,=,
所以=eq \f(\o(∑,\s\up6(4),\s\do4(i=1))xiyi-4,\o(∑,\s\up6(4),\s\do4(i=1))x-42)
==,
=-=-×=-2.
故经验回归方程为=x-2.
当x=5时,=×5-2=71.
故预测第5年的销售量大约为71万件.
考点三 非线性回归模型(综合研析)
某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到如图所示的散点图及一些统计量的值.
(xi-)2 (wi-)2 (xi-) ·(yi-) (wi-) ·(yi-)
46.6 563 6.8 289.8 1.6 1469 108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①当年宣传费x=49千元时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为:=eq \f(\o(∑,\s\up6(n),\s\do4(i=1)) (ui-)(vi-),\o(∑,\s\up6(n),\s\do4(i=1)) (ui-)2),=-.
【解】 (1)由散点图可以判断y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的经验回归方程,由=eq \f(\o(∑,\s\up6(8),\s\do4(i=1)) (wi-)·(yi-),\o(∑,\s\up6(8),\s\do4(i=1)) (wi-)2)==68.得=-=563-68×6.8=100.6.
所以y关于w的经验回归方程为=100.6+68w,因此y关于x的非线性经验回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
非线性回归分析问题求解策略
有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,把问题化为线性回归分析问题,使之得到解决.
其一般步骤为:
|跟踪训练|
中国是茶的故乡,也是茶文化的发源地.中国茶的发现和利用已有四千七百多年的历史,且长盛不衰,传遍全球.为了弘扬中国茶文化,某酒店推出特色茶食品“排骨茶”,为了解每壶“排骨茶”中所放茶叶量x(单位:克)与食客的满意率y的关系,通过调查研究发现可选择函数模型y=ekx+c来拟合y与x的关系,根据以下数据:
茶叶量x/克 1 2 3 4 5
ln(100y) 4.34 4.36 4.44 4.45 4.51
可求得y关于x的回归方程为(  )
A.=e0.043x+4.291
B.=e0.043x-4.291
C.=e0.043x+4.291
D.=e0.043x-4.291
解析:选A.由表中数据可知==3,=4.42.
对于A,=e0.043x+4.291化简变形可得100=e0.043x+4.291,
两边同时取对数可得ln(100)=0.043x+4.291,
将=3代入可得ln(100)=0.043×3+4.291=4.42,与题中数据吻合,故选项A正确;对于B,=e0.043x-4.291化简变形可得100=e0.043x-4.291,
两边同时取对数可得ln(100)=0.043x-4.291,
将=3代入可得ln(100)= 0.043×3-4.291=-4.162≠4.42,所以选项B错误;
对于C,=e0.043x+4.291,两边同时取对数可得ln= 0.043x+4.291,而表中所给数据为ln(100)的相关量,所以C错误;
对于D,=e0.043x-4.291,两边同时取对数可知ln=0.043x-4.291,而表中所给数据为ln(100)的相关量,所以D错误;
故选A.
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
HYPERLINK "http://www.21cnjy.com/" 21世纪教育网(www.21cnjy.com)

展开更多......

收起↑

资源预览