资源简介 9.1.2 线性回归方程1. 结合具体实例,了解一元线性回归模型的含义,了解线性回归模型参数的统计意义,了解最小二乘法原理.2. 掌握一元线性回归模型参数的最小二乘估计方法,了解残差的概念,会使用相关的统计软件.3. 针对实际问题,会用一元线性回归模型进行预测.活动一 了解随机误差、线性回归模型的概念在上一节中,我们知道我国城镇居民人均年支出与人均年可支配收入之间具有线性相关关系,能否根据这种关系由人均年可支配收入预测对应的人均年支出呢?为了解决这个问题,就要找到一条反映它们之间的线性相关关系的直线.探究 怎样选择恰当的直线反映上述两个变量之间的线性相关关系?,从上节散点图中可以看出,这些点在一条直线附近,但并不都在这条直线上.也就是说,上述直线并不能精确地反映x与y之间的关系,y的值不能由x确定.在此,我们将两者之间的关系表示为y=a+bx+ε,其中a+bx是确定性函数,ε称为随机误差.1. 基本概念:(1) 函数关系是一种确定性关系,而相关关系是一种非确定性关系.(2) 线性回归模型:y=bx+a+ε,其中a和b是模型的未知参数,ε称为随机误差.(3) 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),直线=x+称为这n对数据的回归直线,此直线方程称为线性回归方程,其中称为回归截距,称为回归系数,称为回归值,,的最小二乘估计公式为==,=-,其中(,)称为样本点的中心.活动二 了解线性回归分析的基本方法思考1 回归值与真实值y一样吗?思考2 回归值与真实值y之间误差大了好还是小了好?2. 随机误差:①εi=yi-(a+bxi);②越小,模型的拟合效果越好.残差:一般地,我们将观测值与对应的估计值之差称为残差.活动三 简单应用例1 某研究机构对高三年级学生的记忆力x和判断力y进行统计分析,得到下表数据:x 6 8 10 12y 2 3 5 6(1) 请画出表中数据的散点图;(2) 请根据表中提供的数据,求出y关于x的线性回归方程= x+;(3) 试根据求出的线性回归方程,预测记忆力为9的同学的判断力.1. 求线性回归方程的基本步骤:(1) 画出散点图,从直观上分析数据间是否存在线性相关关系;(2) 计算:,,,;(3) 代人公式求出=x+中参数,的值;(4) 写出线性回归方程并对实际问题作出估计.2. 需特别注意的是,只有在散点图大致呈线性相关时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.例2 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断机动车辆数与交通事故数之间是否具有线性相关关系.如果具有线性相关关系,求出线性回归方程;如果不具有线性相关关系,说明理由.机动车辆数x/103量 95 110 112 120 129 135 150 180交通事故数y/103量 6.2 7.5 7.7 8.5 8.7 9.8 10.2 13例3 统计学家K.Pearson收集了大量父亲和儿子的身高数据,下表是从中随机抽取的10对父子的身高数据.父亲的身高x/cm 152.4 157.5 162.6 165.1 167.6 170.2 172.7 177.8 182.9 188.0儿子的身高y/cm 161.3 165.6 167.6 166.4 169.9 170.4 171.2 173.5 178.1 177.8试估计父亲身高为166 cm时,他的儿子的身高.1. (2024赣州期中)给定两个随机变量(X,Y)的5组成对数据:(0,1),(1,2),(2,3),(3,3),(4,5).通过计算,得到Y关于X的线性回归方程为=0.9X+,则等于( ), A. 1 B. 1.1 C. 0.9 D. 1.152. (2024辽宁月考)已知由样本数据(xi,yi)(i=1,2,3,…,10)组成的一个样本,得到线性回归方程为=2x-0.4,且=2,去除两个样本点(-3,-1)和(3,-3)后,新得到的线性回归方程斜率为3,则样本(4,8)的残差为( )A. 1.5 B. -1 C. -1.5 D. 13. (多选)(2024宁波期末)数字经济是继农业经济、工业经济之后的主要经济形态.近年来,在国家的大力推动下,我国数字经济规模增长迅猛,《“十四五”数字经济发展规划》更是将数字经济上升到了国家战略的层面.某地区2023年上半年月份x与对应数字经济的生产总值(即GDP)y(单位:亿元)如下表所示.x 1 2 3 4 5 6y 30 33 35 38 41 45根据上表可得到线性回归方程 =x+,则下列结论中正确的是( )A. =B. y与x正相关C. 若r表示变量y与x之间的相关系数,则r=D. 若该地区对数字经济的相关政策保持不变,则该地区7月份的生产总值约为亿元4. 以模型y=cekx(c>0)去拟合一组数据时,设z=ln y,将其变换后得到线性回归方程z=2x-1,则c=________.5. (2024南阳期中)某运动服饰公司对产品研发的年投资额x(单位:十万元)与年销售量y(单位:万件)的数据进行统计,整理后得到如下统计表:x 1 2 3 4 5y 35 40 50 55 70(1) 求x和y的样本相关系数r(精确到0.01),并推断x和y的线性相关程度(若|r|≥0.75,则线性相关程度很强;若0.30≤|r|<0.75,则线性相关程度一般;若|r|≤0.25,则线性相关程度很弱);(2) 求年销售量y关于年投资额x的线性回归方程,并据此预测年投资额为60万元时的年销售量.参考数据:=85,=750,≈1.73.参考公式:相关系数r=;线性回归方程=x+中,=,=- .9.1.2 线性回归方程【活动方案】思考1:不一样思考2:误差小好,回归值与真实值之间误差越小,说明根据回归方程得到的估计值越可靠.例1 (1) 如图.(2) i=6×2+8×3+10×5+12×6=158,==9,==4,===0.7,=-=4-0.7×9=-2.3,故线性回归方程为=0.7x-2.3.(3) 由(2)中线性回归方程可知,当x=9时,=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.例2 计算相应的数据之和:=1 031,=71.6,=137 835,=671,=-1.024 1+0.077 4x.例3 根据表中数据画出散点图,如图所示.由表中数据可得=1 696.8,=1 701.8,=289 021.12,=289 866.08,=289 281.27.根据线性相关系数公式可得r=0.980 1,说明父亲与儿子的身高之间具有很强的线性相关关系.将它们代入公式计算,得≈0.469 1,≈90.577,故线性回归方程为=0.469 1x+90.577,当x=166时,=0.469 1×166+90.577≈168,即父亲身高为166 cm时,他的儿子的身高约为168 cm.【检测反馈】1. A 因为==2,==2.8,所以2.8=0.9×2+,解得=1.2. C 将=2代入=2x-0.4,得=2×2-0.4=3.6,去除两个样本点(-3,-1)和(3,-3)后,得′==,′==5,=5-3×=-,故去除样本点后的线性回归方程为=3x-,当x=4时,=3×4-=,则样本(4,8)的残差为8-=-1.5.3. ABD 对于A,=(1+2+3+4+5+6)=,=(30+33+35+38+41+45)=37,所以=-=37-×=,故A正确;对于B,因为=>0,所以y与x正相关,故B正确;对于C,相关系数r=≠=,故C错误;对于D,当x=7时,=×7+=,故D正确.故选ABD.4. 由z=ln y,得ln y=2x-1,y=e2x-1=e-1·e2x,所以c=e-1=.5. (1) 由题意可知=(1+2+3+4+5)=3,=(35+40+50+55+70)=50,=(-2)2+(-1)2+02+12+22=10,所以r===≈0.98.因为|r|≥0.75,所以变量x和y的线性相关程度很强.(2) ===8.5,=50-8.5×3=24.5,所以y关于x的线性回归方程为=8.5x+24.5.当x=6时,=8.5×6+24.5=75.5,所以研发的年投资额为60万元时,预测产品的年销售量为75.5万件. 展开更多...... 收起↑ 资源预览