资源简介 (共21张PPT)第九章 线性回归分析与方差分析第一节 一元线性回归分析第二节 可线性化的非线性回归第三节 多元线性回归简介第四节 方差分析第二节 可线性化的非线性回归在实际问题中,常常会遇到这样的情形:散点图上的几个样本数据点明显地不在一条直线附近,而在某曲线周围:或者,用线性回归方程描述变量间的关系计算的结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一种非线性的相关关系.下面举例说明对这类问题用线性化处理的方法.例1 在彩色显像技术中,考虑析出银的光学密度x与形成染料光学密度Y之间的相关关系,其中11个样本数据如下所示:xi 0.05 0.06 0.07 0.10 0.14 0.20 0.25 0.31 0.38 0.43 0.47yi 0.10 0.14 0.23 0.37 0.59 0.79 1.00 1.12 1.19 1.25 1.29解 根据这11个样本数据点(xi,yi)作出散点图(图9-3).图9-3从散点图上看出,这些数据点在一条曲线L周围.根据有关的专业知识,结合散点图,可以认为曲线L大致为:对上式两边取对数:令即有:0.250.220.170.110.00-0.24-0.53-0.99-1.47-1.97-2.302.132.332.633.234.005.007.1410.0014.2916.6720.00于是数据( )相应地变换成( )将变换后的数据点( )画出散点图(图9-4)从散点图可以看出 与 具有线性相关关系,因此可用一元线性回归分析.利用一元线性回归的方法可以计算出 与 的经验回归方程为图9-4可求得x与y之间相关关系的一个经验公式:这里a=0.54,b= -0.15所以3′32.1″2′13.9″1′42.4″43.86″19.72″9.95″时间t(分′秒″)15001000800400200100距离x(m)例2 赛跑是大家熟知的一种体育活动.下表给出了截至1997年底在6个不同的距离上中短跑成绩的世界记录:试根据这些记录数据分析出运动员的赛跑成绩与所跑距离间的相关关系.解 根据记录数据点(xi,ti)作出散点图 (图9-5)图9-5从散点图上看出,全部点(xi,ti)分布在一条曲线附近,因而x与t之间可以存在一种线性关系.我们用一元线性回归分析,可计算出x与t间的线性回归模型为t=-9.99+0.1455x由此模型,当x=100,200,400,800,1000,1500(m)时,t的理论值分别为:4.56″, 19.10″,48.20″,1'46.4″,2'15.5″,3'28.2″可以看出t的理论值与实际记录数据多数都比较接近。仔细分析,可发现线性回归模型的一些不合理之处。如:当赛跑距离小于68m时,所需时间为负值;当赛跑距离为100m时所需时间只须4.56″.再仔细分析,发现:短距离100m、200m及长距离1500米需要的时间实际值均高于线性模型的理论值,而中间的400m、800m、1000m需要的时间实际值均低于线性模型的理论值.它告诉我们x与t的关系可能为一曲线,且曲线是下凸的。具有这种性质的最简单曲线当属幂函数:t=axb它告诉我们x与t的关系可能为一曲线,且曲线是下凸的。对上式二边取对数lnt=lna+blnx令t′=lnt a′=lna x′=lnx得t′= a′+bx为一线性关系具有这种性质的最简单曲线当属幂函数:t=axb用一元线性回归分析估计a′,b,从而算出最后可得t与x间的幂函数模型:t=0.048x1.145当x=100,200,400,800,1000,1500(m)时,利用幂函数模型算出t的理论值分别为:9.39″,20.78″,45.97″,1'41.68″, 2'11.29′,3'28.88″比较计算结果可知:幂函数模型比线性回归模型更能确切地反映t与x间的关系.第三节 多元线性回归简介其中b0,b1,…,bp, 为与x1,…,xp无关的未知参数.假定要考察p个自变量x1,x2,…,xp与因变量Y之间的相关关系.设这就是p元线性回归模型.对变量x1,…,xp,Y作n次观测得到样本值:( ) i=1,…,n这里y1,…,yn独立、同分布,且有为了简化数学处理,引进矩阵表示,记则等式i=1,…,n可表示为用最小二乘法求未知参数的估计,即参数应使为最小利用高等数学中求最小值的方法,可求得b0,b1,…,bp的估计:从而得到Y与x1,…,xp的经验回归方程:类似于一元线性回归,对多元线性回归模型的假设是否符合实际,需要进行假设检验.另外,在实际问题中,影响因变量Y的因素往往很多.如果将它们都取作自变量,必然会导致所得到的回归方程很复杂.因而,我们应剔除那些对Y影响较小的自变量,保留对Y有显著影响的自变量,以便我们对变量间的相关变化有更明确的认识.在此我们对多元性回归分析作一简单介绍.在实际问题中多元线性回归的应用非常广泛,有兴趣的读者可以查阅有关的专门书籍.习题9-1,2,31.在一元线性回归模型中,试证:未知参数a,b的最小二乘估计恰是极大似然估计.2.通过原点的一元线性回归模型为试由独立样本观测值(xi, yi)(i=1,2,…,n),采用最小二乘法估计b.3.为了研究铜线含碳量(单位:%)x对于电阻(单位:μΩ )Y在20℃下的效应,作了7次试验,得数据如下:① 画出散点图;② 求出经验回归方程;③ 试求相关系数R的值,并在显著性水平 下检验 .xi 0.10 0.30 0.40 0.55 0.70 0.80 0.95yi 15 18 19 21 22.6 23.8 264.某种产品在生产时产生的有害物质的重量(单位:g)Y与它的燃料消耗量(单位:kg)x之间存在某种相关关系.由以往的生产记录得到如下数据。① 求经验回归方程;② 试进行线性回归的显著性检验( );③ 试求x0=340时Y0的预测区间( ).xi 289 298 316 327 329 329 331 250yi 43.5 42.9 42.1 39.1 38.5 38.0 38.0 37.05.气体的体积(单位:m3)v在压力(单位:标准大气压)p之间的一般关系为pvk=c. 今对某种气体测试到下列数据:试对参数k,c进行估计.vi 1.62 1 0.75 0.62 0.52 0.46pi 0.5 1 1.5 2 2.5 36.今有4个物体,按下述方法称其质量,得到如下数据:其中1表示该物体放在天平左端,-1表示该物体放在天平右端,Y是当天平达到平衡时,在天平右端所加砝码的质量.试用最小二乘法估计这4个物体的质量.x1 X2 x3 x4 x51 1 1 1 20.21 -1 1 -1 8.01 1 -1 -1 9.21 -1 -1 1 1.4 展开更多...... 收起↑ 资源预览