资源简介 (共37张PPT)第十章 回归分析10.1一元线性回归分析10.3可线性化的非线性回归分析10.2多元线性回归分析目 录在现实问题中,处于同一过程的一些变量往往相互依赖和相互制约,它们之间的关系大致可分为两类:一类叫做确定性关系,变量之间的关系可以用函数关系来表达.例如,欧姆定律中电压U与电阻R、电流I之间的关系为 .另一类叫做非确定性关系,这种关系表现为这些变量之间有一定的依赖关系,但这种关系不能用精确的函数来表示.例如,某日用品的销售量与当地人口的多少有关,一般人口越多,该日用品的销售量越大,但人口数量与销售量之间并无确定性的数值对应关系.又如,施肥量与农作物产量之间的关系,年龄大小与血压之间的关系,等等.事实上,这些不确定性是因为变量中有随机变量,这种非确定性的变量之间的关系称为相关关系.回归分析是研究相关关系的一种数学工具,是数理统计中最常用的方法,在生产实践和科学研究中广泛应用。回归分析Part 1一元线性回归分析10.1.1 回归分析的基本概念研究一个随机变量与一些普通变量(自变量)之间相互关系的统计方法称为回归分析.只有一个自变量的回归分析称为一元回归分析,多于一个自变量的回归分析叫做多元回归分析.当变量间存在线性关系时,相应的回归分析称为线性回归分析.设x是一个可以控制或可以精确观测的普通变量,Y是与x有相关关系的随机变量.如果对于x的每个确定值,Y的取值是随机的,即Y服从一个确定的概率分布,若Y的数学期望存在,则它是x的函数,记为 ,即称此函数为Y关于x的回归函数,显然用 作为此时Y的估计值是合理的,称方程为Y关于x的回归方程,相应的图形称为回归曲线.特别当回归曲线为直线时,称为回归直线.回归分析的一个回归函数 的具体形式可通过样本进行估计.对于x的一组观测值 ,对应Y的观测值为 ,于是得到n对数据10.1.1 回归分析的基本概念这n对结果就是容量为n的样本,我们要解决的问题是如何利用样本估计 .通常是将每对观测值在直角坐标系中描出相应的点,得到试验的散点图.对散点图上的n个点拟合一条曲线,如果该曲线正确反映Y与x的关系,则该曲线方程应为 .当 为线性函数 时,估计 的问题称为求一元线性回归问题.本节我们就讨论这个问题.假设Y与x有如下相关关系:它被称为一元线性回归模型.其中 都是不依赖于x的未知参数.显然,当x取固定数值时,Y服从正态分布 ,即 则Y的数学期望为故回归函数为如果由样本得到参数 的估计 ,取 作为 的估计.方程称为Y关于x的线性回归方程或回归方程.下面我们来解决如何确定常数 的估计 .10.1.2 参数估计1.常数a,b的估计最小二乘法是估计未知参数的一种重要方法,现在我们用它来求一元线性回归模型中的a,b的估计.最小二乘法的基本思路是:对于一组观测值 ,使误差 的平方和达到最小的 作为 的估计,称其为最小二乘估计.直观地说,就是从平面的直线中选取与点 的偏差平方和最小的那条来反映这些点的分布状况,显然这条直线是所有直线中最佳的.并且可以证明,在某些假设下, 是所有线性无偏估计中最好的.根据微积分中求极值的方法,可将 分别对 求偏导数,并令它们等于零,得到方程组:10.1.2 参数估计即称上述方程组为正规方程组.解该方程组可得10.1.2 参数估计其中 .于是,所求的线性回归方程为若将 代入上式,则线性回归方程也可表示为上式说明回归直线通过样本所形成散点图的几何中心点 .所以,回归直线是一条过点 、斜率为 的直线.如果Y不是正态分布变量,则可以用最小二乘法估计 的值.在Y服从正态分布的条件下,采用最小二乘法得到的结果与极大似然估计相同.为了计算方便,引入记号:10.1.2 参数估计这样, a,b的估计值可写成例10-1 设某种合金的抗拉强度Y(单位:kg/mm2 )与其中的含碳量x(单位:%)有关,今测得12对数据如下:试求Y关于x的线性回归方程.x 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.21 0.23Y 42.0 43.5 45.0 45.5 45.0 47.5 49.0 53.0 50.0 55.0 55.0 60.010.1.2 参数估计解 此处 ,计算可得, ,所以故于是得回归直线方程为10.1.2 参数估计的估计设 是Y关于x的回归函数,则 .这表示 越小,以回归函数 作为Y的近似导致的均方误差就越小.这样,利用回归函数 研究随机变量Y与x的关系越有效,然而 未知,因而我们需要利用样本来估计 .为了估计 ,先引入下列概念:对于每一个 ,由回归方程 有 ,称 为 处的残差,平方和称为残差平方和,它是回归函数在 处的函数值 与 处观测值 的偏差的平方和.对残差平方和化简可得另外,可以证明10.1.2 参数估计于是, ,即 ,从而是 的无偏估计.在计算中,将 做如下分解:例10-2 求例10-1中 的无偏估计.解 由数据可得 ,故由例10-1知 ,故10.1.3 线性假设的显著性检验在以上的讨论中,我们假设Y关于x的回归函数 为线性函数 ,利用最小二乘法得到回归方程 .但Y与x之间是否真的存在线性关系是不确定的,如果Y与x之间并不存在显著的线性关系,那么所得的回归方程是没有意义的.因此,对Y与x是否有线性关系需要做统计检验.注意到若 ,则Y与x之间不存在线性关系,故问题的实际是回归系数b是否等于零.因此,可检验如下假设:下面介绍两种常用的检验方法.1.方差分析法(F检验法).为了检验 是否为真,我们从数据 的波动原因入手.类似方差分析的方法,记称 为 的总偏差平方和,它的大小反映了观测值 的波动程度.对 进行分析得:10.1.3 线性假设的显著性检验记于是,有称为平方和分解式.其中U称为回归平方差,它反映了x的变化而引起Y的波动大小.此时 称为剩余平方差,它反映了观测值与回归直线间的偏离大小,是由随机因素造成的.若 且 ,则有如下结论:(1) ;(2)在 成立的条件下, ;(3) 与U相互独立;(4)在 成立的条件下, .10.1.3 线性假设的显著性检验由于当 为真时,我们希望回归平方和U尽可能大,而剩余方差和 应尽可能小,因此选取检验统计量对于给定的显著性水平 , 的拒绝域为此时拒绝原假设,认为在显著性水平 下,Y与x有显著的线性相关性;反之,认为Y与x没有线性相关性,即所求线性回归方程无实际意义.这种检验方法称为F检验法或回归方程的方差分析.F检验的过程用方差分析表来表示时,见表10-1.10.1.3 线性假设的显著性检验例10-3 在显著性水平 下,对例10-1用F检验法进行回归方程的显著性检验.解 方差分析见表10-2.查附表5可得 ,显然 ,故回归方程在 下是显著的.2. 相关系数法(t检验法)为了检验线性回归直线是否显著,还可以用Y与x之间的相关系数来检验,相关系数的定义为10.1.3 线性假设的显著性检验由于,所以显然 的符号一致,它反映了Y与x的内在联系.所以,假设等价于可以证明,当 成立时,故对于给定的显著性水平 , 的拒绝域为10.1.3 线性假设的显著性检验若经上述检验,认为回归效果不显著,则应查明原因.一般来说,可能由以下几种原因造成:(1)Y的取值除了受到x的影响外,还受到其他不可忽略的因素的影响;(2)Y与x之间不是线性关系,而是其他关系;(3)Y与x之间不存在关系.例10-4 在显著性水平 下,对例10-1用t检验法进行回归方程的显著性检验.解 此时 ,故检验统计量利用例10-1和例10-2的结果可得 ,查附表4得 ,显然 ,故拒绝原假设,即认为回归方程在 下是显著的.10.1.4 预测与控制当回归效果显著时,可以利用回归方程进行预测和控制,所谓预测问题,就是针对给定x的值,预测Y的取值范围;而控制问题则是预测问题的反问题,即要将Y的值限制在某个范围内,则应如何控制x的取值.1. 预测设随机变量Y在 处的观测值为 ,则取 处的回归值作为 的预测值,且 的无偏估计.可证明故10.1.4 预测与控制标准化可得另一方面,由 和 可得且 相互独立,故对于置信水平 , 的预测区间为10.1.4 预测与控制在很多实际的回归问题中,样本容量n通常很大,若 在 附近,则在上述预测区间中,故对于置信水平 , 的预测区间近似地等于例10-5 求例10-1在 时, 的置信水平为0.99的预测区间.解 利用例10-1和例10-2的结果得故预测区间为 .10.1.4 预测与控制2.控制如果随机变量Y与x之间有线性相关性,且回归方程为 ,设Y的观察值在 内取值,则应考虑把自变量x控制在什么范围内,才能以概率 保证 .为简单起见,我们只对n很大的情况进行讨论.由预测区间 ,令分别解出,得Part 2多元线性回归分析10.2 多元线性回归分析多元回归研究的是随机变量Y与多个自变量 的相关关系.在这里,仅研究下述多元线性回归模型:其中 都是与 无关的未知参数.若 为一样本,根据最小二乘法原理,多元线性回归中的未知参数 应使达到最小.将 分别关于 求偏导数,并令它们等于零,得10.2 多元线性回归分析化简为称为正规方程组.为了求解的方便,引入矩阵, ,10.2 多元线性回归分析则正规方程组可写成称为正规方程组的矩阵形式.假设 存在,则正规方程组的矩阵形式的解为方程 为p元线性回归方程.参数 具有下列统计性质:(1)由于 都是 的线性组合,由多元线性回归模型知 均服从正态分布,故 也都服从正态分布.(2) 的无偏估计,即 .10.2 多元线性回归分析例10-6 表10-3中的x和z表示某种产品中所含甲和乙两种元素的百分数,现对x及z各选4种,共有16种不同组合,y表示各种不同成分的产品数,根据表中数据求二元线性回归方程.解 根据表中数据,得正规方程10.2 多元线性回归分析解得 .于是,所求回归方程为在实际问题中,由于影响Y的因素较多,即可控变量的个数较多,因此求解一个多元线性回归问题,往往计算量比较大,需借助计算机来完成.与一元线性回归显著性检验原理相同,为考查多元线性回归这一假定是否符合实际观察结果,还需检验以下假设:可以证明,当 为真时,统计量其中,对给定的显著性水平 ,拒绝域为 ;若拒绝原假设,则认为回归效果显著.Part 3可线性化的非线性回归分析10.3 可线性化的非线性回归分析前面讨论了线性回归问题,对线性情形我们有了一套理论和方法.但在很多实际问题中,变量之间的关系并不一定是线性关系.在某些特殊情况下,如果样本的散点图大致呈某一曲线,又存在某种变换,可将该曲线转变为直线,则可采用变量代换法将非线性模型线性化,再按照线性回归方法进行处理.下面以四种最常见的情形为例加以说明.1.双曲线对于双曲线做变换 ,可得线性函数2.幂函数对于幂函数取对数得 ,记 ,可得线性函数3.指数函数对于指数函数取对数得 ,记 ,可得线性函数4.对数函数对于对数函数做变换 ,可得线性函数在实际应用中,一般根据样本的散点图的形状,与直线或以上几种常见曲线进行比较,选择直线或曲线进行拟合.10.3 可线性化的非线性回归分析例10-7 人的主动脉压与主动脉容积的数据见表10-4.试用指数函数来拟合两者之间的关系曲线,并求出相应的回归方程.解 设指数函数为 ,做变换 ,可得线性函数则表10-4中的数据可变为将上述数据代入10.3 可线性化的非线性回归分析容积V/mL 10 25 50 75 100 125 1500.693 1 1.798 1 2.890 4 3.637 6 4.127 1 4.585 0 4.927 3经计算可得所以得到相应的回归方程为一般来说,根据散点图选择一种曲线,只能近似地反映两者之间的近似关系,如例10-7选择指数函数.通常,我们会根据专业知识和数学模型,选择几种近似的回归曲线进行计算,然后从中择优.感兴趣的读者可参阅其他相关书籍.10.3 可线性化的非线性回归分析习 题随机抽取10个家庭,调查它们的月收入x(单位:百元)和月支出y(单位:百元),记录于表10-5中.求:(1)在直角坐标系下做x与y的散点图,判断y与x是否存在线性关系;(2)y关于x的一元线性回归方程;(3)对所得回归方程做显著性检验( ).2.某炼铝厂测得的铝的硬度x与抗张强度y的数据见表10-6..习 题求:(1)y关于x的一元线性回归方程;(2)对所得回归方程做显著性检验( );(3)当 时,y的预测区间(置信度为0.95).3.为研究某一化学反应过程中温度x(单位:℃)对产品得率y(单位:%)的影响,测得数据见表10-7.求:(1)y关于x的一元线性回归方程;(2)对所得回归方程做显著性检验( );(3) 的无偏估计.习 题(1)做散点图;(2)以模型 拟合数据,其中 与x无关,求回归方程 .4.一种合金在某种添加剂的不同浓度之下各做3次试验,测得数据见表10-8. 展开更多...... 收起↑ 资源预览