第10章回归分析 课件(共37张PPT)- 《概率论与数理统计》同步教学(哈工程版)

资源下载
  1. 二一教育资源

第10章回归分析 课件(共37张PPT)- 《概率论与数理统计》同步教学(哈工程版)

资源简介

(共37张PPT)
第十章 回归分析
10.1
一元线性回归分析
10.3
可线性化的非线性回归分析
10.2
多元线性回归分析
目 录
在现实问题中,处于同一过程的一些变量往往相互依赖和相互制约,它们之间的关系大致可分为两类:一类叫做确定性关系,变量之间的关系可以用函数关系来表达.例如,欧姆定律中电压U与电阻R、电流I之间的关系为 .另一类叫做非确定性关系,这种关系表现为这些变量之间有一定的依赖关系,但这种关系不能用精确的函数来表示.例如,某日用品的销售量与当地人口的多少有关,一般人口越多,该日用品的销售量越大,但人口数量与销售量之间并无确定性的数值对应关系.又如,施肥量与农作物产量之间的关系,年龄大小与血压之间的关系,等等.事实上,这些不确定性是因为变量中有随机变量,这种非确定性的变量之间的关系称为相关关系.
回归分析是研究相关关系的一种数学工具,是数理统计中最常用的方法,在生产实践和科学研究中广泛应用。
回归分析
Part 1
一元线性回归分析
10.1.1 回归分析的基本概念
研究一个随机变量与一些普通变量(自变量)之间相互关系的统计方法称为回归分析.只有一个自变量的回归分析称为一元回归分析,多于一个自变量的回归分析叫做多元回归分析.当变量间存在线性关系时,相应的回归分析称为线性回归分析.
设x是一个可以控制或可以精确观测的普通变量,Y是与x有相关关系的随机变量.如果对于x的每个确定值,Y的取值是随机的,即Y服从一个确定的概率分布,若Y的数学期望存在,则它是x的函数,记为 ,即
称此函数为Y关于x的回归函数,显然用 作为此时Y的估计值是合理的,称方程
为Y关于x的回归方程,相应的图形称为回归曲线.特别当回归曲线为直线时,称为回归直线.
回归分析的一个回归函数 的具体形式可通过样本进行估计.对于x的一组观测值 ,对应Y的观测值为 ,于是得到n对数据
10.1.1 回归分析的基本概念
这n对结果就是容量为n的样本,我们要解决的问题是如何利用样本估计 .通常是将每对观测值在直角坐标系中描出相应的点,得到试验的散点图.对散点图上的n个点拟合一条曲线,如果该曲线正确反映Y与x的关系,则该曲线方程应为 .当 为线性函数 时,估计 的问题称为求一元线性回归问题.本节我们就讨论这个问题.
假设Y与x有如下相关关系:
它被称为一元线性回归模型.其中 都是不依赖于x的未知参数.
显然,当x取固定数值时,Y服从正态分布 ,即 则Y的数学期望为
故回归函数为
如果由样本得到参数 的估计 ,取 作为 的估计.方程
称为Y关于x的线性回归方程或回归方程.
下面我们来解决如何确定常数 的估计 .
10.1.2 参数估计
1.常数a,b的估计
最小二乘法是估计未知参数的一种重要方法,现在我们用它来求一元线性回归模型中的a,b的估计.
最小二乘法的基本思路是:对于一组观测值 ,使误差 的平方和
达到最小的 作为 的估计,称其为最小二乘估计.直观地说,就是从平面的直线中选取与点 的偏差平方和最小的那条来反映这些点的分布状况,显然这条直线是所有直线中最佳的.并且可以证明,在某些假设下, 是所有线性无偏估计中最好的.
根据微积分中求极值的方法,可将 分别对 求偏导数,并令它们等于零,得到方程组:
10.1.2 参数估计

称上述方程组为正规方程组.解该方程组可得
10.1.2 参数估计
其中 .于是,所求的线性回归方程为
若将 代入上式,则线性回归方程也可表示为
上式说明回归直线通过样本所形成散点图的几何中心点 .所以,回归直线是一条过点 、斜率为 的直线.
如果Y不是正态分布变量,则可以用最小二乘法估计 的值.在Y服从正态分布的条件下,采用最小二乘法得到的结果与极大似然估计相同.
为了计算方便,引入记号:
10.1.2 参数估计
这样, a,b的估计值可写成
例10-1 设某种合金的抗拉强度Y(单位:kg/mm2 )与其中的含碳量x(单位:%)有关,今测得12对数据如下:
试求Y关于x的线性回归方程.
x 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.21 0.23
Y 42.0 43.5 45.0 45.5 45.0 47.5 49.0 53.0 50.0 55.0 55.0 60.0
10.1.2 参数估计
解 此处 ,计算可得
, ,
所以

于是得回归直线方程为
10.1.2 参数估计
的估计
设 是Y关于x的回归函数,则 .这表示 越小,以回归函数 作为Y的近似导致的均方误差就越小.这样,利用回归函数 研究随机变量Y与x的关系越有效,然而 未知,因而我们需要利用样本来估计 .为了估计 ,先引入下列概念:
对于每一个 ,由回归方程 有 ,称 为 处的残差,平方和
称为残差平方和,它是回归函数在 处的函数值 与 处观测值 的偏差的平方和.
对残差平方和化简可得
另外,可以证明
10.1.2 参数估计
于是, ,即 ,从而
是 的无偏估计.
在计算中,将 做如下分解:
例10-2 求例10-1中 的无偏估计.
解 由数据可得 ,故
由例10-1知 ,故
10.1.3 线性假设的显著性检验
在以上的讨论中,我们假设Y关于x的回归函数 为线性函数 ,利用最小二乘法得到回归方程 .但Y与x之间是否真的存在线性关系是不确定的,如果Y与x之间并不存在显著的线性关系,那么所得的回归方程是没有意义的.因此,对Y与x是否有线性关系需要做统计检验.注意到若 ,则Y与x之间不存在线性关系,故问题的实际是回归系数b是否等于零.因此,可检验如下假设:
下面介绍两种常用的检验方法.
1.方差分析法(F检验法).
为了检验 是否为真,我们从数据 的波动原因入手.类似方差分析的方法,记
称 为 的总偏差平方和,它的大小反映了观测值 的波动程度.对 进行分析得:
10.1.3 线性假设的显著性检验

于是,有
称为平方和分解式.其中U称为回归平方差,它反映了x的变化而引起Y的波动大小.此时 称为剩余平方差,它反映了观测值与回归直线间的偏离大小,是由随机因素造成的.
若 且 ,则有如下结论:
(1) ;
(2)在 成立的条件下, ;
(3) 与U相互独立;
(4)在 成立的条件下, .
10.1.3 线性假设的显著性检验
由于当 为真时,我们希望回归平方和U尽可能大,而剩余方差和 应尽可能小,因此选取检验统计量
对于给定的显著性水平 , 的拒绝域为
此时拒绝原假设,认为在显著性水平 下,Y与x有显著的线性相关性;反之,认为Y与x没有线性相关性,即所求线性回归方程无实际意义.这种检验方法称为F检验法或回归方程的方差分析.
F检验的过程用方差分析表来表示时,见表10-1.
10.1.3 线性假设的显著性检验
例10-3 在显著性水平 下,对例10-1用F检验法进行回归方程的显著性检验.
解 方差分析见表10-2.
查附表5可得 ,显然 ,故回归方程在 下是显著的.
2. 相关系数法(t检验法)
为了检验线性回归直线是否显著,还可以用Y与x之间的相关系数来检验,相关系数的定义为
10.1.3 线性假设的显著性检验
由于
,
所以
显然 的符号一致,它反映了Y与x的内在联系.所以,假设
等价于
可以证明,当 成立时,
故对于给定的显著性水平 , 的拒绝域为
10.1.3 线性假设的显著性检验
若经上述检验,认为回归效果不显著,则应查明原因.一般来说,可能由以下几种原因造成:
(1)Y的取值除了受到x的影响外,还受到其他不可忽略的因素的影响;
(2)Y与x之间不是线性关系,而是其他关系;
(3)Y与x之间不存在关系.
例10-4 在显著性水平 下,对例10-1用t检验法进行回归方程的显著性检验.
解 此时 ,故检验统计量
利用例10-1和例10-2的结果可得 ,查附表4得 ,显然 ,故拒绝原假设,即认为回归方程在 下是显著的.
10.1.4 预测与控制
当回归效果显著时,可以利用回归方程进行预测和控制,所谓预测问题,就是针对给定x的值,预测Y的取值范围;而控制问题则是预测问题的反问题,即要将Y的值限制在某个范围内,则应如何控制x的取值.
1. 预测
设随机变量Y在 处的观测值为 ,则
取 处的回归值
作为 的预测值,且 的无偏估计.
可证明

10.1.4 预测与控制
标准化可得
另一方面,由 和 可得
且 相互独立,故
对于置信水平 , 的预测区间为
10.1.4 预测与控制
在很多实际的回归问题中,样本容量n通常很大,若 在 附近,则在上述预测区间中,
故对于置信水平 , 的预测区间近似地等于
例10-5 求例10-1在 时, 的置信水平为0.99的预测区间.
解 利用例10-1和例10-2的结果得
故预测区间为 .
10.1.4 预测与控制
2.控制
如果随机变量Y与x之间有线性相关性,且回归方程为 ,设Y的观察值在 内取值,则应考虑把自变量x控制在什么范围内,才能以概率 保证 .为简单起见,我们只对n很大的情况进行讨论.
由预测区间 ,令
分别解出,得
Part 2
多元线性回归分析
10.2 多元线性回归分析
多元回归研究的是随机变量Y与多个自变量 的相关关系.在这里,仅研究下述多元线性回归模型:
其中 都是与 无关的未知参数.
若 为一样本,根据最小二乘法原理,多元线性回归中的未知参数 应使
达到最小.
将 分别关于 求偏导数,并令它们等于零,得
10.2 多元线性回归分析
化简为
称为正规方程组.为了求解的方便,引入矩阵
, ,
10.2 多元线性回归分析
则正规方程组可写成
称为正规方程组的矩阵形式.假设 存在,则正规方程组的矩阵形式的解为
方程 为p元线性回归方程.
参数 具有下列统计性质:
(1)由于 都是 的线性组合,由多元线性回归模型知 均服从正态分布,故 也都服从正态分布.
(2) 的无偏估计,即 .
10.2 多元线性回归分析
例10-6 表10-3中的x和z表示某种产品中所含甲和乙两种元素的百分数,现对x及z各选4种,共有16种不同组合,y表示各种不同成分的产品数,根据表中数据求二元线性回归方程.
解 根据表中数据,得正规方程
10.2 多元线性回归分析
解得 .于是,所求回归方程为
在实际问题中,由于影响Y的因素较多,即可控变量的个数较多,因此求解一个多元线性回归问题,往往计算量比较大,需借助计算机来完成.
与一元线性回归显著性检验原理相同,为考查多元线性回归这一假定是否符合实际观察结果,还需检验以下假设:
可以证明,当 为真时,统计量
其中
,
对给定的显著性水平 ,拒绝域为 ;若拒绝原假设,则认为回归效果显著.
Part 3
可线性化的非线性回归分析
10.3 可线性化的非线性回归分析
前面讨论了线性回归问题,对线性情形我们有了一套理论和方法.但在很多实际问题中,变量之间的关系并不一定是线性关系.在某些特殊情况下,如果样本的散点图大致呈某一曲线,又存在某种变换,可将该曲线转变为直线,则可采用变量代换法将非线性模型线性化,再按照线性回归方法进行处理.下面以四种最常见的情形为例加以说明.
1.双曲线
对于双曲线
做变换 ,可得线性函数
2.幂函数
对于幂函数
取对数得 ,记 ,可得线性函数
3.指数函数
对于指数函数
取对数得 ,记 ,可得线性函数
4.对数函数
对于对数函数
做变换 ,可得线性函数
在实际应用中,一般根据样本的散点图的形状,与直线或以上几种常见曲线进行比较,选择直线或曲线进行拟合.
10.3 可线性化的非线性回归分析
例10-7 人的主动脉压与主动脉容积的数据见表10-4.
试用指数函数来拟合两者之间的关系曲线,并求出相应的回归方程.
解 设指数函数为 ,做变换 ,可得线性函数
则表10-4中的数据可变为
将上述数据代入
10.3 可线性化的非线性回归分析
容积V/mL 10 25 50 75 100 125 150
0.693 1 1.798 1 2.890 4 3.637 6 4.127 1 4.585 0 4.927 3
经计算可得
所以得到相应的回归方程为
一般来说,根据散点图选择一种曲线,只能近似地反映两者之间的近似关系,如例10-7选择指数函数.通常,我们会根据专业知识和数学模型,选择几种近似的回归曲线进行计算,然后从中择优.感兴趣的读者可参阅其他相关书籍.
10.3 可线性化的非线性回归分析
习 题
随机抽取10个家庭,调查它们的月收入x(单位:百元)和月支出y(单位:百元),记录于表10-5中.
求:
(1)在直角坐标系下做x与y的散点图,判断y与x是否存在线性关系;
(2)y关于x的一元线性回归方程;
(3)对所得回归方程做显著性检验( ).
2.某炼铝厂测得的铝的硬度x与抗张强度y的数据见表10-6.
.
习 题
求:
(1)y关于x的一元线性回归方程;
(2)对所得回归方程做显著性检验( );
(3)当 时,y的预测区间(置信度为0.95).
3.为研究某一化学反应过程中温度x(单位:℃)对产品得率y(单位:%)的影响,测得数据见表10-7.
求:
(1)y关于x的一元线性回归方程;
(2)对所得回归方程做显著性检验( );
(3) 的无偏估计.
习 题
(1)做散点图;
(2)以模型 拟合数据,其中 与x无关,求回归方程 .
4.一种合金在某种添加剂的不同浓度之下各做3次试验,测得数据见表10-8.

展开更多......

收起↑

资源预览