资源简介 (共30张PPT)第九章 回归分析9.2 一元线性回归分析内容简介: 建立一元线性回归分析的理论与方法, 其中得到了线性回归方程, 讨论了线性回归方程的显著性, 研究了点预测和区间预测问题. 一元线性回归分析方法在解决实际问题中非常重要, 是数据统计分析的常用方法,在科技论文中常用.第九章 回归分析9.2 一元线性回归分析一、问题提出在一元线性回归分析中, 有两个变量, 其中X是可观测、可控制的普通变量, Y 为随机变量. 如何寻找和判定Y 与X 之间是否存在着显著的线性相关关系呢 如果存在, 我们将如何利用它们的线性关系进行预测和控制呢 如,子女身高与父母身高是否存在着某种统计规律 产品强度是否与温度有关系 9.2.2 预备知识最小二乘法, 检验统计量, 参数假设 检验方法, 置信区间.前面我们曾提到,在一元线性回归 分析中,有两个变量, 其中X是可观测、 可控制的普通变量, 常称它为自变量 或控制变量,Y 为随机变量, 常称其为响应变量. 通过散点图可以判定Y与X之间是否存在着显著的线性相关关系, 即Y与X之间存在如下关系:(2.1)9.2.3 建立理论1. 一元正态回归模型通常认为 ~N(0, )且假设 与X无关.将观测数据 (i=1, 2,…, n)代入(9.2.1)式,再注意样本为简单随机样本, 得称(2.2)式所确定的模型为一元正态线性回归模型, 对其进行统计分析称为一元线性回归分析.相互独立且同分布(2.2)不难理解, 在模型(2.1)中,E(Y)=a+bx. 若记y=E(Y), 则我们得到关系式y= a+bx, 此等式就是所谓的一元线性回归方程, 其图像就是回归直线, b为回归系数, a称为回归常数, 也称为回归系数.现讨论如何根据观测值(i=1,2,…,n)估计模型(2.2) 中回归函数f(X) =a+bx的回归系数.采用最小二乘法, 记平方和(2.3)我们寻找使Q(a, b)达到最小的a,b作为其估计, 即为此, 对Q(a, b)求偏导, 令化简, 得到如下方程组(称为模型的正规方程组),解得,(2.4)称 为Y关于X 的经验回归直线方程或经验公式, 其图形称为回归直线.(2.4)式 分别称为a,b的最小二乘估计值,将其中的y改写为随机变量Y, 就得到a, b的最小二乘估计量. (2.4)式中*例9.2.1 某种合成纤维的强度与其拉伸倍数有关. 下表是24个纤维样品的强度与相应的拉伸倍数的实测记录.试求这两个变量间的经验公式.编号 1 2 3 4 5 6 7 8 9 10 11 12拉伸倍数X 1.9 2.0 2.1 2.5 2.7 2.7 3.5 3.5 4.0 4.0 4.5 4.6强度Y (Mpa) 1.4 1.3 1.8 2.5 2.8 2.5 3.0 2.7 4.0 3.5 4.2 3.5编号 13 14 15 16 17 18 19 20 21 22 23 24拉伸倍数X 5.0 5.2 6.0 6.3 6.5 7.1 8.0 8.0 8.9 9.0 9.5 10强度Y (Mpa) 5.5 5.0 5.5 6.4 6.0 5.3 6.5 7.0 8.5 8.0 8.1 8.1解 从本例的散点图看出(见图9-1), 强度Y与拉伸倍数x之间大致呈现线性相关关系, 因此一元线性回归模型是适用Y与x的.图9-1 例9.2.1数据散点图现用公式(2.4)求 , 这里n=24,由此得到强度Y 与拉伸倍数X 之间的经验公式为2. 线性相关性的检验前面的讨论都是在假设Y 与X 呈现线性相关关系的前提下进行的, 若这个假设不成立, 则我们建立的经验回归直线方程也就完全失去实际意义. 为此必须对Y与X之间的线性相关关系作出理论上的检验.(1) 偏差平方和分解及其实际意义已知 ,将其中的 改写为 , 改写为 ,并记人们称它为总偏差平方和(SST), 它反映数据 的总波动.简单计算,易得SST有如下分解式:SST=其中 称为回归平方和, 它反映了回归方程 的理论值 对 平均值的离散程度. 称为剩余平方和或残差平方和, 它是实际观察值 与 回归值的离差平方和, 反映了随机因素对Y取值的影响, 从(9.2.5)式可知, 它等于从总偏差平方和 中扣除X 对Y 的线性影响U后的剩余部分.通常记为(2.5)(2) 线性相关的F 检验法根据上述分析的思想来构造检验统计量.(2.6)再由(2.5)式得到随机变量关系式(2.7)注意到关系式 及 , 将其代入到 中, 得到理论研究表明,检验统计量解 检验选用检验统计量例9.2.2 (续例9.2.1)数据见例9.2.1, 取显著性水平 =0.05, 检验回归方程 的显著性.当F>F(1,n-2)时,拒绝原假设H0.由 查表得现计算F值, 由得因为 , 所以拒绝原假设 , 即认为所得的经验回归方程有显著意义.我们根据观测数据 , i=1,2,…,n, 得到经验回归方程 ,当控制变量X取值 时, 如何估计或预测相应的呢?这就是所谓的预测问题.4. 预测对于一元线性回归模型并称 为 点估计或点预测.在实际应用中, 响应变量Y比较难观测 ,而控制变量x 却比较容易观察或测量, 根据观测资料得到经验公式后,只要指定控制变量x就能求得相应变量Y的估计和预测值, 这是回归(1) 点预测自然我们想到用经验公式,取 来估计实际的分析最重要的应用之一.例如, 在例9.2.1中, 若指定拉伸倍数 , 则可预测强度.(2) 区间预测但是, 上面这样的点估计用来预测Y究竟好不好呢 它的可信程度和精度如何 我们希望知道估计的可信程度,于是就有考虑给出一个类似于置信区间的预测区间的想法.理论研究的结果是:选取检验统计量对于给定的置信水平 ,查自由度为n-2的t分布表可得满足其中 是总体 的方差 的无偏估计.这就是 的置信度为 的预测区间, 区间的中点 随 而线性变化区间的长度在 处最短, x越远离 , 预测区间的长度就越长. 预测区间的上限与下限落在关于经验回归直线对称的两条曲线上,呈现喇叭形状, 见图9-2.的临界值 .利用不等式的恒等变形,可得的置信水平为 的置信区间为(2.9)图9-2 经验回归直线与预测区间(2.10)当n较大, 充分大时, ,可得的近似预测区间上式说明预测区间的长度, 即预测的精度主要由 确定, 因此在预测中, 是一个基本而重要的量, 在计算上有等式(2.11)解 在上两例中已经求得:, ,查表得到例9.2.3 (续例9.2.1)例9.2.1得到回归方程 . 考虑拉伸倍数X0=7.5时, 得到预测强度 . 现在取置信水平, 再考虑拉伸倍数x0=7.5时对应强度的预测区间.所以所以拉伸倍数 时, 强度的置信水平为0.95的预测区间为因此, 对于拉伸倍数 , 对应强度的置信水平为0.95的预测区间是(5.5061,7.6739).9.2.4 内容小结为进行回归分析, 我们通常先进行n次独立观测, 得到X与Y的n对实测数据(xi, yi), i=1,2,…,n, 利用这些数据对回归函数f(x)进行估计.(1) 如何确定回归函数f(x)的类型呢 画散点图, 或者计算相关系数, 以观察或分析函数类型.(2) 一元线性回归分析, 我们要完成哪些工作呢 计算回归系数, 进行显著性检验,做预测和控制. 展开更多...... 收起↑ 资源预览