资源简介 (共73张PPT)管 理 统 计 学[第四版]第十一章 回归分析1案例导入2英国著名遗传学家弗朗西斯.高尔顿爵士(Sir Francis Galton,1822-1911)在子女与父母相像程度的遗传学研究方面,取得了重要进展。高尔顿和学生卡尔.皮尔逊(Karl Pearson,1857-1936)在继续这一遗传学研究的过程中,他们观测了928对夫妇,以每对夫妇的平均身高作为自变量x,而取他们的一个成年儿子的身高作为因变量y。他们发现:虽然高个子的父代会有高个子的子代,但子代的身高并不与其父代身高趋同,而是趋向于比他们的父代更加平均,就是说如果父亲身材高大而大大高于平均值,则子代的身材要比父代矮小一些;如果父亲身材矮小而大大低于平均值,则子代的身材要比父代高大一些。换言之,子代的身高有向平均值靠拢的趋向,因此,他用回归一词来描述子代身高与父代身高的这种关系。学习目标3本章要掌握回归方程的估计方法,回归参数的检验方法和回归预测方法。重点掌握最小平估计方法和线性回归方程的估计和评价。第十一章 回归分析§11.1 回归分析方法§11.2 一元线性回归§11.3 多元线性回归4§11.1 回归分析方法相关关系5散点图 感光速率随保存时间的延长而下降感光率变动Y-25◎◎ ◎◎ ◎ ◎◎◎ ◎ ◎◎◎ ◎ ◎◎ ◎◎0 保存月数X感光率变动Y-25◎◎ ◎◎ ◎ ◎◎◎ ◎ ◎◎◎ ◎ ◎◎ ◎◎0 保存月数X6相关关系的表现居民收入与消费的关系散点图◎◎ ◎◎◎◎◎◎相关关系的表现消费收入7相关的类型正相关负相关无相关相关的类型正相关负相关无相关8协方差对于变量X和Y来说,协方差是指这两个变量各点的离差之积的平均数,记为σXY,则有σXY = ∑(X - X)(Y - Y)/ N= 5509525 / 12 = 459127.1可以从图中来认识。 当σXY >0时,为正相关(散点多在第一、三象限);当σXY <0时,为负相关(散点多在第二、四象限);当σXY= 0 时,为完全无相关(散点均匀分布在各象限);当σXY = 最大值时,为完全相关(散点形成一条直线)。9相关系数——能够反映变量之间密切程度相关系数,记为r可决系数越大,两种变量之间的密切程度越高。从数量关系看,可决系数的取值范围为-1≤r≤1。一般地说,相关系数大于0.8或等于1就为高度相关;超过0.5为显著相关;在0.3为低度相关,为0是无相关。从本例中可知相关系数为0.97,表明家庭人均生活费收入水平的提高会引起人均食品支出的增加,两者之间的依存关系非常稳定。相关系数——能够反映变量之间密切程度相关系数,记为r可决系数越大,两种变量之间的密切程度越高。从数量关系看,可决系数的取值范围为-1≤r≤1。一般地说,相关系数大于0.8或等于1就为高度相关;超过0.5为显著相关;在0.3为低度相关,为0是无相关。从本例中可知相关系数为0.97,表明家庭人均生活费收入水平的提高会引起人均食品支出的增加,两者之间的依存关系非常稳定。10居民家庭的人均食品支出(X)与家庭人均生活费收入(Y)相关计表序号 Y X (Y-Y)2 (X-X)2 (X-X)(Y-Y)1 820 750 -1145.8 -652.5 1312934.0 425756.3 747656.22 930 850 -1035.8 -552.5 1072950.6 305256.3 572297.93 1050 920 -915.8 -482.5 838750.6 232806.3 441889.64 1300 1050 -665.8 -352.5 443334.0 124256.3 234706.25 1440 1200 -525.8 -202.5 276500.7 41006.3 106481.26 1500 1200 -465.8 -202.5 217000.7 41006.3 94331.27 1700 1400 -265.8 -2.5 70667.3 6.3 664.68 1900 1500 -65.8 97.5 4334.0 9506.3 -6418.79 2500 1760 534.2 357.5 285334.1 127806.3 190964.610 2900 2000 934.2 597.5 872667.4 357006.3 558164.611 3550 2000 1584.2 597.5 2509584.1 357006.3 946539.612 4000 2200 2034.2 797.5 4137834.2 636006.3 1622247.9合计 23590 16830 0 0 12041891.7 2657425.0 5509525.0平均值 1965.8 1402.5 - - 1003491.0 221452.1 459127.111相关关系与协方差(1)一个变量的变化会依存另一个变量的变化而变化,就称这两种关系为相关关系。(2)如果人均收入与人均食品支出存在相关关系,则有协方差不等于0。(3)协方差是指这两个变量各点的离差之积的平均数,记为σXY,则有σXY = ∑(X - X)(Y - Y)/ N= 5509525 / 12 = 459127.1(4)相关系数与协方差的区别与联系。协方差的大小会受到计量单位和数据均值水平的影响,从而使不同相关总体之间相关程度缺乏可比性。为了使不同相关总体之间的相关程度具有广泛的可比性,需要计算相关系数。相关系数是指协方差与两个标准差之比,记为r,则有r =σXY / (σXσY )= 459127.1 /471407.7= 0.97412人均收入与人均食品支出的关系r =σXY / (σXσY )= 459127.1 / 471407.7 = 0.974 = 97.4%r = √ R2= √0.9486 2= 0.97413相关分析 vs 回归分析14§11.2 一元线性回归一、回归模型二、最小二乘估计三、判定系数四、显著性检验五、利用估计回归函数进行估计和预测15一、回归模型据了解在大学附近的餐馆的季收入与学生人数有关。总人数x:2、 3、 6、 6、 8(百人)季收入y:1、 2、 5、 6、 9(万元)问:当人数为10百人时,估计餐馆季收入将达到多少?16设所求方程为y季度销售收入◎◎ ◎ ◎◎ ◎◎ ◎◎ ◎x学校人数= a + b x17注意:实际值与估计值之间的离差越小越好较好◎◎◎◎◎◎ 较差◎◎◎◎◎◎◎ ∑(y- )2 = 最小值◎实际值平均偏离估计值最小是最优估计线。18一元线性回归模型yi=β0+β1xi+εi其中,yi:第i次试验的因变量观测值,是随机变量;xi:第i次试验的自变量取值,是已知常数;β0和β1:参数;εi:随机误差项,通常假定E(εi)=0,V(εi)=σ2,且 ε1,ε2, ,εn两两互不相关;i=1,2, ,n。19模型具有的特点(1)第i次试验中y的观测值是由两部分叠加而成的:一是常数项β0+β1xi,表明y随x的变化是一种线性趋势;另一是随机误差项εi,表明对这种线性趋势的随机偏离。(2) E(yi)=β0+β1xi我们称E(y)=β0+β1x为模型(6.1.1)的(线性)回归函数,参数β0和β1称为回归系数。β1是回归线的斜率,表示x每增加一个单位时y的期望(或平均)增量,β0是回归线在y轴上的截距。(3)y1,y2, ,yn具有相同的方差σ2,且互不相关,这是因为V(yi)=V(β0+β1xi+εi)=V(εi)=σ2,i=1,2, ,nCov(yi,yj)=Cov(β0+β1xi+εi,β0+β1xj+εj)=Cov(εi,εj)=0,1≤i≠j≤n20图6.1.2 回归模型的假定21二、最小二乘估计1.最小二乘估计的概念2.最小二乘估计的性质221.最小二乘估计的概念最小二乘法(method of least squares)的基本想法是寻找这样的β0和β1,使得所有观测值yi总体上尽可能少地偏离其(预计的)期望值β0+β1xi,而可用来描述n个观测值对其期望值的总偏离量。因此,可将满足的b0和b1作为β0和β1的估计,并称其为最小二乘估计(可用LSE表示)。1.最小二乘估计的概念最小二乘法(method of least squares)的基本想法是寻找这样的β0和β1,使得所有观测值yi总体上尽可能少地偏离其(预计的)期望值β0+β1xi,而可用来描述n个观测值对其期望值的总偏离量。因此,可将满足的b0和b1作为β0和β1的估计,并称其为最小二乘估计(可用LSE表示)。23β0和β1的最小二乘估计为其中回归函数E(y)=β0+β1x估计为称之为估计回归函数。称 为第i个观测值的拟合值。易见,拟合值 是期望值E(yi)的一个估计。242.最小二乘估计的性质(1)b0和b1分别是β0和β1的无偏估计,即有E(b0)=β0,E(b1)=β1(2)b0和b1的方差为注 b0和b1的方差不仅取决于误差项方差σ2的大小,而且还取决于样本容量n和观测数据中自变量x的分散程度。除了σ2的因素外,观测数据越多,x的观测值越分散,估计量b1和b0的方差就越小,即其估计值就越稳定;反之,观测数据越少,越是在一个较小的自变量范围内取得的,b1和b0的方差就越大,从而估计回归线也就越不稳定。25三、判定系数1.残差2.平方和分解3.判定系数和相关系数261.残差把观测值yi与相应拟合值 之差称为第i个残差(residual),用ei表示。即有所有n个残差之和为残差平方和定义为SSE除以自由度n 2称为残差均方,记为MSE,即MSE是σ2的无偏估计。相应地,σ可估计为 。272.平方和分解当不考虑x时,预测y的不确定性(或者说,y的变差),可用观测值yi(i=1,2, ,n)与其平均值 的离差平方和来度量,称之为总平方和,记为SST,即它具有自由度n 1。SST可作如下的平方和分解:SST=SSR+SSE其中称为回归平方和, 它的自由度为1。SSR除以自由度称为回归均方,记为MSR,即283.判定系数和相关系数当使用自变量x进行回归时,预测y的不确定性程度将从SST降低到SSE,其减小的比例为称r2为判定系数(coefficient of determination)。由于0≤SSE≤SST,故0≤r2≤1可以把r2解释为使用自变量x时y的总变差减少的比例(或总变差中可由x解释的比例)。r2越大,引进自变量x后所减少的y变差就越多,在散点图中估计回归线拟合散点的效果也就越佳。29对r2开平方根并要求r的正负号与估计回归线的斜率b1的符号相同,由于故由(3.2.9)式知,r是x与y的样本相关系数。30四、显著性检验我们需要检验假设H0:β1=0,H1:β1≠0在本节下面的讨论中,为了能够进行假设检验以及求有关置信区间、预测区间,我们将模型(6.1.1)中的有关误差项条件加强为:ε1,ε2, ,εn独立同分布于N(0,σ2)。从而,y1,y2, ,yn亦相互独立,且有yi~N(β0+β1xi,σ2)1.t检验2.F检验311.t检验构造检验统计量当H0为真时,t~t(n 2)。对给定的α,拒绝规则为:若|t|≥tα/2(n 2),则拒绝H0β1的1 α置信区间为1.t检验构造检验统计量当H0为真时,t~t(n 2)。对给定的α,拒绝规则为:若|t|≥tα/2(n 2),则拒绝H0β1的1 α置信区间为322.F检验使用检验统计量当H0为真时,F~F(1,n 2)。对给定的α,拒绝规则为:若F≥Fα(1,n 2),则拒绝H0来 源 平方和 自由度 均方 F回归 SSR 1残差 SSE n 2总 计 SST n 133SSR与残差平方和SSE可用更简便的公式计算。34F检验和前面的t检验是彼此等价的。F检验和前面的t检验是彼此等价的。来 源 平方和 自由度 均方 F回归 14010659.1 1 14010659.1 102.92残差 1905820.33 14 136130.023总 计 15916479.4 15表6.1.3 方差分析表35五、利用估计回归函数进行估计和预测新观测值y0被看作是新的独立试验的结果,满足y0=β0+β1x0+ε0其中ε0~N(0,σ2)。可作为E(y0)的点估计(是无偏的)和y0的点预测。1.新观测值y0均值的置信区间2.新观测值y0的预测区间361.新观测值y0均值的置信区间E(y0)的置信度为1 α的置信区间为其中对x水平上不同的x0值,由上式得到的置信区间的大小一般是不同的。x0离均值 越远,即 越大, 也越大,因而就有越大的置信区间;反之,x0离 越近,就有越小的置信区间。当 时, ,置信区间达到最小。将x0取各个值的E(y0)的置信上限和置信下限都连起来,其形状如图6.1.4中的两根实线所示。37图6.1.4 E(y0)的置信区间和y0的预测区间382.新观测值y0的预测区间称随机区间为新观测值y0的置信度是1 α的预测区间。x0离 越远,预测区间越大;当 时, ,预测区间达到最小。对各x0值将y0的预测上、下限都连起来,其形状如图6.1.4中的两根虚线所示。可见,y0的预测区间远比E(y0)的置信区间宽。39例题 居民家庭的人均支出和人均收入的关系表中的Y和X分别是12个居民家庭的人均月食品支出和人均月收入水平的样本数数据。假定在商品价格不变的条件下,建立实际的食品支出与实际的收入水平之间的回归关系,并验证恩格尔定律。编号人均收入X人均食品支出Y182752938531059241301055144120615012071601308180145920015610270200113002001240022040解法如下:解:(1)设所求回归方程为=b0+b1x(2)根据最小平方法的要求,得出求参数a和b的标准方程式如下:∑y=n b0+b1∑x∑xy=b0∑x+b1 x241编号人均收入X人均食品支出YXYX2Y2182756150672456252938579058649722531059296601102584644130105136501690011025514412017280207361440061501201800022500144007160130208002560016900818014526100324002102592001563120040000243361027020054000729004000011300200600009000040000124002208800016000048400合计2214164835274550743425180042求a和 b将表的合计数代入上式,可得:(3)得到样本回归方程为:43式中回归系数 b=0.4921表示人均月收入每增加1元,人均月食品支出会增加0.4921元;截距a= 46.55表示即使在人均月收入为0的情况下,人均月食品支出也需要46.55元。根据该式计算的食品支出在总收入中平均所占的比重为:/ Xt = 46.55 / Xt +0.4921 。式中的 / Xt即所谓的恩格尔系数。显而易见,恩格尔系数会随着Xt的增加而递减,它与恩格尔定律的结论是一致的。统计分析的要点44§11.3 多元线性回归一、多元线性回归模型二、最小二乘估计三、复判定系数四、显著性检验五、利用估计回归函数进行估计和预测45一、多元线性回归模型p元线性回归模型:yi=β0+β1xi1+β2xi2+ +βpxip+εi其中,yi:第i次试验的因变量观测值,是随机变量;xi1,xi2, ,xip:第i次试验的p个自变量的值,是已知常数;β0,β1,β2, ,βp:参数;εi:随机误差项,通常假定E(εi)=0,V(εi)=σ2,且ε1,ε2, ,εn两两互不相关;i=1,2, ,n。46在(6.2.1)式两边取数学期望得E(yi)=β0+β1xi1+β2xi2+ +βpxip称E(y)=β0+β1x1+β2x2+ +βpxp为模型(6.2.1)的(线性)回归函数,参数β1,β2, ,βp称为偏回归系数。当模型只包含两个自变量时,回归函数为E(y)=β0+β1x1+β2x2它是三维空间上的一个平面,称为回归平面,见图6.2.1。β1表示当x2保持不变时x1每增加一个单位因变量y的期望(或平均)增量;类似地,β2表示当x1保持不变时x2每增加一个单位y的期望增量;β0是回归平面在y轴上的截距。当x1与x2的相关程度较高时,很难对回归系数β1和β2的意义作出解释。47图6.2.1 含有两个自变量的回归函数图形48用矩阵表示线性回归模型令49则有y=Xβ+ε其中,y:因变量观测值向量;X:常数矩阵,一般要求X是列满秩的;β:参数向量;ε:随机误差项向量,E(ε)=0,V(ε)=σ2I。在上述模型中,y的数学期望和协方差矩阵分别为E(y)=E(Xβ+ε)=Xβ+E(ε)=Xβ和V(y)=V(Xβ+ε)=V(ε)=σ2I50二、最小二乘估计根据最小二乘法原理,β=(β0,β1, ,βp)′的最小二乘估计b=(b0,b1, ,bp)′应满足要求β的最小二乘估计为b=(X′X) 1X′yb的数学期望为E(b)=(X′X) 1X′E(y)=(X′X) 1X′Xβ=β51即b是β的无偏估计;b的协方差矩阵为V(b)=(X′X) 1X′V(y)X(X′X) 1=(X′X) 1X′(σ2I)X(X′X) 1=σ2(X′X) 1我们称为估计回归函数,称为第i个残差。可见,(6.2.8)式为残差平方和。52三、复判定系数总平方和: 自由度为n 1回归平方和: 自由度为p残差平方和: 自由度为n p 1回归均方:残差均方: 是σ2的无偏估计53使用自变量x1,x2, ,xp之后,y变差从SST减少到SSE,减少的量为SSR,相应减少的比例为称之为复判定系数(multiple coefficient of determination)。复判定系数可理解为y的总变差中可由x1,x2, ,xp解释的比例,R2越大,表明回归函数的拟合效果越好。记R为R2的正平方根,则R正是y与x1,x2, ,xp的样本复相关系数,它度量了y与x1,x2, ,xp之间线性关系的强弱。模型中自变量个数p=1时,复判定系数R2就简化为(6.1.24)式的判定系数r2。与r2的取值范围一样,有0≤R2≤154四、显著性检验本节的余下部分,将在模型(6.2.1)的基础上进一步假定:ε1,ε2, ,εn独立同分布于N(0,σ2),即ε~Nn(0,σ2I)。于是y~Nn(Xβ,σ2I)b~Np+1(β,σ2(X′X) 1)1.F检验2.t检验551.F检验为了检验因变量y与一组自变量x1,x2, ,xp之间的线性关系,需要检验假设H0:β1=β2= =βp=0H1:至少有一个βi不等于零(i=1,2, ,p)使用检验统计量当H0为真时,F~F(p,n p 1)。对于给定的显著性水平α,拒绝规则为:若F≥Fα(p,n p 1),则拒绝H056来 源 平方和 自由度 均方 F回归 SSR p残差 SSE n p 1总 计 SST n 1572.t检验如果上述F检验显示回归函数是显著的,则还检验假设H0:βj=0,H1:βj≠0使用检验统计量其中 是 的估计,而cjj是(X′X) 1对角线上的第j个元素。当H0为真时,t~t(n p 1)。对于给定的显著性水平α,拒绝规则为:若|t|≥tα/2(n p 1),则拒绝H0偏回归系数βj的1 α置信区间为bj±tα/2(n p 1)s(bj)58输出6.2.2 方差分析表输出6.2.3 参数估计值表输出6.2.4 回归系数的0.95置信区间表59五、利用估计回归函数进行估计和预测在模型(6.2.1)下,进行一次独立的试验。p个自变量取值为x01,x02, ,x0p,得到的因变量值为y0,满足y0=β0+β1x01+ +βpx0p+ε0其中ε0~N(0,σ2)。1.新观测值y0均值的置信区间2.新观测值y0的预测区间601.新观测值y0均值的置信区间记x0=(1,x01, ,x0p)′,于是新观测值y0的数学期望为可将其估计为这是一个无偏估计。该估计的方差为用MSE估计σ2,得 的无偏估计E(y0)的1 α置信区间为612.新观测值y0的预测区间可作为新观测值y0的点预测,且用MSE估计σ2,得 的无偏估计y0的1 α预测区间为62例题 我们收集了全国7个农业实验站的小麦产量、施肥量和降雨量的数据,为预测小麦产量提供依据,见下表小麦产量(公斤/亩) Y 施肥量(公斤/亩) X1 降雨量(厘米)X2500 40 25600 50 50600 60 25800 70 75750 80 50750 90 50900 100 75建立多元回归模型方法如下:(1)设所求多元回归模型表现为二元回归方程:(2)运用最小平方法求参数b0、b1、b2。根据最小平方法的要求,可得到求参数b0、b1、b2的标准方程组为:63编号 小麦产量 (公斤/亩) Y 施肥量 (公斤/亩) X1 降雨量 (厘米) X2 X12 X22 X1X2 X1Y X2Y Y X1 X2 X12 X22 X1X2 X1Y X2Y1 500 40 25 1600 625 1000 20000 125002 600 50 50 2500 2500 2500 30000 300003 600 60 25 3600 625 1500 36000 150004 800 70 75 4900 5625 5250 56000 600005 750 80 50 6400 2500 4000 60000 375006 750 90 50 8100 2500 4500 67500 375007 900 100 75 10000 5625 7500 90000 67500合计 4900 490 350 37100 20000 26250 359500 2600004900 = 7b0+490b1+350b2359500 = 490b0+37100b1+26250b2260000 = 350b0+26250b1+20000b2解联立方程组,可得到b0、b1、b2,即b0 = 266.67,b1 =3.81,b2 =3.336465显著性检验显著性检验的内容主要包括对回归系数进行t检验和对回归模型整体进行F检验。首先从t检验开始。对总体的偏回归系数b1、 b2作如下假设:H0:b1=0;H1:b1≠0;H0:b2=0;H1:b2≠0。66676869多元回归模型的预测70本章小结71回归分析是对现象之间相关关系及数量变动关系的测定方法。两种现象之间的回归关系可以用线性回归模型来测定。用最小平方法估计的总体回归系数估计值是一个随机变量,必须对其估计量进行检验后才能获得较好的预测效果。多元回归分析是一元回归分析的扩展形式。谢 谢 观 看! 展开更多...... 收起↑ 资源预览