资源简介 (共40张PPT)相关与回归第六章第六章 相关与回归第一节 相关关系的概念与相关分析的内容第二节 相关关系的判断与测定第三节 一元线性回归分析第四节 多元线性回归分析(一)函数关系函数关系描述的是事物之间存在着的严格的依存关系。(二)相关关系统计相关关系描述的是事物之间存在着的不确定的依存关系。第一节 相关关系的概念与相关分析的内容一、相关关系的概念现象的相关关系可以按不同的标志加以区别。(一)按相关的程度分为完全相关不完全相关和不相关(二)按相关的方向分为正相关和负相关(三)按相关的形式分为线性相关和非线性相关(四)投影响因素的多少分为单相关和复相关第一节 相关关系的概念与相关分析的内容二、相关关系的类型散点图又称相关图。它是用直角坐标系的横轴代表变量x,纵轴代表变量y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。第二节 相关关系的判断与测定一、散点图(a)完全正相关0yx(b)完全负相关0yx第二节 相关关系的判断与测定一、散点图(d)不完全负相关(c)不完全正相关0yx0yx0yx0yx(f)不相关(e)曲线相关第二节 相关关系的判断与测定二、相关系数相关系数是测定变量之间相关密切程度和相关方向的代表性指标。相关系数用符号“r”表不,其特点表现在:参与相关分析的两个变量是对等的,不分自变量和因变量。因此相关系数只有一个。相关系数有正负号反映相关关系的方向,正号反映正相关,负号反映负相关。计算相关系数的两个变量都是随机变量。第二节 相关关系的判断与测定二、相关系数(一)相关系数的计算相关系数的计算公式如下:第二节 相关关系的判断与测定二、相关系数(二)相关系数的性质现在将相关系数的性质总结如下:(1)r的取值在[-1,+1]之间。当|r|=1时,x与y变量为完全线性相关,x与y之间存在着确定的函数关系;当|r|=0时,表明两个变量之间不存在线性相关;当r>0时,表示x与y为正相关。当r<0时,表示x与y为负相关。(2)当0<|r|<1时,表示x与y存在着一定的线性相关。|r|的数值愈大,越接近于1,表示x与y直线相关程度越高;反之,|r|数值愈小,愈接近于0,表示x与y直线相关程度愈低。通常判断的标准是:|r|<0.3称为微弱相关,0.3≤|r|<0.5称为低度相关,0.5≤|r|<0.8称为中度相关,|r|≥0.8称为高度相关。第二节 相关关系的判断与测定二、相关系数(三)相关系数的检验r是一个随机变量。能否根据样本系数说明总体的相关程度呢 这就需要考察样本相关系数的可靠性,也就是进行显著性检验。R.A.Fisher提出的t分布检验,该检验可以用于小样本,也可以用于大样本品检验。t的具体步骤如下:(1)提出假设H0:ρ=0;H1:ρ≠0;(2)计算检验统计量(3)进行决策。根据给定的显著性水平α和自由度df=n-2,查t分布表,查出 的临界值。若t> ,则拒绝原假设H0,表明总体的两个变量之间存在显著的线性关系。第三节 一元线性回归分析一、回归分析(一)回归分析的概念“回归”一词最早是由英国生物学家F.Galton在研究人体身高的遗传问题时首先提出来的。Galton研究发现,子女的身高有向人体身高中心回归的特点。现代回归分析虽然沿用了“回归”一词,但是内容已有很大的变化,它是一种应用于许多领域的广泛的分析研究方法,在经济理论研究和实证研究中发挥着重要的作用。回归分析是相关分析的探入,是在相关分析的基础上,更加深入地研究现象之间的数量依存关系。第三节 一元线性回归分析一、回归分析(二)相关分析与回归分析的关系相关分析与回归分析都是最常用的统计分析方法,它们之间既有联系,又有区别。(1)相关分析是基础,回归分析是在相关分析的基础之上,探求变量之间的数学模型,并且对数学模型的有效性进行统计检验。(2)相关分析中的变量是对等的,没有主次之分;而回归分析中,必须明确自变量和因变量,变量之间是不对等的。相关系数只有一个,而回归方程可以有多个(多元回归)。第三节 一元线性回归分析二、一元线性回归模型的估计和检验(一)一元线性回归模型1.回归模型当回归中只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。一元线性回归模型可表示为:y=β0+β1x+ε其中β0和β1是模型的参数,ε为误差项。β0+β1x反映了由于x的变化而引起的y的线性变化,ε反映了除x和y的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。第三节 一元线性回归分析二、一元线性回归模型的估计和检验(一)一元线性回归模型2.回归方程根据回归模型中假定,ε的期望值等于0,因此y的期望值E(y) =β0+β1x。也就是说,y的期望值是x的线性函数。描述y的期望值如何依赖于自变量x方程,称为回归方程。一元线性回归方程的形式为:E(y)=β0+β1x第三节 一元线性回归分析二、一元线性回归模型的估计和检验(一)一元线性回归模型3.估计的回归方程如果回归方程中的参数β0和β1已知,对于一个给定的x值,利用回归方程就能计算出y的期望值。但总体回归参数β0和β1是未知的,必须利用样本数据去估计它们。第三节 一元线性回归分析二、一元线性回归模型的估计和检验(二)参数估计最小二乘法的思路,通过使残差平方和达到最小来估计回归系数的一种方法。即当是β0、β1的最佳估计量。第三节 一元线性回归分析二、一元线性回归模型的估计和检验最小二乘法原理残差平方和xiyxyi(xi ,yi)最小二乘法就是使实际观测值yi与理论回归值之间的差的平方和取最小值第三节 一元线性回归分析二、一元线性回归模型的估计和检验设,对和的偏导数,并令其等于0,可得解上述方程组可得:第三节 一元线性回归分析二、一元线性回归模型的估计和检验(三)回归分析的假设条件在进行回归分析时,要求总体满足一定的假设条件:(1)εi是一个随机变量且服从正态分布,因为yi是xi的线性函数,所以yi也是一个随机变量,同样服从正态分布。(2)误差项εi的期望值为0,即E(ε)=0。这意味着在式(6-3)中,由于β0和β1都是常数,所以E(β0)=β0,E(β1)=β1。(3)εi的方差相等,即VAR(εi)=σεi2=σ2,这意味着对于一个特定的xi值,yi的方差也都等于σ2。(4)取不同的xi得出的εi相互独立,即COV(εi,εj)=0(i≠j)。假设(1)-(3)决定了εi~N(0,σ2),同时也有y~N(β0+β1x,σ2)。第三节 一元线性回归分析二、一元线性回归模型的估计和检验(四)一元线性回归模型的检验1.拟合优度检验(1) 判定系数总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)回归平方和占总平方和的比例,称为判定系数,记为R2。第三节 一元线性回归分析二、一元线性回归模型的估计和检验R2的取值范围是[0,1]。R2越接近1,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,可用x的变化来解释y疽变差的部分就越多,回归直线的拟合程度就越好;反之,R2越接近0,回归直线的拟合程度就越差。相关系数r也是反映两个变量之间线性密切程度的重要指标,可以证明,相关系数r和判定系数R2的关系为:第三节 一元线性回归分析二、一元线性回归模型的估计和检验(四)一元线性回归模型的检验1.拟合优度检验(2) 估计标准误差均方残差(mesn squared error,MSE)的平方根,称为估计量的标淮差(standard error of estimate),或简称为标准误,用se来表示。第三节 一元线性回归分析二、一元线性回归模型的估计和检验(四)一元线性回归模型的检验2.回归直线的显著性检验回归分析中的显著性检验主要包括两个方面的内容:①线性关系的显著性捡验;②回归系数的显著性检验。线性关系的显著性检验是检验自变量x和因变量y之间的线性关系是否显著,也即,它们之间能否用一个线性模型y=β0+β1x+ε来表示。第三节 一元线性回归分析二、一元线性回归模型的估计和检验(四)一元线性回归模型的检验2.回归直线的显著性检验线性关系检验的具体步骤如下:第1步,提出假设。H0:β1=0,两个变量之间的线性关系不显著第2步,计算检验统计量F。第3步,作出决策。确定显著性水平α,并根据分子自由度df1=1和分母自由度df2=n-2查F分布表,找到相应临界值Fα。若F>Fα,拒绝H0,表明两个变量之间的线性关系是显著的;若F<Fα,不拒绝H0,没有证据表明两个变量之间的线性关系是显著的。第三节 一元线性回归分析二、一元线性回归模型的估计和检验(四)一元线性回归模型的检验3.回归系数的显著性检验回归系数的显著性检验是要检验自变量对因变量的影响是否显著的问题。回归系数显著性检验的具体步骤如下:第1步,提出假设。H0:β1=0,H1:β1≠0第2步,计算检验统计量第3步,作出决策。确定显著性水平α,并根据自由度df=n-2查t分布表,找到相应临界值tα/2。若|t|>tα/2,拒绝H0,表明自变量x对因变量y的影响是显著的;若|t|第三节 一元线性回归分析二、一元线性回归模型的估计和检验(四)一元线性回归模型的检验4.残差的独立性检验在回归分析的假设条件中,有一个假设是无自相关假设,即要求ε的每一个值都是相互独立的,否则回归模型进行的估计或预测就要失效。残差的独立性检验就是检验模型是否存在自相关。残差的独立性检验需要计算Durbin-Watson(D-W)统计量,通过DW统计量的取值来进行判断。DW的取值范围在0-4之间,当DW=2时,无自相关。第三节 一元线性回归分析三、利用回归方程进行估计和预测(一)均值的置信区间利用样本的回归方程,对于x一个特定的值x0,求出y均值的一个估计值的区间就是区间估计。对于给定的x0,平均值E(y0)在1-α置信水平下的置信区间为:第三节 一元线性回归分析三、利用回归方程进行估计和预测(二)个别值的预测区间个别值的预测区间是对x的一个给定值x0,求出y的一个个别值的估计区间。与置信区间类似,y的个别值的预测区间等于点估计±估计误差,即 ±E。对于给定的x0,y的一个个别值y0在1-α置信水平的预测区间为:第四节 多元线性回归分析一、多元线性回归模型多元线性回归建模的大体思路如下:确定所关注的因变量y和影响因变量的k个自变量;假设因变量y和k个自变量之间为线性关系,并建立变量之间的线性关系模型;对模型进行评估和检验;判别模型中是否存在多重共线性,如果存在,进行处理;利用回归方程进行预测,并利用预测的残差分析模型的假设。第四节 多元线性回归分析一、多元线性回归模型(一)回归模型设因变量为y,k个自变量分别为x1,x2,…,xk,多元线性回归模型就是描述因变量y如何依赖于自变量x1,x2,…,xk和误差项ε的方程。其一般形式可表示为:(二)总体线性回归方程(三)估计的回归方程第四节 多元线性回归分析二、参数估计回归方程中的b0,b1,b2,……,bk仍然是根据最小二乘法求得。求解上述方程组需要借助于计算机,可直接利用Excel或SPSS得出回归结果。第四节 多元线性回归分析三、多元线性回归模型的检验(一)回归方程的拟合优度评价1.多重判定系数同一元线性回归一样,在多元线性回归模型中,为了衡量模型与数据拟合效果是否良好,需要利用多重判定系数来评价其拟合程度。在多元回归分析中,回归平方和占总平方和的比例,称为多重判定系数。其计算公式为:修正的多重判定系数的计算公式为:第四节 多元线性回归分析三、多元线性回归模型的检验(一)回归方程的拟合优度评价1.多重判定系数修正的多重判定系数具有的性质如下:R2修正值的解释与R2类似,R2修正值越大,说明回归直线的拟合效果越好;R2修正值越小,回归直线的拟合效果就越差。R2修正值≤R2。在多元回归分析中,通常用修正的R2值,对回归模型进行评价。R2修正值小于1,但未必都大于0。在拟合效果极差的情况下,R2修正值有可能取负值。第四节 多元线性回归分析三、多元线性回归模型的检验(二)显著性检验多元线性回归中的显著性检验同样包括对回归方程线性关系的检验和对回归系数的检验。1.回归方程线性关系检验线性关系检验是检验因变量y与k个自变量之间的关系是否显著,也称为总体显著性检验。检验的具体步骤如下:建立原假设:H0:β0=β1=β2=…=βk=0,即回归方程整体不显著;H0:βi不全等于0(i=l,2,…,k),即回归模型整体显著。第四节 多元线性回归分析三、多元线性回归模型的检验计算检验的统计量:作出统计决策。给定显著性水平α,根据分子的自由度为k,分母的自由度为n-k-1查F分布表得临界值Fα[k,n-k -1)。若F>Fα,则拒绝原假设;若F<Fα,则不拒绝原假设。根据统计软件输出的结果,可直接利用产值作出决策;若p值小于显著性水平α,拒绝原假设;若p值大于α。,则不拒绝原假设。第四节 多元线性回归分析三、多元线性回归模型的检验2.回归系数的显著性检验多元回归中进行这一检验的目的主要是为了检验各自变量对因变量的影响是否显著,以便对自变量的取台做出正确的判断。多元回归中回归系数的检验同样采取t检验,其原理和基本步骤与一元回归模型中的t检验基本相同,检验的具体步骤如下;建立原假设。假设样本从一个没有线性关系的总体中选出,即:H0:β1=0,H1:β1≠0计算检验统计量t值。第四节 多元线性回归分析三、多元线性回归模型的检验2.回归系数的显著性检验确定显著性水平。(一般取α=0.05),并根据自由度n-k-1查t分布表,找出相应的临界值tα/2。得出检验结果。若|t|>tα/2,拒绝H0,若|t|第四节 多元线性回归分析四、多重共线性及处理当回归模型中两个或两个以上的自变量彼此相关时,称回归模型中存在多重共线性。自变量之间存在相关性是很常见的事,但是回归分析中存在多重共线性却会产生一些问题,可能会使回归的结果混乱,甚至影响参数估计的正负号,造成对回归系数的错误估计。第四节 多元线性回归分析四、多重共线性及处理下面介绍几种简单的识别多重共线性的方法:对模型中的各对自变量之间的相关系数进行显著性检验。如果有一个或多个相关系数显著,说明自变量之间存在显著相关,模型可能存在多重共线性。考察各回归系数的显著性。若模型的F检验显著,而几乎所有回归系数的t检验都不显著,则表示模型中可能存在多重共线性。分析回归系数的正负号。如果回归系数的正负号与预期的相反,则表示模型可能存在多重共线性。用容忍度和方差扩大因子(VIF)来识别多重共线性。通常认为容忍度小于0.1时,存在严重的多重共线性。一般认为VIF大于10时,模型存在严重的多重共线性。第四节 多元线性回归分析五、利用多元方程进行预测由于多元线性回归方程的置信区间和预测区间的计算相当繁琐,我们通常运用统计软件求解多元回归的问题。已有的统计软件,如SPSS,就有现成的回归分析程序,可以直接给出因变量的置信区间和预测区间,其操作方法可参考一元线性回归方程的预测。 展开更多...... 收起↑ 资源预览