资源简介 (共58张PPT)第7章 相关与回归第一节 相关分析第二节 一元线性回归第三节 多元线性回归学习目标1. 变量间的相关关系及相关系数计算2. 总体回归函数与样本回归函数3. 线性回归的基本假定4. 简单线性回归参数的估计与检验5. 多元线性回归参数的估计与检验6. 多个变量的线性相关关系:复相关系数和偏相关系数7. 常用的可以转换为线性回归的非线性函数第一节 相关分析一、变量间的关系二、相关关系的类型三、相关系数变量间的相互关系◆确定性的函数关系 Y=f (X)◆不确定性的统计关系—相关关系Y= f(X)+ε (ε为随机变量)◆没有关系相关关系的类型从涉及的变量数量看:简单相关与多重相关(复相关)从变量相关关系的表现形式看:线性相关与非线性相关从变量相关关系变化的方向看:正相关与负相关从变量相关的程度看:完全相关、不完全相关与不相关 完全负线性相关完全正线性相关 相关关系的类型(散点图) 不相关 负线性相关 正线性相关 非线性相关相关系数(correlation coefficient)度量变量之间线性关系强度的一个统计量若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r也称为Pearson相关系数 (Pearson’s correlation coefficient)样本相关系数的计算公式相关系数的显著性检验(检验的步骤)检验两个变量之间是否存在线性相关关系采用R.A.Fisher提出的 t 检验检验的步骤为提出假设:H0: ;H1: 0计算检验的统计量确定显著性水平 ,作出决策。如果|t| t /2(n-2) ,则拒绝原假设H0;认为所考察两变量的相关性是显著的,即r在统计上是显著的。反之,则认为r在统计上不显著一、回归分析的基本概念二、一元线性回归模型的设定三、参数的最小二乘估计四、一元线性回归分析中的显著性 检验五、一元线性回归方程预测第二节 一元线性回归回归的古典意义高尔顿遗传学的回归概念父母身高与子女身高的关系:无论高个子或低个子的子女都有向人的平均身高回归的趋势回归的现代意义一个因变量对若干解释变量依存关系的研究回归的目的(实质):由固定的自变量去估计因变量的平均值样本总体自变量固定值估计因变量平均值什么是回归分析?(regression analysis)重点考察考察一个特定的变量(因变量),而把其他变量(自变量)看作是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来利用样本数据建立模型的估计方程对模型进行显著性检验进而通过一个或几个自变量的取值来估计或预测因变量的取值回归模型的类型一元线性回归涉及一个自变量的回归因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependent variable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示因变量与自变量之间的关系用一个线性方程来表示一元线性回归模型(linear regression model)描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型一元线性回归模型可表示为y = + b x + ey 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性 和 称为模型的参数简单线性回归的基本假定假定1:零均值假定。假定2:同方差假定。假定3:无自相关假定。假定4:随机扰动 与自变量 不相关。假定5:正态性假定估计的回归方程(estimated regression equation)总体回归参数 和b是未知的,必须利用样本数据去估计用样本统计量 和 代替回归方程中的未知参数 和b ,就得到了估计的回归方程一元线性回归中估计的回归方程为其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值参数的最小二乘估计参数的最小二乘估计(method of least squares )德国科学家Karl Gauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数使因变量的观察值与估计值之间的误差平方和达到最小来求得 和b 的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小Karl Gauss的最小化图xy(xn , yn)(x1 , y1) (x2 , y2)(xi , yi)ei = yi-yi^参数的最小二乘估计( 和b是的计算公式) 根据最小二乘法,可得求解 和b 的公式如下回归直线的拟合优度一元线性回归分析中的显著性检验离差因变量 y 的取值是不同的,y 取值的这种波动称为离差。离差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,离差的大小可以通过该实际观测值与其均值之差 来表示离差分解图xyy 离差平方和的分解(离差平方和的关系)SST = SSR + SSE总平方和(SST){回归平方和(SSR)残差平方和(SSE){{离差平方和的分解(三个平方和的意义)总平方和(SST—total sum of squares)反映因变量的 n 个观察值与其均值的总离差回归平方和(SSR—sum of squares of regression)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和残差平方和(SSE—sum of squares of error)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和可决系数R2(coefficient of determination)回归平方和占总离差平方和的比例反映回归直线的拟合程度取值范围在 [ 0 , 1 ] 之间R2 1,说明回归方程拟合的越好;R2 0,说明回归方程拟合的越差决定系数平方根等于相关系数估计标准误差(standard error of estimate)实际观察值与回归估计值误差平方和的均方根反映实际观察值在回归直线周围的分散状况对误差项 的标准差 的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量反映用估计的回归方程预测y时预测误差的大小计算公式为回归系数的检验线性关系的检验一元线性回归方程显著性检验回归系数的检验和推断在一元线性回归中,等价于线性关系的显著性检验采用t检验检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著理论基础是回归系数 的抽样分布回归系数的检验和推断(样本统计量 的分布)是根据最小二乘法求出的样本统计量,它有自己的分布的分布具有如下性质分布形式:正态分布数学期望:标准差:由于 未知,需用其估计量sy来代替得到 的估计的标准差回归系数的检验和推断(检验步骤)提出假设H0: b = 0 (没有线性关系)H1: b 0 (有线性关系)计算检验的统计量确定显著性水平 ,计算临界值,并做出决策拒绝H0,自变量对因变量的影响显著不拒绝H0,自变量对因变量的影响不显著线性关系的检验检验自变量与因变量之间的线性关系是否显著线性关系的检验(检验的步骤)提出假设H0: =0 线性关系不显著2. 计算检验统计量F确定显著性水平 ,并根据分子自由度1和分母自由度n-2,查表作出决策:若 ,拒绝H0。表明线性回归方程显著。点预测区间预测一元线性回归方程预测点预测对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计值区间预测对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间分两种情形大样本情形下的区间预测小样本情形下的区间预测大样本情形下的区间预测不同的预测区间和概率保证:概率保证为68.27%概率保证为95.45%概率保证为99.73%小样本情形下的区间预测第三节 多元线性相关与回归一、多元线性回归模型的设定二、参数的最小二乘估计三、多元线性回归分析中的检验问题多元线性回归模型的设定多元线性回归模型(multiple linear regression model)一个因变量与两个及两个以上自变量的回归描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xk 和误差项 的方程,称为多元回归模型涉及 k 个自变量的多元线性回归模型可表示为b0 ,b1,b2 , ,bk是参数 是被称为误差项的随机变量y 是x1,,x2 , ,xk 的线性函数加上误差项 包含在y里面但不能被k个自变量的线性关系所解释的变异性多元线性回归模型(基本假定)多元线性回归模型,除了要符合一元线性回归中的零均值、同方差、无自相关、随机扰动项与自变量不相关以及正态性假定以外,还需要增加各自变量之间不存在线性关系的假定。多元线性回归方程(multiple linear regression equation)描述因变量 y 的平均值或期望值如何依赖于自变量 x1, x2 ,…,xk的方程多元线性回归方程的形式为E( y ) = 0+ 1 x1 + 2 x2 +…+ k xkb1,b2, ,bk称为偏回归系数bi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均变动值估计的多元线性回归的方程(estimated multiple linear regression equation)是估计值是 y 的估计值用样本统计量 估计回归方程中的 参数 时得到的方程由最小二乘法求得一般形式为多元线性回归参数的最小二乘估计参数的最小二乘估计求解各回归参数的标准方程如下使因变量的观察值与估计值之间的离差平方和达到最小来求得 。即拟合优度和显著性检验回归方程的拟合优度多重可决系数(multiple coefficient of determination)回归平方和占总平方和的比例计算公式为因变量取值的离差中,能被估计的多元回归方程所解释的比例修正多重可决系数(adjusted multiple coefficient of determination)用样本量n和自变量的个数k去修正R2得到计算公式为避免增加自变量而高估 R2意义与 R2类似数值小于R2估计标准误差 Sy对误差项 的标准差 的一个估计值衡量多元回归方程的拟合优度计算公式为显著性检验线性关系检验(全检验)检验因变量与所有自变量之间的线性关系是否显著也被称为总体的显著性检验,或者全检验检验方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用 F 检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系线性关系检验(步骤)提出假设H0: 1 2 k=0 线性关系不显著H1: 1, 2, k至少有一个不等于02. 计算检验统计量F确定显著性水平 和分子自由度k、分母自由度n-k-1找出临界值F 4. 作出决策:若F>F ,拒绝H0回归系数的检验(偏检验)线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验究竟要对哪几个回归系数进行检验,通常需要在建立模型之前作出决定对回归系数检验的个数进行限制,以避免犯过多的第Ⅰ类错误(弃真错误)对每一个自变量都要单独进行检验应用 t 检验统计量回归系数的检验(步骤)提出假设H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系)H1: bi 0 (自变量 xi 与 因变量 y有线性关系)计算检验的统计量 t确定显著性水平 ,并进行决策 t >t ,拒绝H0; t ≤t ,不拒绝H0本章小结各种变量相互之间的依存关系:确定性的函数关系 、不确定性的相关关系2. 变量间的相关关系的程度用相关系数去度量3. 现代意义的回归是关于一个变量对另一个或另外多个变量依存关系的研究 。回归分析的目的是要用样本回归函数去估计总体回归函数。4. 简单线性回归和多元线性回归的最小二乘估计5. 可决系数去度量回归的拟合优度 展开更多...... 收起↑ 资源预览