第8章 相关分析与回归分析 课件(共88张PPT)- 《统计学原理与应用》同步教学(人民邮电版)

资源下载
  1. 二一教育资源

第8章 相关分析与回归分析 课件(共88张PPT)- 《统计学原理与应用》同步教学(人民邮电版)

资源简介

(共88张PPT)
第八章 相关分析与回归分析
《统计学原理与应用》
提纲 (Outline)
8.1 问题的提出
8.2 相关与回归分析的基本概念
8.3 相关关系的描述与度量
8.4 回归分析
8.1 问题的提出
对投资者而言,通常关心上市公司未来的盈利状况,就会提出一个问题:
如何根据已知信息预测下年盈利状况?
8.1 问题的提出
需要考虑以下几点:
(1)事物之间是否有关系?何种关系?
(2)用什么指标(变量)来合理的衡量事物?
(3)采用什么模型及检验来判断其合理性?
8.1 问题的提出
相关和回归的起源:
法兰西斯·高尔顿(Francis Galton)被誉为现代回归和相关分析的创始人,现在统计学上的“相关”和“回归”的概念也是高尔顿第一次使用的。
高个子父母的子女,其身高有低于其父母身高的趋势,而矮个子父母的子女,其身高有高于其父母的趋势,即有“回归”到平均数去的趋势,这就是统计学上最初出现“回归”时的涵义。
8.2 相关与回归分析的基本概念
一、变量之间的关系
回归与相关分析是分析研究现象数量特征间相互关系的统计分析方法。回归分析表明变量间依存关系的形式;相关分析表明变量间依存关系的密切程度。现象的依存关系即现象间的普遍联系和相互制约。
客观现象总是普遍联系和相互依存的。
8.2 相关与回归分析的基本概念
客观现象的依存关系可以概括为:
函数关系
指现象间所具有的严格的确定性的依存关系
相关关系
指客观现象间确实存在,但数量上不是严格对应的依存关系
变量之间的函数关系和相关关系,在一定条件下是可以互相转化的。
8.2 相关与回归分析的基本概念
研究现象之间相关关系的理论和方法就称为相关分析法。
相关关系与函数关系的不同之处表现在:
(1)函数关系指变量之间的关系是确定的,而相关关系的两变量的关系则是不确定的,可以在一定范围内变动;
(2)函数关系变量之间的依存可以用一定的方程表现出来,可以给定自变量来推算因变量,而相关关系则不能用一定的方程表示。
函数关系是相关关系的特例,即函数关系是完全的相关关系,相关关系是不完全的函数关系。
8.2 相关与回归分析的基本概念
二、相关关系的种类
相关关系的种类
1.按相关的程度
完全相关
不完全相关
不相关
2.按相关的方向
正相关
负相关
3.按相关的形式
线性相关
非线性相关
4.按所研究的变量多少
单相关
复相关
偏相关
8.2 相关与回归分析的基本概念
三、相关分析与回归分析
相关分析:研究变量之间相关的方向和相关的密切程度,它以现象之间是否相关、相关的方向和密切程度等为主要研究内容。
主要分析方法:编制相关表、绘制相关图、计算相关系数
8.2 相关与回归分析的基本概念
回归分析:根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系,即通过一定的数学方程来反映变量之间相互关系的具体形式。
主要分析方法:建立回归模型,求解回归模型中的参数、对回归模型进行检验等
8.2 相关与回归分析的基本概念
相关与回归分析的联系:
理论和方法具有一致性
无相关就无回归,相关程度越高,回归越好
相关系数和回归系数方向一致,可以相互推算
8.2 相关与回归分析的基本概念
相关与回归分析的区别:
1.相关分析研究变量之间相关的方向和相关的程度;回归分析则是研究变量之间相互关系的具体形式;
2.相关分析中不必确定两变量中谁是自变量,谁是因变量;回归分析研究两变量具有因果关系的数学形式,必须事先确定变量中自变量与因变量的地位;
3.计算相关系数的两变量是对等的,可以都是随机变量;回归分析中因变量是随机的,自变量是可控制的解释变量,即回归分析只能用自变量来估计因变量,而不允许由因变量来推测自变量。
8.3 相关关系的描述与度量
一、相关表
是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。例如,有和两个变量,将的取值从小到大排序, ,变量的对应值,列入表中,格式见表8.1.
X x1 x2 x3 … xn
Y y1 y2 y3 … yn
表8.1 相关表
8.3 相关关系的描述与度量
二、相关图
又称散点图,借助相关图可以直观而形象地显示现象之间相关的性质和密切程度。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。
如果坐标点可以近似地表现为一条直线,则称为线性相关;如果坐标点可以近似地表现为一条曲线,则称为非线性相关或曲线相关;如果坐标点很分散,无任何规律,则表示变量之间没有相关关系。
8.3 相关关系的描述与度量
例8.1 我国居民收入来源,主要是工资收入、经营收入、财产收入、转移收入。为了解我国居民可支配收入,主要是受哪个收入来源影响大,找到提高我国居民可支配收入的主要影响因素,进而为提高居民收入提供有效对策。可以通过搜集我国各省市居民的收入数据,采用相关分析,找到影响最大的相关变量。表8.2是2011年我国居民收入及收入来源的数据。
8.3 相关关系的描述与度量
表8.2 2011年各地区城镇居民平均每人全年家庭收入来源 单位:元
地区 可支配收入 工资性收入 经营净收入 财产性收入 转移性收入
北 京 32903.03 25161.22 1191.29 696.64 10075.23
天 津 26920.86 18794.08 1059.29 462.28 9600.40
河 北 18292.23 11686.60 1836.45 318.43 5750.43
山 西 18123.87 13146.47 875.24 274.09 5370.29
内蒙古 20407.57 14779.08 2320.36 513.36 4277.38
辽 宁 20466.84 13093.86 2285.41 333.55 7166.95
吉 林 17796.57 12217.09 1860.32 235.31 4898.99
黑龙江 15696.18 10235.04 1529.14 141.26 5213.05
上 海 36230.48 28550.76 1994.12 633.12 9354.29
江 苏 26340.73 17761.58 3026.57 667.06 7516.76
浙 江 30970.68 20334.25 4383.89 1572.34 7973.91
安 徽 18606.13 12915.97 1874.45 569.96 5390.73
8.3 相关关系的描述与度量
福 建 24907.40 17438.81 2991.66 1752.82 5194.82
江 西 17494.87 11654.36 1721.84 471.73 4808.59
山 东 22791.84 17629.40 2294.85 615.69 4349.86
河 南 18194.80 12039.24 2264.36 286.02 4937.30
湖 北 18373.87 12622.44 1906.73 357.15 5306.95
湖 南 18844.05 11550.09 2674.18 770.66 5088.95
广 东 26897.48 21092.14 3035.25 1242.95 4848.42
广 西 18854.06 13550.16 1699.84 844.91 4751.20
海 南 18368.95 12876.92 2158.62 715.40 4343.24
重 庆 20249.70 13827.72 1779.43 433.71 5753.42
四 川 17899.12 12687.29 1670.51 523.24 4807.05
贵 州 16495.01 10754.45 1614.67 356.41 4873.34
云 南 18575.62 12416.17 1785.61 1273.99 4779.36
西 藏 16195.56 15854.97 486.92 358.07 1415.80
陕 西 18245.23 14051.28 771.75 214.18 5032.65
甘 肃 14988.68 11195.26 914.30 161.66 3996.15
青 海 15603.31 11403.97 1054.60 78.64 5257.77
宁 夏 17578.92 12396.71 2367.47 198.48 4691.94
新 疆 15513.62 12653.43 1412.32 149.06 3416.35
8.3 相关关系的描述与度量
可以通过绘制散点图,分析居民可支配收入与工资收入、经营收入、财产收入、转移收入有什么样的关系,以及关系强度如何。
【解】用Excel【插入】中的【图表】选项绘制散点图,如图8.1~图8.4所示。
8.3 相关关系的描述与度量
图8.1 可支配收入与工资收入的散点图
8.3 相关关系的描述与度量
图8.2 可支配收入与经营收入的散点图
8.3 相关关系的描述与度量
图8.3 可支配收入与财产收入的散点图
8.3 相关关系的描述与度量
图8.4 可支配收入与转移收入的散点图
8.3 相关关系的描述与度量
从各散点图可以看出,它们都有一定的线性关系,但从分布的情况看,可支配收入与工资收入的线性关系比较密切,而与经营收入之间的线性关系最不密切。
8.3 相关关系的描述与度量
三、相关系数
相关表和相关图只能大体上反映变量(现象)之间的相关关系,但不能准确判断变量之间的关系强度。要判断变量之间相关关系的密切程度,需要计算相关系数。
(一)相关系数的计算
相关系数(correlation coefficient)是根据数据测定两个变量之间线性关系强度和相关方向的统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ;若是根据样本数据计算的,则称为样本相关系数,记为 。样本相关系数的计算公式为:
8.3 相关关系的描述与度量
(8.1)
式中: ,称为x和y的协方差;
,为x的标准差;
,为y的标准差。
8.3 相关关系的描述与度量
利用相关系数的基本公式计算相当繁琐,但利用代数推演的方法可得到许多计算相关系数的简化式,如:
(8.2)
8.3 相关关系的描述与度量
相关系数的性质:
(1)相关系数具有对称性
(2)相关系数用正负号反映相关关系的方向,正号反映正相关,负号反映负相关
(3)计算样本相关系数的两个变量都是随机变量
(4)相关系数是一系数,不受变量值水平和计量单位的影响,便于在不同的资料之间对相关程度进行比较
(5)相关系数的取值范围是[-1,1]
(6)相关系数仅仅用于两个变量的线性关系强度的度量。不能用于描述非线性关系。
8.3 相关关系的描述与度量
相关系数的取值范围:
r=0时,表示两变量不存在线性相关;
0<∣r∣≤0.3为微弱线性相关;
0.3<∣r∣≤0.5为低度线性相关; 
0.5<∣r∣≤0.8为显著线性相关;
0.8<∣r∣<1为高度线性相关;
∣r∣=1为完全的线性相关。
8.3 相关关系的描述与度量
例8.2 根据表8.2中的数据计算居民可支配收入、工资收入、经营收入、财产收入、转移收入之间的相关系数。
【解】用Excel【工具】中的【数据分析】中的【相关系数】工具计算相关系数矩阵,如表8.3所示。
8.3 相关关系的描述与度量
表8.3 居民可支配收入、工资收入、经营收入、财产收入、转移收入之间的相关矩阵
可支配收入 工资性收入 经营净收入 财产性收入 转移性收入
可支配收入 1
工资性收入 0.95051 1
经营净收入 0.440333 0.255336 1
财产性收入 0.546614 0.453943 0.670494 1
转移性收入 0.794201 0.646629 0.216471 0.203142 1
从相关矩阵可以看出,在可支配收入与其他几个变量的关系中,与工资收入的相关系数最大,而与经营收入的相关系数最小。
8.3 相关关系的描述与度量
二、相关系数的显著性检验
一般情况下,总体相关系数 是未知的,通常是将样本相关系数r作为 的近似估计值。但通常资料都是通过样本得到的,不同的样本其所得结果也因之而异。若是在某项抽样调查资料中得出相关系数的值很高,能否根据样本相关系数说明总体的相关程度呢?能否认为总体的相关系数也是很高呢?
这是需要通过检验来回答的问题,就需要考察样本相关系数的可靠性,也就是进行显著性检验。
8.3 相关关系的描述与度量
检验的具体步骤:
(1)提出假设。
(2)计算统计量。
(3)作出统计推断。根据给定的显著性水平α和自由度n-2查t分布表,得出 的临界值。若 ,则拒绝原假设,表明总体的两个变量之间存在显著的线性关系。
8.3 相关关系的描述与度量
例8.3 根据表8.3计算的相关系数,检验居民可支配收入与工资收入之间的相关系数是否显著(α=0.05)。
【解】
(1)提出假设。
(2)计算统计量。
(3)作出统计推断。根据给定的显著性水平α=0.05和自由度n-2=31-2=29查t分布表,得: 。由于 ,则拒绝原假设,说明居民可支配收入与工资收入之间存在显著的正线性关系。
8.3 相关关系的描述与度量
一般地说,当|r|取值在0到1之间都认为x与y之间存在线性相关,但是只有当r的绝对值大到一定程度时,我们才认为x与y之间的线性关系是密切的,这时我们就称x,y之间线性关系显著,否则,就称x,y之间线性关系不显著。
8.4 回归分析
回归分析是在相关分析的基础上,对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。
8.4 回归分析
回归分析主要解决以下几个问题:
(1)从一组样本数据出发,确定变量之间的数学表达式;
(2)对这些表达式的可信程度进行各种统计检验和理论检验,从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的和符合理论的,哪些不是的;
(3)利用所求的表达式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。
8.4 回归分析
回归分析分类
按照自变量的个数
按照变量之间的具体变动形式
一元回归
多元回归
线性回归
非线性回归
把这两种分类方法结合起来,就有一元线性回归和一元非线型回归,多元线性回归和多元非线型回归。
其中,一元线性回归是最简单也是最基本的一种回归。
8.4 回归分析
一、一元线性回归分析
回归分析是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,并以数学表达式来表现其具体关系式的统计分析方法。这个数学表达式称为回归模型。其中两变量线性相关关系的模型,叫做一元线性回归模型。
8.4 回归分析
(一)总体回归模型
一元线性回归模型,又称简单线性回归模型。它假定因变量Y主要受自变量X的影响,它们之间存在着近似的线性函数关系,即有:
(8.3)
此式被称为总体回归模型。式中的 和 是未知的参数,又叫回归系数。 和 分别是Y和X的第i次观测值。 是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对的影响。
8.4 回归分析
例如,Y可以代表消费支出,X代表可支配收入。 是被称为基础消费水平的常数项,代表不受可支配收入影响的消费支出。 是边际消费倾向,它表明可支配收入每增加一个单位时,消费支出所增加的数量。 是除了收入以外各种影响消费的因素。如果其他各种影响因素能够相互抵消,我们就可以说,平均来看消费支出与可支配收入的关系能够用直线反映。如果用数学形式来表示,可以写出:
(8.4)
8.4 回归分析
上式表明:在X的值给定的条件下,Y的期望值是X的严密的线性函数。这条直线被称为总体回归直线。Y的实际观测值并不一定位于该直线上,只是散布在该直线的周围。我们把各实际观测点与总体回归线垂直方向的间隔,称为随机误差项,也就是定义:
(8.5)
8.4 回归分析
(二)样本回归模型
由于在现实问题研究中,所要研究的现象的总体是未知的,因此无法掌握因变量Y总体的全部取值。因此,总体回归模型事实上是未知的,需要利用样本的信息对其进行估计。
根据样本数据拟合的直线,称为样本回归直线,如果拟合的是一条曲线,则称为样本回归曲线。显然,样本回归线的函数形式应与总体回归线的函数形式一致。一元线性回归模型的样本回归线可表示为:
(8.6)
8.4 回归分析
实际观测到的因变量Yi值,并不完全等于 ,如果用ei表示二者之差(ei= Yi- ),则有:
i=1,2,…,n (8.7)
上式称为样本回归模型。式中, ei称为残差,n是样本的容量。
8.4 回归分析
样本回归模型与总体回归模型之间的区别:
(1)总体回归线是未知的,它只有一条。而样本回归线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。
(2)总体回归函数中的 和 是未知的参数,表现为常数。而样本回归函数中的 和 是随机变量,其具体数值随所抽取的样本观测值不同而变动。
(3)总体回归函数中的 是Yi与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的ei是Yi与样本回归线之问的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出ei的具体数值。
综上所述,样本回归模型是对总体回归模型的近似反映。
8.4 回归分析
(三)误差项的标准假定
零均值假定:
同方差假定:
无自相关假定:
误差项与解释变量不相关假定:
正态性假定:
8.4 回归分析
二、一元线性回归模型的估计
回归分析的主要任务就是要建立能够近似反映真实总体回归模型的样本回归模型,即残差 的总量越小越好。由于 有正有负,简单的代数和会相互抵消,因此为了数学上便于处理,通常采用残差平方和 作为衡量总偏差的尺度。
最小二乘法就是根据这一思路,通过使残差平方和为最小来估计回归系数的一种方法。最小二乘法,也称为最小平方法,是通过使因变量的实际值(观测值)与估计值之间的离差平方和达到最小来估计未知参数的方法。
8.4 回归分析

要使Q最小,根据微积分的极值定理,对Q求相应于 和 的偏导数,并令其对于0,便可求出 和 ,即:
加以整理后有:
此方程组称为标准方程组或正规方程组,式中的n是样本量。求解这一方程组,可得:
(8.8)
8.4 回归分析
例8.4 根据表8.2的数据,求工资收入对居民可支配收入的估计回归方程。
【解】根据表8.2的数据,可列计算表见表8.4。
表8.4 一元线性回归计算表
地区 可支配收入Y 工资性收入X XY X2 Y2
北 京 32903.03 25161.22 827880376.5 633086991.9 1082609383
天 津 26920.86 18794.08 505952796.5 353217443.0 724732703.1
河 北 18292.23 11686.60 213773975.1 136576619.6 334605678.4
山 西 18123.87 13146.47 238264913.2 172829673.5 328474663.8
内蒙古 20407.57 14779.08 301605109.6 218421205.6 416468913.3
辽 宁 20466.84 13093.86 267989937.6 171449169.7 418891539.6
吉 林 17796.57 12217.09 217422297.4 149257288.1 316717903.8
黑龙江 15696.18 10235.04 160651030.1 104756043.8 246370066.6
上 海 36230.48 28550.76 1034407739.0 815145896.6 1312647681.0
8.4 回归分析
江 苏 26340.73 17761.58 467852983.2 315473724.1 693834056.9
浙 江 30970.68 20334.25 629765549.8 413481723.1 959183019.7
安 徽 18606.13 12915.97 240316216.9 166822281.0 346188073.6
福 建 24907.40 17438.81 434355416.2 304112094.2 620378574.8
江 西 17494.87 11654.36 203891513.1 135824107.0 306070476.3
山 东 22791.84 17629.40 401806464.1 310795744.4 519467970.6
河 南 18194.80 12039.24 219051564.0 144943299.8 331050747.0
湖 北 18373.87 12622.44 231923071.6 159325991.6 337599098.8
湖 南 18844.05 11550.09 217650473.5 133404579.0 355098220.4
广 东 26897.48 21092.14 567325413.8 444878369.8 723474430.4
广 西 18854.06 13550.16 255475529.6 183606836.0 355475578.5
海 南 18368.95 12876.92 236535499.6 165815068.7 337418324.1
8.4 回归分析
重 庆 20249.70 13827.72 280007181.7 191205840.4 410050350.1
四 川 17899.12 12687.29 227091326.2 160967327.5 320378496.8
贵 州 16495.01 10754.45 177394760.3 115658194.8 272085354.9
云 南 18575.62 12416.17 230638055.8 154161277.5 345053658.4
西 藏 16195.56 15854.97 256780117.9 251380073.7 262296163.7
陕 西 18245.23 14051.28 256368835.4 197438469.6 332888417.8
甘 肃 14988.68 11195.26 167802169.7 125333846.5 224660528.1
青 海 15603.31 11403.97 177939679.1 130050531.8 243463283.0
宁 夏 17578.92 12396.71 217920773.4 153678418.8 309018428.4
新 疆 15513.62 12653.43 196300504.7 160109290.8 240672405.5
合计 638827.3 456370.8 10062141275.0 7273207422.0 14027324190.0
8.4 回归分析
将表8.4的数据代入公式得:
样本回归方程为:
上式中:回归系数 =1.1855表示工资收入每增加1元,可支配收入平均增加1.1855元。在回归分析中,对截距 常常不能赋予任何真实意义,因为一般很难解释得通。例如这里,当工资收入为0时,可支配收入为3154.83元,而我们知道这是不可能的事情,因为工资收入是可支配收入的主要来源,工资收入为0的话,不可能有那么高的可支配收入。因此,在回归分析中,对截距 通常不作实际意义上的解释。
8.4 回归分析
回归分析的Excel操作步骤:
(1)把相应数据输入Excel工作表中;
(2)选择【工具】下拉菜单,选择【数据分析】选项;
(3)在分析工具中选择【回归】,如何单击【确定】;
(4)当对话框出现时,在【Y值输入区域】方框内输入因变量的数据区域,在【X值输入区域】方框内输入自变量的数据区域,其他根据情况选择,这里都是默认。
(5)单击【确定】,输出结果。
这里以例8.4为例,输出结果,见表8.5。
8.4 回归分析
表8.5 Excel输出的回归分析结果
SUMMARY OUTPUT
回归统计
Multiple R 0.95051
0.90347
Adjusted 0.900141
标准误差 1694.681
观测值 31
方差分析
  df SS MS F Significance F
回归分析 1 7.8E+8 7.8E+8 271.42 2.92E-16
残差 29 83286378 2871944
总计 30 8.63E+08   Coefficients 标准误差 t Stat P-value Lower 95% Upper 95% 下限 95.0% 上限 95.0%
Intercept 3155.292 1102.2 2.87 0.0077 901.102 5409.5 901.1 5409.48
X Variable 1 1.185468 0.0720 16.5 2.9E-16 1.03832 1.33264 1.03830 1.33264
8.4 回归分析
Excel输出的回归结果包括以下几个部分:
(1)“回归统计”,这部分给出了回归分析中一些常用的统计量,包括:相关系数(Multiple R)、判定系数(R Square)、调整的判定系数(Adjusted R Square)、标准误差、观测值的个数。
(2)“方差分析”,这部分给出的是回归分析的方差分析表,包括:自由度(df),回归平方和,残差平方和、总平方和(SS)、回归和残差的均方(MS)、检验统计量(F)、F检验的显著性水平(significance F)。“方差分析”部分的主要作用是对回归方程的线性关系进行显著检验。
8.4 回归分析
(3)回归参数估计的有关内容。包括回归方程的截距(Intercept)、斜率(X Variable 1)、截距和斜率的标准误差、用于检验回归系数的t统计量(t Stat)和P值(P-value),以及截距和斜率的置信区间(Lower 95%和Upper95%)。
8.4 回归分析
三、一元线性回归模型的检验
(一)回归模型检验的种类
计量经济学检验:序列相关性检验、异方差检验等
回归模型检验的种类
理论意义检验:参数估计值的符号和取值区间
统计检验
拟合优度评价
显著性检验
8.4 回归分析
(二)拟合优度的评价
拟合优度(goodness of fit),是指样本观测值聚集在样本回归直线周围的紧密程度。判断回归模型拟合优度优劣最常用的数量指标是可决系数(又称判定系数)。该指标是建立在对总离差平方和进行分解的基础之上的。
因变量的实际观测值与其样本均值的离差即总离差 可以分解为两部分:一部分是因变量的理论回归值与其样本均值的离差 ,它可以看成是能够由回归直线解释的部分,称为可解释离差;另一部分是实际观测值与理论回归值的离差 ,它是不能由回归直线加以解释的残差ei。对任一实际观测值Yi总有:
8.4 回归分析
对上式两边平方并求和,得到:
可以证明:
从而有:
(8.9)
如果记SST= ,SSR= ,SSE= ,则有:
SST=SSR+SSE (8.10)
8.4 回归分析
其中:
SST是总的离差平方和,反映n次观测值的总变差;
SSR称为回归平方和,是由回归直线可以解释的那一部分离差平方和,反映了Y的总变差中由于X与Y之间的线性关系引起的Y的变化部分;
SSE称为剩余残差平方和,亦即残差平方和或误差平方和,是用回归直线无法解释的离差平方和,反映了除了X对Y的线性关系影响之外的其他因素引起的Y的变化部分。
8.4 回归分析
(8.10)式两边同时除以SST,得:
1 =
显而易见,各个样本观测点与样本回归直线靠得越紧,SSR在SST中所占的比例就越大。因此,可定义这一比例为判定系数(coefficient of determination),即有:
= =1- (8.11)
判定系数是对回归模型拟合程度的综合度量,判定系数越大,模型拟合程度越高。
可决系数越小,则模型对样本的拟合程度越差。
8.4 回归分析
可决系数 的特性:
1.可决系数 具有非负性。
2.可决系数的取值范围为 。
3.可决系数是样本观测值的函数,它也是一个统计量。
8.4 回归分析
例8.5 根据表8.2的数据,计算可支配收入对工资总额的判定系数,并解释其意义。
解:利用表8.5Excel输出的回归分析结果可知,总平方和SST=8.63E+08,回归平方和SSR=7.8E+08,残差平方和SSE=83286378。根据判定系数公式可计算
实际上,表8.5中直接给出了判定系数(R Square)=0.9035。
判定系数的实际意义是:在可支配收入取值的变差中,有90.35%可以由可支配收入与工资收入之间的线性关系来解释,或者说在可支配收入取值的变动中,有90.35%是由工资收入所决定的。工资收入能够线性解释可支配收入的部分占到九成以上,说明两者之间有很强的线性关系。
8.4 回归分析
(三)显著性检验
回归系数的检验
即根据样本估计的结果对总体回归系数的有关假设进行检验。因为 和 均为线性估计量,是因变量Yi的线性组合。根据上一节所述的标准假定,可知Yi是服从正态分布的变量,所以 和 也服从正态分布。若令
则有:
(8.12)
(8.13)
8.4 回归分析
由于一般来说,总体方差 是未知的标准差的估计值,要用其无偏估计量 去代替。我们用 代表 的标准差(i=1,2),数学上可以证明,当样本为小样本时,回归系数估计值的标准化变换值并不遵循正态分布规律,而是服从t分布,即
(8.14)
式中的n为样本容量,n-2为自由度。
8.4 回归分析
下面以 的检验为例,介绍回归系数显著性检验的基本步骤:
(1)提出假设: ; 。
(通常计算机程序中将 设定为0)
(2)确定显著水平α:一般取为0.05或0.01。
(3)计算回归系数的t值。
(4)确定临界值:注意区分单侧t检验和双侧t检验。
(5)作出判断:如果 的绝对值大于临界值的绝对值,就拒绝原假设,接受备择假设;反之,如果 的绝对值小于临界值的绝对值,则接受原假设。
8.4 回归分析
例8.6 根据例8.4的有关结果,检验回归系数的显著性(α=0.05)。
【解】
(1)提出假设。

(2)计算检验的统计量t。
(3)做出判断。根据给定显著性水平α=0.05,自由度=n-2=31-2=29,查t分布表,得 。由于
,拒绝原假设,接受备择假设。这意味工资收入是影响可支配收入的显著性因素。
8.4 回归分析
线性关系的显著性检验
线性关系的检验是检验自变量与因变量之间的线性关系是否显著,或者说,它们之间能否用一个线性模型来表示。
构造F统计量:
(8.15)
当原假设成立时,MSR/MSE的值应接近1,但如果原假设不成立,MSR/MSE的值将变得无穷大。因此,较大的MSR/MSE将导致拒绝原假设,这时就可以断定变量与之间存在着显著的线性关系。
8.4 回归分析
线性关系的显著性检验的具体步骤:
(1)提出假设,假设回归方程线性关系不显著,即
(2)根据观测值,计算F统计量。
(3)作出判断。根据给定的显著性水平α和自由度1、n-2,查F分布表,找到相应的临界值 。当 时,拒绝原假设,即认为总体回归模型中各自变量与因变量的线性回归关系显著。当 时,接受原假设,即认为总体回归模型中,自变量与因变量的线性回归关系不显著,因而所建立的回归模型没有意义。
8.4 回归分析
例8.7 根据例8.4的有关结果,检验可支配收入与工资收入之间线性关系的显著性(α=0.05)。
【解】(1)提出假设,假设可支配收入与工资收入之间线性关系不显著,即 ,
(2)根据观测值,计算F统计量。
(3)作出判断。根据给定的显著性水平α=0.05和自由度1、29,查F分布表,找到相应的临界值 。由于 ,拒绝原假设,即认为总体回归模型中各自变量与因变量的线性回归关系显著。这里就是可支配收入与工资收入之间的线性关系是显著的。
8.4 回归分析
四、一元线性回归模型的预测
(一)回归预测的基本公式
以 作为对 的预测。
上式中, 是给定的X的具体数值; 是 给定时Y的预测值; 和 是已估计出的样本回归系数。
注:当 属于样本内的数值时,利用上式来计算 称为内插检验或事后预测。而当 在样本之外时,利用上式来计算 称为外推预测或事前预测。
8.4 回归分析
(二)预测误差
在实际的回归模型预测中,发生预测误差的原因有:
1.模型本身中的误差因素所造成的误差
2.由于回归系数的估计值同其真值不一致所造成的误差
3.由于自变量X的设定值同其实际值的偏离所造成的误差
4.由于未来时期总体回归系数发生变化所造成的误差。
由于3、4两项不属于回归方程本身的问题,而且也难以事先予以估计和控制,因此,在下面的讨论中,假定只存在1、2两种误差。
8.4 回归分析
设 给定时Y的真值为 ,则:
预测误差:
可推断出: (8.16)
(8.17)
在此基础上,还可以进一步证明 是 的最优线性无偏预测。
8.4 回归分析
由于总体随机误差项的方差 一般是未知的,所以需要估计。对总体随机误差项的标准差 的估计,称为估计标准误差。估计标准误差(standard error of estimate)是度量各实际观测点在回归直线周围散布状况的统计量,它是均方残差(MSE)的平方根,用来 表示,其计算公式为:
若各观测点越靠近直线, 越小,回归直线对各观测点的代表性就越好,根据估计的回归方程进行预测也就越准确。若各观测点全部落在直线上,则 =0,此时用自变量来预测因变量是没有误差的。
8.4 回归分析
(三)区间预测
在标准假定条件下, 服从于正态分布,即
~N(0,Var( )) (8.18)
由于Var( )中的 是未知的,通常用其无偏估计 来代替。若用 来表示预测标准误差的估计值,
=
则数学上可以证明:
服从于自由度为(n-2)的t分布。按照确定置信区间的方法,可以得出 的(1-α)的置信区间为:
其中 是置信度为(1-α)、自由度为(n-2)的t分布临界值。
8.4 回归分析
区间预测的特点:
(1)置信区间的上下限对称地落在样本回归直线两边,呈中间小两头大的喇叭型。
(2)n不变时, 的值随置信度(1-α)的提高而增加,即:求预测值的概率保证程度增加,在其它条件不变时,也就意味着预测精度的降低。
(3)其他条件不变时,样本容量n越大,预测精度越高,反之预测精度越低。
(4)n足够大时, 的(1-α)的置信区间为:
8.4 回归分析
例8.8 根据例8.4的有关结果,假定某地区城镇居民人均工资收入为30000元,要求计算置信度为95%的可支配收入的预测区间。
【解】根据前面计算的结果,已知n=31,S=1694.68,查表得

当工资收入为30000元时,可支配收入的点估计为:
=3155.29+1.185×30000=38705.29(元)
可支配收入95%的置信区间为:
38705.3±2.0452×1694.7× =38705.3±4158.6
即 。也就是说,当工资收入为30000元时,可支配收入的95%的预测区间在34546.72~42863.86元之间。
8.4 回归分析
五、多元线性回归分析与非线性回归简介
(一)多元线性回归分析
多元线性回归模型总体回归函数的一般形式如下:
(8.19)
多元线性回归模型的样本回归函数如下:
注:多元线性回归分析也需要提出一些必要的假定,相较一元线性回归分析而言,回归模型所包含的自变量之间不能具有较强的线性关系。
8.4 回归分析
多元线性回归模型中回归系数的估计同样采用最小二乘法,检验也与一元线性回归模型类似。
但在多元线性回归模型一般用调整的多重判定系数(adjusted multiple coefficient of determination)来反映回归模型的拟合优度。其计算公式为:
(8.20)
式中, 为调整的多重判定系数, 为多重判定系数,n为样本量,k为自变量个数。
8.4 回归分析
多元线性回归分析时应注意的问题:
1、回归变量的选择问题。
2、各回归变量之间不能存在严重的多重共线性。
3、多元回归系数是不可比的。
4、应避免虚假回归问题的发生。
8.4 回归分析
(二)非线性回归分析
由于在实际经济活动中,经济变量的关系是复杂的,直接表现为线性关系的情况并不多见,因此需要借助非线性函数。
非线性函数形式的确定
遵循原则包括:
方程形式应与有关科学的基本理论相一致。
方程有较高的拟合程度。
方程的数学形式要尽可能简单。
常见的非线性函数有:抛物线函数、双曲线函数、幂函数、指数函数、对数函数、S形曲线函数、多项式方程等。
8.4 回归分析
非线性回归模型的变换与估计
非线性回归函数,可以通过适当的变换,转化为线性回归函数,然后再利用线性回归分析的方法进行估计和检验。
常用的非线性函数的线性模型有以下几种:
倒数模型
半对数模型
对数-线性模型——度量增长率
线性-对数模型——解释变量为对数形式
双对数模型——度量弹性
多项式模型
8.4 回归分析
具体线性变换方法:
1.倒数变换
倒数变换是用新的变量来替换原模型中变量的倒数,从而使原模型变成线性模型的一种方法。例如,对于双曲线函数,令 代入原方程式,可有: 。
2、半对数变换
这种方法主要应用于对数函数的线性变换。对于对数函数,令 ,代入原方程,同样可得: 。
8.4 回归分析
3、双对数变换
这种方法通过用新变量替换原模型中变量的对数,从而使原模型变换为线性模型。例如对幂函数的两边求对数,可得:
令 ,代入上式可得:
4、多项式变换
这种方法适用于多项式方程的变换。例如,对于一元二次多项式,可令 , 代入原方程,可得:
8.4 回归分析
实际应用时应注意以下问题:
第一,对于一些比较复杂的非线性函数,常常需要综合利用上述的几种方法。
第二,为了能够根据样本观测值,对通过变换得到的线性回归方程式进行估计,该方程中的所有变量都不允许包含未知的参数。
第三,要考虑随机误差项的问题,只有当变换后的新模型中包含的误差项能够满足各种假定时,新模型中回归系数最小二乘估计量的各种理想性质才能成立。
8.4 回归分析
第四,对于参数为非线性或参数与变量均为非线性的函数来说,无法得到原方程中非线性参数的无偏估计量。
第五,有时需要利用其他一些方法,如泰勒级数展开法等来进行估计。
最后,对于非线性回归,一般可采用多种非线性回归模型进行拟合,然后进行比较,选择最理想的模型。一般可以比较拟合优度大小来进行选择。
本章小结
1.相关与回归分析
2.相关系数
3.回归模型及其有关检验
4.回归模型的预测
谢谢!

展开更多......

收起↑

资源预览