8相关和回归 课件(共88张PPT)- 《统计学理论与实务》同步教学(人民邮电版)

资源下载
  1. 二一教育资源

8相关和回归 课件(共88张PPT)- 《统计学理论与实务》同步教学(人民邮电版)

资源简介

(共88张PPT)
*
*
第八章相关和回归
(Correlation and Regression)
一、 相关与回归分析的意义
二、 相关分析
三、 回归分析
四、 估计标准误差
*
*
第一节 相关与回归分析的意义
相关分析
就是用一个指标来表明现象间相互依存关系的密切程度。
回归分析
就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
相关分析和回归分析都是用于研究变量之间关系的方法,两者经常替换使用。
*
*
第一节 相关分析与回归分析的意义
一、函数关系:
当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,这种关系为确定性的函数关系。
一般把作为影响因素的变量称为自变量;把发生对应变化的变量称为因变量。Y是因变量,P与X是自变量。
*
*
函数关系的特点
是一一对应的确定关系
设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量
各观测点落在一条线上









x
y
*
*
函数关系的例子
某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x(p 为单价)
圆的面积(S)与半径之间的关系可表示为S =
企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3
*
*
当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化,变量间的这种相互关系,称为具有不确定性的相关关系。
如:劳动生产率与工资水平的关系、投资额与国民收入的关系。
相关关系经常用一定的函数形式去近似地描述。
二、相关关系
*
*
相关关系的特点
变量间关系不能用函数关系精确表达
一个变量的取值不能由另一个变量唯一确定
当变量 x 取某个值时,变量 y 的取值可能有几个
各观测点分布在直线周围









x
y
*
*
相关关系的例子
商品的消费量(y)与居民收入(x)之间的关系
商品销售额(y)与广告费支出(x)之间的关系
粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系
收入水平(y)与受教育程度(x)之间的关系
子女身高(y)与父亲身高(x)之间的关系
*
*
相关关系与函数关系在一定的条件下是可以相互转换的。
(1)本来具有函数关系的变量,当在观测误差时,其函数关系往往以相关的形式表现出来。
(2)如果我们对所研究对象有更深入的认识,便可以将影响因素全部纳入方程,相关关系成为函数关系。
*
*
第二节 相关分析
一、相关分析的内容:
(一)确定变量间有无相关关系,以及相关关系的表现形式
(二)确定相关关系的紧密程度
(三)确定相关关系的数学表达式
(四)测定变量估计值和实际值之间的差异
(狭义的相关分析仅指一、二,三、四为回归分析)
*
*
二、相关关系的种类
(一)按相关关系涉及因素的多少可以分为单相关和复相关
(二)按相关的形式不同可以分为直线相关和非直线相关
(三)直线相关按其变化的方向不同可以分为正相关和负相关
(四)按相关的程度可分为完全相关、不完全相关和不相关
*
*
种类1
按变量多少划分
单相关:一个变量对另一个变量的相关关系,称为单相关。
复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。如某种商品的需求与其价格水平及人们收入水平之间的相关关系就是一种复相关。
偏相关
*
*
偏相关
在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为偏相关。
*
*
种类2
按相关形式划分
线性相关:当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关。如人均消费水平与人均收入水平通常呈线性关系。
非线性相关:如果两种相关现象之间,不表现为直线的关系,而是近似于某种曲线方程的关系,则称为非线性相关。如产品的平均成本与产品总产量之间的相关关系就是一种非线性关系。
*
*
相关图
曲线相关 不相关
*
*
种类3
直线相关按相关方向划分
正相关:当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。如工人的工资随劳动生产率的提高而增加。
负相关:当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。如商品流转的规模越大,流通费用水平则越低。
*
*
正相关
强正相关 弱正相关
*
*
负相关
强负相关 弱负相关
*
*
种类4
按相关程度划分
完全相关:当一种现象的数量变化完全由另一个现象的数量变化所确定时,这两种现象间的关系为完全相关。即函数关系。
不完全相关:两个现象之间的关系介于完全相关和不相关之间,称为不完全相关。
不相关:当两个现象彼此互不影响,其数量变化各自独立时,称为不相关。如:股票价格的高低与气温的高低是不相关的。
*
*
完全相关
*
*
不相关
*
*
种类5
按相关性质划分
真实相关:当两种现象之间的相关确实具有内在的联系时,称之为“真实相关”。
虚假相关:当两种现象之间的相关只是表面存在,实质上并没有内在的联系时,称之为“虚假相关”。
*
*
相关关系的图示












不相关









负线性相关









正线性相关












非线性相关







完全负线性相关
完全正线性相关









*
*
三、相关关系的表示方法
(一)相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。
简单相关表
单变量分组相关表
分组相关表
双变量分组相关表
*
*
三、相关关系的表示方法
1、简单相关表
表8-1
*
*
2、单变量分组相关表
*
*
3、双变量分组相关表
*
*
(二)相关图
相关图,又称散点图,它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描述出来,用来反映两变量之间相关关系的图形。
*
*
散点图
*
*
(三)直线相关系数
在统计研究中,对现象间相关关系的密切程度可用统计指标来测定,用相关系数r或相关指数R来确定。
对直线相关来说,可用r或R的数值表示相关的程度;而对于曲线相关来说,只能用相关指数R来衡量其相关程度。
设计思路
定义公式
计算公式
*
*
设计思路
线性关系分布图
*
*
定义公式
*
*
计算公式
例题
*
*
例题
题目
计算表
计算结果
*
*
题目
*
*
用简化公式计算r示例表
*
*
极端值
相关系数的解释
*
*
一般值
显著相关
低度相关
微弱相关
*
*
注意事项
① r值很小,说明X与Y之间没有线性相关关系,但并不意味着X与Y之间没有其它关系,如很强的非线性关系。
②直线相关系数一般只适用与测定变量间的线性相关关系,若要衡量非线性相关时,一般应采用相关指数R。
*
*
相关系数的显著性检验
通常,我们用样本相关系数r作为总体相关系数ρ的估计值,而r仅说明样本数据的X与Y的相关程度。有时候,由于样本数据太少或其它偶然因素,使得样本相关系数r值很大,而总体的X与Y并不存在真正的线性关系。因而有必要通过样本资料来对X与y之间是否存在真正的线性相关进行检验,即检验总体相关系数ρ是否为零。
*
*
斯皮尔曼等级相关系数
公式
*
*
斯皮尔曼等级相关系数
表8-3
*
*
斯皮尔曼等级相关系数
计算
*
*
斯皮尔曼等级相关系数
需要注意的是,等级相关测定的是两个变量的等级相关程度,即一个变量的等级随另一个变量的等级的增加而增加(或下降)的程度,而不管两个变量是直线相关还是曲线相关。如果︱r ︱ =1,则必定有︱ rs ︱ =1,但若︱ rs ︱ =1,则不一定︱ r ︱ =1。见下图。
*
*
等级相关系数与直线相关系数的关系
示意图
*
*
肯德尔和谐系数
rs用于测量两个变量等级的相关程度。统计学家肯德尔(Kendall)提出多变量等级相关系数,即肯德尔和谐系数rk,将其应用于测量多个变量间的等级相关程度。
*
*
和谐系数的计算公式
式中:R为不同序列评价的等级和
K为多个等级的项数
n为评价对象的项数
*
*
举例1
评判员 饮料品种
A B C D E
甲 2 1 5 4 3
乙 1 3 4 5 2
丙 1 2 4 5 3
等级和R 4 6 13 14 8
五种饮料评选数列表
*
*
题解1
计算
*
*
举例2
肯德尔系数
*
*
题解2
上表
计算可
*
*
第三节回归分析
在相关分析中,我们用相关系数来反映两个变量间相互关系的密切程度。如果已知两个变量X和Y之间存在着相关关系,我们希望用一个变量的值来估计或预测另一个变量的值,这就是回归分析所要解决的问题。
自变量与因变量
回归方程
一﹑简单线性回归概述
*
*
自变量与因变量
在回归分析中,需要搞清是哪一个变量的变动影响另一个变量的变动,即分清自变量和因变量。起影响作用的变量叫自变量,用X表示;由于自变量的变动而发生对应变化的变量叫因变量,用Y表示。
举例
*
*
举例
①在工业企业经济统计分析中,利润额受投资额的大小影响,因而投资额可看作是自变量,利润额可看作是因变量。
②有时两个变量可以互为因果关系,比如全社会的生产量与消费量,这时对何者为自变量,何者为因变量就要根据研究目的来决定。如果希望研究生产量的变化怎样影响消费量的变化,则可将生产量定为自变量,消费量定为因变量,反之亦然。
*
*
回归方程
以表8-1中数据为例,以工人工龄长度作为自变量X,工人日产量作为因变量Y。从图8-1散点图可以看出,观测点的变化趋势呈直线形式,用一条直线穿过这些点的中间部分,观测点在直线附近波动,因而可以用一条直线较好地代表这些点的平均路径。由此而建立的直线方程,又称之为回归方程。
*
*
表8-1
图表
*
*
图8-1
图8-1
*
*
方程及解释
其中Yc是Y的估计值或称为预测值,a和b通常称之为回归系数。参数a表示在X为零时,Yc的估计值,即Yc的起始估计值。参数b表示X每增加一个单位所引起的Y的增加值。
*
*
二、最小二乘法确定模型参数
根据X与Y两变量的观测值,确定直线回归方程:Yc=a+bX,一般有若干条直线可以表示这一方程。直观上似乎所有直线都可以较好地代表这些点的平均水平,而不同的直线可以给出不同的估计值Yc,那么究竟哪条直线能给出最好的预测值呢?数理统计知识证明,最小二乘法是一种参数拟合较好的方法。
*
*
最小二乘法
最小二乘法的理论基础是样本的n个实际值Y与其相应的理论值Yc的离差平方和达到最小,即:
式中,a,b是待定参数,Q是a,b的函数,要使Q达到最小,依据函数求极限的原理,则先求Q对a和b的偏导数,再令其为0。即:
正规方程
举例
注意
*
*
正规方程
解正规方程得:
*
*
举例
仍以表8-1为例,建立直线回归方程。在计算相关系数时(参见表8-2),已求得如下过程数据:
由最小二乘法标准方程得回归系数的计算值为:
得出Y对X的直线回归方程为:
*
*
方程的意义
*
*
注意
注意字母含义
*
*
三、回归直线的代表性分析
1.总变差的分解
2.可决系数与相关指数
3.估计标准误差
4.R与SY·X关系
5.相关回归的区别和联系
*
*
1、总变差分解
建立了回归方程以后,通常要用方程估计值Yc来推断或预测实际值Y。为了分析用Yc去估计Y是否准确可靠,常采用反映回归直线代表性好坏的统计分析指标,检验方程回归系数的拟合优劣程度。为此需要进行变差分析。
思想
分析
推导
*
*
总离差平方和分解
*
*
思想
*
*
分析
下图
*
*
推导
(公式)
*
*
推导
*
*
推导1
*
*
推导2
表8-1
表8-3
表8-3
*
*
推导3
表8-2
*
*
2、可决系数
(公式)
*
*
相关指数
(公式)
*
*
3、估计标准误差
(公式)
*
*
估计标准误差1
已在上章
表8-3
*
*
估计标准误差2
无偏公式
*
*
估计标准误差3
*
*
4、R与SY·X关系
当样本单位数n很大时,n-2≈n,则
从而有:
而因变量Y的方差为:
因此相关指数R与估计标准误差SY.X有如下关系:
*
*
5、相关与回归的区别和联系
在相关分析中,所用相关系数r或相关指数R表明两个变量之间联系的密切程度。它要求两个变量都是随机变量,变量间互相影响,互相依存,处于对等地位,不能以其中一个变量的值对另一变量的值进行预测。而回归分析则要表明一个变量对另一变量在数量上的影响,必须分清哪个是自变量,哪个是因变量,根据回归方程可用一个变量的值对另一变量的值进行推算和预测。
*
*
①相关分析所研究的变量是对等关系;回归分析所研究的两个变量不是对等关系。
②对两个变量来说,相关分析只能计算出一个相关系数,而回归分析,可分别建立两个不同的回归方程。
③相关分析要求两个变量都必须是随机的,而回归分析的要求,自变量是给定的,因变量是随机的。
相关分析与回归分析的区别:
*
*
狭义上,尽管相关与回归有一定区别,但它们之间的关系很密切,我们常将两者结合起来使用。根据相关分析可以判断变量间联系的密切程度,进而确定有无必要建立回归方程。只有当变量间有较密切的相关关系时,回归方程才有作用。反过来,若建立了回归方程,可以通过对回归系数的检验,来判断变量间是否存在显著相关。相关与回归在计算上也有密切的联系。
5、相关与回归的区别和联系
*
*
r的正负取值与b与b’的正负取值有关。
5、相关与回归的区别和联系
*
*
四、多元线性回归
多元:
二元:
*
*
五、非线性回归
1. 指数曲线
2. 双曲线
3. 对数曲线
4. S型曲线
5. 幂函数
6. 抛物线
*
*
实际应用非线性模型时应注意:
1.对于一些比较复杂的非线性函数,常常需要综合利用上述的几种方法。
2.为了能够根据样本观测值,对通过变换得到的线性回归方程式进行估计,该方程中的所有变量都不允许包含未知的参数。
3.非线性回归分析要考虑随机误差项的问题。
4.上述各变换方法只适用于变量为非线性的函数。
5.并不是所有的非线性函数都可以通过变换得到与原方程完全等价的线性方程。
注意问题

展开更多......

收起↑

资源预览