第8章 相关与回归分析 课件(共68张PPT)- 《统计学—基于Execl》同步教学(人民大学版)

资源下载
  1. 二一教育资源

第8章 相关与回归分析 课件(共68张PPT)- 《统计学—基于Execl》同步教学(人民大学版)

资源简介

(共68张PPT)
第 8 章 相关与回归分析
8.1 变量间关系的度量
8.2 回归模型及其参数估计
8.3 模型评估和检验
8.3 利用回归方程进行预测
8.4 残差分析
regression analysis
思考一下
同一种商品在不同的购物网站上的销售价格也有差异,人们认为销售价格稍贵的电商配送速度更快,也就是配送时间更短。你认为销售价格和配送时间有关系吗?如果有关系,你知道它们的关系有多强呢?
如果有人问你:身高和体重有关系吗?你的回答是什么?怎样让人信服你的回答?
如果你想用收入来预测支出,你认为该怎么做?假定你的支出总是大于收入,用收入预测支出的结果是错误的吗?如果你支出的误差中只有45%是由收入决定的,你的预测是哪里出了问题?
8.1 变量间关系的度量
8.1.1 变量间的关系
8.1.2 相关关系的描述
8.1.3 相关关系的度量
第 8 章 相关与回归分析
相关分析要解决的问题
相关分析的侧重点在与考察变量之间的关系形态,并分析其关系强度
内容主要包括:
变量之间是否存在关系
如果存在,它们之间是什么样的关系
变量之间的关系强度如何
样本所反映的变量之间的关系能否代表总体变量之间的关系
8.1.1 变量间的关系
8.1 变量间的关系的度量









x
y
函数关系
是一一对应的确定关系
设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量
各观测点落在一条线上
相关关系
(几个例子)
子女的身高与其父母身高的关系
从遗传学角度看,父母身高较高时,其子女的身高一般也比较高。但实际情况并不完全是这样,因为子女的身高并不完全是由父母身高一个因素所决定的,还有其他许多因素的影响
一个人的收入水平同他受教育程度的关系
收入水平相同的人,他们受教育的程度也不可能不同,而受教育程度相同的人,他们的收入水平也往往不同。因为收入水平虽然与受教育程度有关系,但它并不是决定收入的惟一因素,还有职业、工作年限等诸多因素的影响
农作物的单位面积产量与降雨量之间的关系
在一定条件下,降雨量越多,单位面积产量就越高。但产量并不是由降雨量一个因素决定的,还有施肥量、温度、管理水平等其他许多因素的影响
相关关系
(correlation)
一个变量的取值不能由另一个变量唯一确定
当变量 x 取某个值时,变量 y 的取值对应着一个分布
各观测点分布在直线周围
y





x




8.1.2 相关关系的描述
8.1 变量间的关系的度量







完全负线性相关
完全正线性相关









散点图
(scatter diagram)












不相关









负线性相关









正线性相关












非线性相关
用散点图描述变量间的关系
(例题分析)
【例8-1】为研究销售收入、广告支出和销售网点之间的关系,随机抽取25家药品生产企业,得到它们的销售收入和广告支出数据如表8—1所示。绘制散点图描述销售收入与广告支出之的关系
企业编号 销售收入(万元) 广告支出(万元)
1 538.9 65.0
2 315.5 60.4
3 586.9 70.8
4 527.6 81.3
5 697.6 91.7
6 635.7 102.1
7 834.5 112.5
8 908.3 122.9
9 1140.3 133.3
10 1384.9 143.8
11 1053.7 154.2
12 1117.8 164.6
13 1306.5 175.0
14 1343.7 185.4
15 1663.9 195.8
16 969.1 100.0
17 1366.8 216.7
18 1705.1 227.1
19 1785.8 237.5
20 1530.9 247.9
21 2227.6 258.3
22 1921.4 268.8
23 1966.0 279.2
24 2079.0 289.6
25 2354.4 298.0
散点图
(销售收入和广告费用的散点图)
8.1.3 相关关系的度量
8.1 变量间的关系的度量
相关系数
(correlation coefficient)
度量变量之间线性关系强度的一个统计量
若相关系数是根据总体全部数据计算的,称为总体相关系数,记为
若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r
也称为Pearson相关系数 (Pearson’s correlation coefficient)
样本相关系数的计算公式
相关系数的性质
性质1:r 的取值范围是 [-1,1]
|r|=1,为完全相关
r =1,为完全正相关
r =-1,为完全负正相关
r = 0,不存在线性相关关系
-1 r<0,为负相关
0|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱
相关系数的性质
性质2:r具有对称性。即x与y之间的相关系数和y与x之间
的相关系数相等,即rxy= ryx
性质3:r数值大小与x和y原点及尺度无关,即改变x和y的
数据原点及计量尺度,并不改变r数值大小
性质4:仅仅是x与y之间线性关系的一个度量,它不能用
于描述非线性关系。这意为着, r=0只表示两个
变量之间不存在线性相关关系,并不说明变量之
间没有任何关系
性质5:r虽然是两个变量之间线性关系的一个度量,却不
一定意味着x与y一定有因果关系
相关系数的经验解释
|r| 0.8时,可视为两个变量之间高度相关
0.5 |r|<0.8时,可视为中度相关
0.3 |r|<0.5时,视为低度相关
|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关
上述解释必须建立在对相关系数的显著性进行检验的基础之上
用【CORREL】函数或【PEARSON】函数计算相关系数
第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】。
第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【CORREL】(或【PEARSON】,两个函数的语法相同),单击【确定】。
第3步:在【Array1】中选择一个变量的数据所在的区域,在【Array2】中选择另一个变量的数据所在的区域
点击【确定】,即可得到相关系数
用【数据分析】工具计算相关系数
第1步:将光标放在任意空白单元格。然后点击【数据】 【数据分析】。在弹出的对话框中选择【相关系数】。点击【确定】。
第2步:在【输入区域】中选择计算相关系数的数据区域,并在【输出区域】中选择结果放置的位置,界面如下图所示
点击【确定】,即可得到相关系数
【例8—2】销售收入与广告支出之间的相关系数。表示销售收入与广告支出之间有较强的正线性相关,即随着广告支出的增加,销售收入也跟着增加
8.2 回归模型及其参数估计
8.2.1 一元线性回归模型与回归方程
8.2.2 参数的最小平方估计
第 8 章 相关与回归分析
什么是回归分析
(regression analysis)
回归分析(regression analysis)重点考察一个特定的变量(因变量),而把其他变量(自变量)看作是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来,进而通过一个或几个自变量的取值来预测因变量的取值
只涉及一个自变量时称为一元回归,涉及多个自变量时则称为多元回归。如果因变量与自变量之间是线性关系,则称为线性回归(linear regression);如果因变量与自变量之间是非线性关系则称为非线性回归(nonlinear regression)
回归建模的思路
回归建模的大致思路如下
第1步:确定变量间的关系
第2步:确定因变量和自变量,并建立变量间的关系模型
第3步:对模型进行评估和检验
第4步:利用回归方程进行预测
第5步:对回归模型进行诊断
8.2.1 一元线性回归模型与回归方程
8.2 回归模型及其参数估计
一元线性回归
涉及一个自变量的回归
因变量y与自变量x之间为线性关系
被预测或被解释的变量称为因变量(dependent variable),用y表示
用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示
因变量与自变量之间的关系用一个线性方程来表示
一元线性回归模型
(linear regression model)
描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型
一元线性回归模型可表示为
y = b0 + b1 x + e
y 是 x 的线性函数(部分)加上误差项
线性部分反映了由于 x 的变化而引起的 y 的变化
误差项 是随机变量
反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响
是不能由 x 和 y 之间的线性关系所解释的变异性
0 和 1 称为模型的参数
估计的回归方程
(estimated regression equation)
总体回归参数 和 是未知的,必须利用样本数据去估计
用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程
一元线性回归中估计的回归方程为
其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值
8.2.2 参数的最小平方估计
8.2 回归模型及其参数估计
参数的最小二乘估计
(method of least squares )
德国科学家Karl Gauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数
使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即
用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小
Karl Gauss的最小化图
参数的最小二乘估计
( 和 的计算公式)
根据最小二乘法,可得求解 和 的公式如下
一元线性回归分析
(例题分析)
【例8—3】根据例8—1的数据,求销售收入与广告支出的回归方程
用【数据分析】工具进行线性回归
第1步:将光标放在任意空白单元格。然后点击【数据】 【数据分析】,并在【分析工具】中选择【回归】。点击【确定】。
第2步:在【Y值输入区域】中输入因变量Y的数据所在的区域,在【X值输入区域】中输入自变量X的数据所在的区域。在【输出选项】中选择结果的放置位置。在【残差】选项中根据需要选择索要的结果,比如,残差、残差图等。点击【确定】
一元线性回归分析
(例题分析)
一元线性回归分析
(例题分析)
由表8—2的回归结果可知,销售收入与广告支出的估计方程为
回归系数7.2743表示,广告支出每改变(增加或减少)1万元,销售收入平均变动(增加或减少)7.2743万元。截距32.5671表示广告支出为0时,销售收入为32.5671万元
但在回归分析中,对截距通常不作实际意义上的解释,除非有实际意义
一元线性回归分析
(例题分析)
8.3 模型评估和检验
8.3.1 模型评估
8.3.2 显著性检验
第 8 章 相关与回归分析
8.3.1 模型评估
8.3 模型评估及检验
误差及其分解
因变量 y 的取值是不同的,y 取值的这种波动称为误差。误差来源于两个方面
由于自变量 x 的取值不同造成的
除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响
对一个具体的观测值来说,误差的大小可以通过该实际观测值与其均值之差 来表示
误差分解图
x
y
y

误差平方和的分解
(误差平方和的关系)
SST = SSR + SSE
总平方和
(SST)
{
回归平方和
(SSR)
残差平方和
(SSE)
{
{
误差平方和的分解
(三个平方和的意义)
总平方和(SST—total sum of squares)
反映因变量的 n 个观察值与其均值的总误差
回归平方和(SSR—sum of squares of regression)
反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和
残差平方和(SSE—sum of squares of error)
反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和
决定系数R2
(coefficient of determination)
回归平方和占总误差平方和的比例
反映回归直线的拟合程度
取值范围在 [ 0 , 1 ] 之间
R2 1,说明回归方程拟合的越好;R2 0,说明回归方程拟合的越差
决定系数平方根等于相关系数
估计标准误
(standard error of estimate)
实际观察值与回归估计值误差平方和的均方根
反映实际观察值在回归直线周围的分散状况
对误差项 的标准差 的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量
反映用估计的回归方程预测y时预测误差的大小
计算公式为
8.3.2 显著性检验
8.3 模型评估及检验
线性关系的检验
检验自变量与因变量之间的线性关系是否显著
将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著
回归均方:回归平方和SSR除以相应的自由度(自变量的个数k)
残差均方:残差平方和SSE除以相应的自由度(n-k-1)
线性关系的检验
(检验的步骤)
提出假设
H0: 1=0 线性关系不显著
2. 计算检验统计量F
确定显著性水平 ,并根据分子自由度1和分母自由度n-2求统计量的P值
作出决策:若P< ,拒绝H0。表明两个变量之间的线性关系显著
输出结果
Excel
回归系数的检验和推断
在一元线性回归中,等价于线性关系的显著性检验
采用t检验
检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著
理论基础是回归系数 的抽样分布
回归系数的检验和推断
(样本统计量 的分布)
是根据最小二乘法求出的样本统计量,它有自己的分布
的分布具有如下性质
分布形式:正态分布
数学期望:
标准差:
由于 未知,需用其估计量se来代替得到 的估计的标准差
回归系数的检验和推断
(检验步骤)
提出假设
H0: b1 = 0 (没有线性关系)
H1: b1 0 (有线性关系)
计算检验的统计量
确定显著性水平 ,计算出统计量的P值,并做出决策
P< ,拒绝H0,表明自变量是影响因变量的一个显著因素
回归系数的检验和推断
(b1和b0的置信区间)
b1在1- 置信水平下的置信区间为
b0在1- 置信水平下的置信区间为
输出结果
Excel
8.4 利用回归方程进行预测
8.4.1 平均值的置信区间
8.4.2 个别值的预测区间
第 8 章 相关与回归分析
8.4.1 平均值的置信区间
8.4 利用回归方程进行预测
平均值的置信区间
利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间(confidence interval)
E(y0) 在1- 置信水平下的置信区间为
式中:se为估计标准误
8.4.2 个别值的预测区间
8.4 利用回归方程进行预测
个别值的预测区间
利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间(prediction interval)
y0在1- 置信水平下的预测区间为
注意!
置信区间和预测区间
回归预测
(例题分析)
【例8—4】沿用例8—1。求25家企业销售收入的95%的置信区间和预测区间
回归预测
(例题分析)
8.5 残差分析
8.5.1 残差与标准化残差
8.5.2 残差图及其解读
第 8 章 相关与回归分析
8.5.1 残差与标准残差
8.5 残差分析
残差
(residual)
因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示
反映了用估计的回归方程去预测而引起的误差
可用于确定有关误差项 的假定是否成立
用于检测有影响的观测值
标准化残差
(standardized residual)
残差除以它的标准差
也称为Pearson残差或半学生化残差(semi-studentized residuals)
计算公式为
注意:Excel给出的标准残差的计算公式为
这实际上是学生化删除残差(studentized deleted residuals)
残差图
(例题分析)
8.5.2 残差图及其解读
8.5 残差分析
残差图
(residual plot)
表示残差的图形
关于x的残差图
关于y的残差图
标准化残差图
用于判断误差 的假定是否成立
检测有影响的观测值
残差图
(形态及判别)
标准化残差图
用以直观地判断误差项服从正态分布这一假定是否成立
若假定成立,标准化残差的分布也应服从正态分布
在标准化残差图中,大约有95%的标准化残差在-2到+2之间
标准化残差图
(例题分析)
【例8—5】沿用例8—1。绘制25家企业销售收入预测的残差图,判断所建立的回归模型是否合理
结 束
THANKS

展开更多......

收起↑

资源预览