第7章相关与回归课件(共58张PPT)-《统计学-理论、案例、实训》同步教学（电工版）

资源简介

(共58张PPT)
第7章相关与回归
第一节相关分析
第二节一元线性回归
第三节多元线性回归
学习目标
1. 变量间的相关关系及相关系数计算
2. 总体回归函数与样本回归函数
3. 线性回归的基本假定
4. 简单线性回归参数的估计与检验
5. 多元线性回归参数的估计与检验
6. 多个变量的线性相关关系：复相关系数和偏相
关系数
7. 常用的可以转换为线性回归的非线性函数
第一节相关分析
一、变量间的关系
二、相关关系的类型
三、相关系数
变量间的相互关系
◆确定性的函数关系 Y=f (X)
◆不确定性的统计关系—相关关系
Y= f（X）+ε (ε为随机变量)
◆没有关系
相关关系的类型
从涉及的变量数量看：简单相关与多重相关（复相关）
从变量相关关系的表现形式看：线性相关与非线性相关
从变量相关关系变化的方向看：正相关与负相关
从变量相关的程度看：完全相关、不完全相关与不相关

完全负线性相关
完全正线性相关

相关关系的类型
(散点图)

不相关

负线性相关

正线性相关

非线性相关
相关系数
(correlation coefficient)
度量变量之间线性关系强度的一个统计量
若相关系数是根据总体全部数据计算的，称为总体相关系数，记为
若是根据样本数据计算的，则称为样本相关系数，简称为相关系数，记为 r
也称为Pearson相关系数 (Pearson’s correlation coefficient)
样本相关系数的计算公式
相关系数的显著性检验
(检验的步骤)
检验两个变量之间是否存在线性相关关系
采用R.A.Fisher提出的 t 检验
检验的步骤为
提出假设：H0：；H1： 0
计算检验的统计量
确定显著性水平，作出决策。如果｜t｜ t /2(n-2) ，则拒绝原假设H0；认为所考察两变量的相关性是显著的，即r在统计上是显著的。反之，则认为r在统计上不显著
一、回归分析的基本概念
二、一元线性回归模型的设定
三、参数的最小二乘估计
四、一元线性回归分析中的显著性检验
五、一元线性回归方程预测
第二节一元线性回归
回归的古典意义
高尔顿遗传学的回归概念
父母身高与子女身高的关系:
无论高个子或低个子的子女
都有向人的平均身高回归的趋势
回归的现代意义
一个因变量对若干解释变量依存关系的研究
回归的目的（实质）：
由固定的自变量去估计因变量的平均值
样本
总体
自变量固定值
估计因变量平均值
什么是回归分析？
(regression analysis)
重点考察考察一个特定的变量(因变量)，而把其他变量(自变量)看作是影响这一变量的因素，并通过适当的数学模型将变量间的关系表达出来
利用样本数据建立模型的估计方程
对模型进行显著性检验
进而通过一个或几个自变量的取值来估计或预测因变量的取值
回归模型的类型
一元线性回归
涉及一个自变量的回归
因变量y与自变量x之间为线性关系
被预测或被解释的变量称为因变量(dependent variable)，用y表示
用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable)，用x表示
因变量与自变量之间的关系用一个线性方程来表示
一元线性回归模型
(linear regression model)
描述因变量 y 如何依赖于自变量 x 和误差项的方程称为回归模型
一元线性回归模型可表示为
y = + b x + e
y 是 x 的线性函数(部分)加上误差项
线性部分反映了由于 x 的变化而引起的 y 的变化
误差项是随机变量
反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响
是不能由 x 和 y 之间的线性关系所解释的变异性
和称为模型的参数
简单线性回归的基本假定
假定1：零均值假定。
假定2：同方差假定。
假定3：无自相关假定。
假定4：随机扰动与自变量不相关。
假定5：正态性假定
估计的回归方程
(estimated regression equation)
总体回归参数和b是未知的，必须利用样本数据去估计
用样本统计量和代替回归方程中的未知参数和b ，就得到了估计的回归方程
一元线性回归中估计的回归方程为
其中：是估计的回归直线在 y 轴上的截距，是直线的斜率，它表示对于一个给定的 x 的值，是 y 的估计值，也表示 x 每变动一个单位时， y 的平均变动值
参数的最小二乘估计
参数的最小二乘估计
(method of least squares )
德国科学家Karl Gauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数
使因变量的观察值与估计值之间的误差平方和达到最小来求得和b 的方法。即
用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小
Karl Gauss的最小化图
x
y
(xn , yn)
(x1 , y1)

(x2 , y2)
(xi , yi)
ei = yi-yi
＾
参数的最小二乘估计
( 和b是的计算公式)
根据最小二乘法，可得求解和b 的公式如下
回归直线的拟合优度
一元线性回归分析中的显著性检验
离差
因变量 y 的取值是不同的，y 取值的这种波动称为离差。离差来源于两个方面
由于自变量 x 的取值不同造成的
除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响
对一个具体的观测值来说，离差的大小可以通过该实际观测值与其均值之差来表示
离差分解图
x
y
y

离差平方和的分解
(离差平方和的关系)
SST = SSR + SSE
总平方和
(SST)
{
回归平方和
(SSR)
残差平方和
(SSE)
{
{
离差平方和的分解
(三个平方和的意义)
总平方和(SST—total sum of squares)
反映因变量的 n 个观察值与其均值的总离差
回归平方和(SSR—sum of squares of regression)
反映自变量 x 的变化对因变量 y 取值变化的影响，或者说，是由于 x 与 y 之间的线性关系引起的 y 的取值变化，也称为可解释的平方和
残差平方和(SSE—sum of squares of error)
反映除 x 以外的其他因素对 y 取值的影响，也称为不可解释的平方和或剩余平方和
可决系数R2
(coefficient of determination)
回归平方和占总离差平方和的比例
反映回归直线的拟合程度
取值范围在 [ 0 , 1 ] 之间
R2 1，说明回归方程拟合的越好；R2 0，说明回归方程拟合的越差
决定系数平方根等于相关系数
估计标准误差
(standard error of estimate)
实际观察值与回归估计值误差平方和的均方根
反映实际观察值在回归直线周围的分散状况
对误差项的标准差的估计，是在排除了x对y的线性影响后，y随机波动大小的一个估计量
反映用估计的回归方程预测y时预测误差的大小
计算公式为
回归系数的检验
线性关系的检验
一元线性回归方程显著性检验
回归系数的检验和推断
在一元线性回归中，等价于线性关系的显著性检验
采用t检验
检验 x 与 y 之间是否具有线性关系，或者说，检验自变量 x 对因变量 y 的影响是否显著
理论基础是回归系数的抽样分布
回归系数的检验和推断
(样本统计量的分布)
是根据最小二乘法求出的样本统计量，它有自己的分布
的分布具有如下性质
分布形式：正态分布
数学期望：
标准差：
由于未知，需用其估计量sy来代替得到的估计的标准差
回归系数的检验和推断
(检验步骤)
提出假设
H0: b = 0 (没有线性关系)
H1: b 0 (有线性关系)
计算检验的统计量
确定显著性水平，计算临界值，并做出决策
拒绝H0，自变量对因变量的影响显著
不拒绝H0，自变量对因变量的影响不显著
线性关系的检验
检验自变量与因变量之间的线性关系是否显著
线性关系的检验
(检验的步骤)
提出假设
H0： =0 线性关系不显著
2. 计算检验统计量F
确定显著性水平，并根据分子自由度1和分母自由度n-2，查表
作出决策：若，拒绝H0。表明线性回归方程显著。
点预测
区间预测
一元线性回归方程预测
点预测
对于自变量 x 的一个给定值 x0，根据回归方程得到因变量 y 的一个估计值
区间预测
对于自变量 x 的一个给定值 x0，根据回归方程得到因变量 y 的一个估计区间
分两种情形
大样本情形下的区间预测
小样本情形下的区间预测
大样本情形下的区间预测
不同的预测区间和概率保证：
概率保证为68.27%
概率保证为95.45%
概率保证为99.73%
小样本情形下的区间预测
第三节多元线性相关与回归
一、多元线性回归模型的设定
二、参数的最小二乘估计
三、多元线性回归分析中的检验问题
多元线性回归模型的设定
多元线性回归模型
(multiple linear regression model)
一个因变量与两个及两个以上自变量的回归
描述因变量 y 如何依赖于自变量 x1 ， x2 ，…， xk 和误差项的方程，称为多元回归模型
涉及 k 个自变量的多元线性回归模型可表示为
b0 ，b1，b2 ，，bk是参数
是被称为误差项的随机变量
y 是x1,，x2 ，，xk 的线性函数加上误差项
包含在y里面但不能被k个自变量的线性关系所解释的变异性
多元线性回归模型
(基本假定)
多元线性回归模型，除了要符合一元线性回归中的零均值、同方差、无自相关、随机扰动项与自变量不相关以及正态性假定以外，还需要增加各自变量之间不存在线性关系的假定。
多元线性回归方程
(multiple linear regression equation)
描述因变量 y 的平均值或期望值如何依赖于自变量 x1， x2 ，…，xk的方程
多元线性回归方程的形式为
E( y ) = 0+ 1 x1 + 2 x2 +…+ k xk
b1，b2，，bk称为偏回归系数
bi 表示假定其他变量不变，当 xi 每变动一个单位时，y 的平均变动值
估计的多元线性回归的方程
(estimated multiple linear regression equation)
是
估计值
是 y 的估计值
用样本统计量估计回归方程中的参数时得到的方程
由最小二乘法求得
一般形式为
多元线性回归参数的最小二乘估计
参数的最小二乘估计
求解各回归参数的标准方程如下
使因变量的观察值与估计值之间的离差平方和达到最小来求得。即
拟合优度和显著性检验
回归方程的拟合优度
多重可决系数
(multiple coefficient of determination)
回归平方和占总平方和的比例
计算公式为
因变量取值的离差中，能被估计的多元回归方程所解释的比例
修正多重可决系数
(adjusted multiple coefficient of determination)
用样本量n和自变量的个数k去修正R2得到
计算公式为
避免增加自变量而高估 R2
意义与 R2类似
数值小于R2
估计标准误差 Sy
对误差项的标准差的一个估计值
衡量多元回归方程的拟合优度
计算公式为
显著性检验
线性关系检验
（全检验）
检验因变量与所有自变量之间的线性关系是否显著
也被称为总体的显著性检验，或者全检验
检验方法是将回归均方(MSR)同残差均方(MSE)加以比较，应用 F 检验来分析二者之间的差别是否显著
如果是显著的，因变量与自变量之间存在线性关系
如果不显著，因变量与自变量之间不存在线性关系
线性关系检验
（步骤）
提出假设
H0： 1 2 k=0 线性关系不显著
H1： 1， 2， k至少有一个不等于0
2. 计算检验统计量F
确定显著性水平和分子自由度k、分母自由度n-k-1找出临界值F
4. 作出决策：若F>F ，拒绝H0
回归系数的检验
（偏检验）
线性关系检验通过后，对各个回归系数有选择地进行一次或多次检验
究竟要对哪几个回归系数进行检验，通常需要在建立模型之前作出决定
对回归系数检验的个数进行限制，以避免犯过多的第Ⅰ类错误(弃真错误)
对每一个自变量都要单独进行检验
应用 t 检验统计量
回归系数的检验
(步骤)
提出假设
H0： bi = 0 (自变量 xi 与因变量 y 没有线性关系)
H1： bi 0 (自变量 xi 与因变量 y有线性关系)
计算检验的统计量 t
确定显著性水平，并进行决策
t >t ，拒绝H0； t ≤t ，不拒绝H0
本章小结
各种变量相互之间的依存关系：
确定性的函数关系、不确定性的相关关系
2. 变量间的相关关系的程度用相关系数去度量
3. 现代意义的回归是关于一个变量对另一个或另外多个变量依存关系的研究。回归分析的目的是要用样本回归函数去估计总体回归函数。
4. 简单线性回归和多元线性回归的最小二乘估计
5. 可决系数去度量回归的拟合优度

展开更多......

收起↑

请用微信扫码

第7章相关与回归 课件(共58张PPT)-《统计学-理论、案例、实训》同步教学（电工版）

第7章相关与回归 课件(共58张PPT)-《统计学-理论、案例、实训》同步教学（电工版）

第7章相关与回归课件(共58张PPT)-《统计学-理论、案例、实训》同步教学（电工版）

第7章相关与回归课件(共58张PPT)-《统计学-理论、案例、实训》同步教学（电工版）