第十章相关与回归课件(共76张PPT)- 《《统计学（第二版）》同步教学（人民大学版）

资源简介

(共76张PPT)
统计学
第十章相关与回归
第十章相关与回归
§1 相关分析
§2 回归分析
§3 用回归进行预测
§4 Logistic回归
*
§1 相关分析
§1.1 变量间的相互关系
§1.2 相关系数
§1.3 相关系数的检验
*
§1.1 变量间的相互关系
变量之间的关系
确定性关系(或称函数关系)：
研究的是确定现象非随机变量间的关系。
2. 统计关系(或称相关关系）：
研究的是非确定现象随机变量间的关系。
*
§1.1 变量间的相互关系
相关关系的划分：
1．按相关程度的大小：完全相关、不完全相关、和不相关
2．按相关关系的变动方向：正相关和负相关
3．按相关的形式：线性相关和非线性相关
4．按变量个数：单相关和复相关
*
§1.1 变量间的相互关系
相关关系可以用散点图直观表示。
通过观察散点图能够直观地发现变量间的统计关系以及它们的强弱程度和数据对的可能走向。
图10-1相关关系图
*
§1.2 相关系数
相关系数以数值的方式精确地度量了两个变量间线性相关的强弱程度。
根据总体数据计算的相关系数称为总体相关系数，记为。
根据样本数据计算的则称为样本相关系数，记为r。
*
§1.2 相关系数
§1.2.1 Pearson简单相关系数
Pearson简单相关系数用来度量定距型变量间的线性相关关系，定义如下：
上式显示，简单相关系数是xi和yi分别标准化后的积的平均数。简式得：
*
§1.2 相关系数
【例10.1】考察产品销售额和广告投入额（单位：百万）之间的关系，记产品销售额为y，记广告投入额为x，收集到20个样品，数据如表10-1所示。计算产品销售额和广告投入额的相关系数。
*
§1.2 相关系数
表10—1 产品销售额和广告投入额数据表
*
§1.2 相关系数
解：对表10-1中的数据进行计算可得
按照公式（10.2）带入有：
*
§1.2 相关系数
§1.2.2 相关系数的性质
1．相关系数的符号：r >0表明两变量为正相关， r <0表明两变量为负相关；
2．相关系数的取值范围在-1和+1之间，即：–1≤r≤ 1；
3．相关系数r的绝对值：越接近于1，表示变量之间的相关程度越高；
越接近于0，表示变量之间的相关程度越低；
如果r =1或–1，则表示两个现象完全线性相关；
如果r=0，则表示两个现象完全不相关。
，表示变量之间的线性相关关系较弱；
，表示变量之间高度相关。
*
§1.2 相关系数
使用相关系数的注意事项:
1．对变量做线性变换不会改变相关系数的绝对值大小。
2．相关系数能够用来度量两变量之间的线性关系，但并不是度量非线性关系的有效工具。低的相关系数可能存在很好的非线性相关。
3．有相关关系也不意味着有因果关系。
*
§1.3 相关系数的检验
相关系数显著性检验的基本步骤：
建立原假设和备择假设
H0：总体相关系数；
H1：总体相关系数。
2.构建检验统计量
3.确定显著性水平，利用该统计量和t分布表判断是否拒绝原假设。
*
§1.3 相关系数的检验
【例10.2】
给定显著性水平为，对例10.1计算的产品销售额和广告投入额的相关系数进行显著性检验。
*
§1.3 相关系数的检验
解：
建立原假设和备择假设：
H0：
H1：
计算检验统计量：
由显著性水平，查t分布表得
因而拒绝H0，认为产品销售额和广告投入额存在显著的相关关系。
*
§2 回归分析
§2.1 回归分析的基本问题
§2.2 一元线性回归模型的设定
§2.3 一元线性回归模型的拟合
§2.4 回归系数的推断
§2.5 回归方程的评价
*
§2.1 回归分析的基本问题
回归分析
回归分析是一种应用极为广泛的数量分析方法，它用回归方程的形式描述和反映变量间的数量变化规律。
回归分析的目的
在相关的基础上进一步研究变量在之间的相互关系，因此它也是带误差项的不确定性的函数关系。
相关分与回归分析的区别
1.回归分析研究变量之间相互关系的具体形式，能从一个变量的变化来推测另一个变量的变化情况，为预测提供可能；
2. 相关分析假设变量之间的地位是等同的，不对变量进行区分；而在回归分析中则把变量区分为自变量和因变量。二者的地位不同，自变量通常被假设为非随机变量。
*
§2.1 回归分析的基本问题
假定变量Y和X的关系受到来自很多方面因素的影响，但是没有一个起主导作用，则可以将这些因素作为随机误差干扰项。从而Y和X之间的联系不是确定性的函数关系，用下式表示:
式中
f(X)：回归函数
：为随机误差或随机干扰，与X无关。
X ：称为自变量或者解释变量
Y ：称为因变量或者被解释变量。
*
§2.1 回归分析的基本问题
回归模型划分（根据自变量的多少）
一元回归
多元回归
回归模型划分（根据自变量和因变量之间的关系）
线性回归
非线性回归
*
§2.2 一元线性回归模型的设定
一元线性回归模型研究的是当中f(X)是线性表达式，并且只有一个自变量的情况，此时有
其中和称为模型的参数。
*
§2.2 一元线性回归模型的设定
一元线性回归方程表明，X和Y之间的统计关系是在平均意义下讨论的，即当X的值给定后利用回归模型计算得到的Y的平均值。
根据取得的数据估计回归方程中的参数，得到经验回归方程，或者称为估计的回归方程：
注意到在真实值Y和估计值并不是完全相等的，它们之间的离差为e：
*
§2.3 一元线性回归模型的拟合
最优曲线拟合样本数据思想（最小二乘法的思想）：
使得估计的直线和真实值之间的残差平方和最小。
残差平方和公式
*
§2.3 一元线性回归模型的拟合
寻找使得达到最小的和做为估计值，
即
对
分别对和求偏导，得到正规方程组：
*
§2.3 一元线性回归模型的拟合
解方程得到
式中
为了方便，记，即：
*
§2.3 一元线性回归模型的拟合
【例10.3】根据例10.1中数据，以产品销售额为因变量，广告投入额为自变量拟合回归方程。
*
§2.3 一元线性回归模型的拟合
解：记产品销售额为Y，广告投入额为X。
拟合的回归方程为：
系数2.35表示广告投入额每增加1个单位，产品销售额平均增加2.35个单位。
*
§2.3 一元线性回归模型的拟合
普通最小二乘估计量的性质：
1. 运用普通最小二乘估计量得出的样本回归线经过样本均值点，即：
2. 残差的均值为0，即：
3. 残差和解释变量不相关，即：
*
§2.4 回归系数的推断
假设检验所需经典线性回归模型假设：
假定1：自变量X和误差项不相关，即。
假定2：误差项的均值为0，。
假定3：同方差假定：的方差为一常数，即。
假定4：无自相关：即两个误差项之间是不相关的，即：
。
*
§2.4 回归系数的推断
§2.4.1 最小二乘估计量的最优线性无偏性
在给定经典回归模型的假定下，由高斯-马尔科夫定理保证了：最小二乘估计量是最优线性无偏的估计量。可通过蒙特卡罗模拟实验来验证，的无偏性。假设已知如下的总体回归方程（参数值是真实已知的）：
其中服从均值为0，方差为1的正态分布。
*
§2.4 回归系数的推断
现在假定X的观测值为1、2、3、4、5、6、7、8、9、10。根据误差的分布分别生成10个误差值，再由X的观测值和给定的系数，计算出Y的值，记为样本1。再根据误差的分布分别生成10个误差值，由X的观测值和给定的系数，计算出Y的值，记为样本2。按照这个方法生成30组样本。分别对每个样本进行回归，得到估计的系数。由此可以得到30个不同的，见表10-4。
*
§2.4 回归系数的推断
表10-4 蒙特卡罗模拟实验：1.5+0.6Xi+ ; ~N(0，1)
*
§2.4 回归系数的推断
可以算出的平均值是1.33、0.61，和真实参数1.5和0.6已经非常接近了。在这里例子中，如果做更多次的抽样实验，会得到更加逼近的估计值。
*
§2.4 回归系数的推断
§2.4.2 回归系数的抽样分布
中Yi依赖于X和误差项，而是一个随机变量，因此Yi也是随机变量。同时作为Yi的线性组合的
也是随机变量。因此它们的值根据样本数据的不同而变化。
为了了解估计量抽样的差异性，对随机变量进行推断，需要求出估计量的方差，并求出它们的抽样分布。
*
§2.4 回归系数的推断
的方差：
服从均值为，方差为的正态分布，即
*
§2.4 回归系数的推断
的方差为：
服从均值为，方差为的正态分布，即
*
§2.4 回归系数的推断
残差的方差（估计误差的方差）公式
对进行调整得到的无偏估计为：
*
§2.4 回归系数的推断
【例10.4 】在例10.3中拟合的产品销售额对广告投入额的回归方程中，考察系数估计量和的方差。
*
§2.4 回归系数的推断
解：
记产品销售额为Y，广告投入额为X，回归方程为
*
§2.4 回归系数的推断
*
§2.4 回归系数的推断
§2.4.3 回归系数的显著性检验
当使用代替和中的时有：
*
§2.4 回归系数的推断
系数检验步骤：
1．提出假设：
: = 0 (没有线性关系)
: 0 (有线性关系)
2. 计算检验的统计量
3. 确定显著性水平，并进行决策：，拒绝。
*
§2.4 回归系数的推断
【例10.5 】以产品销售额和广告投入额的数据为例，对系数的显著性水平做检验。
解：已知回归方程为：
*
§2.4 回归系数的推断
设 : = 0,
: 0。
在显著性水平的条件下，，
因此拒绝域为：。
因此拒绝原假设，认为系数显著不为0。
*
§2.5 回归方程的评价
§2.5.1 回归方程的显著性检验
回归方程的显著性检验从对因变量Y取值变化的成因分析入手。
表10-5 一元线性回归方差分析表
*
§2.5 回归方程的评价
回归平方和
回归方程反映的是自变量不同取值变化对因变量的线性影响规律，因此由此引起的Y的变差平方和称为回归平方和（SSR）；自由度是n-1。
残差平方和
由随机因素引起的Y的变差平方和通常称为残差平方和（SSE）。自由度为n-k-1。
总离差平方和
总离差平方和（SST）指的是数据总的波动情况，用观测值Yi和平均值的离差平方和表示。自由度是自变量的个数k。
三者之间存在关系SST=SSR+SSE。
*
§2.5 回归方程的评价
回归方程的整体拟合程度的F检验的步骤
1. 提出原假设和备择假设：
：回归方程关系不显著
：回归方程关系显著
2. 根据公式，计算检验统计量F的值。
3. 确定显著性水平，并根据分子自由度1和分母自由度n-2找出临界值作出决策：若 ,拒绝。
*
§2.5 回归方程的评价
F检验统计量的构造
F检验统计量是将平方和分解中的回归平方和残差平方和各除以各自的自由度之后相比较的比值作为检验统计量。
*
§2.5 回归方程的评价
【例10.6】以产品销售和额广告投入额的数据为例，对回归方程的做F检验。
*
§2.5 回归方程的评价
解：
*
§2.5 回归方程的评价
设显著性水平为的条件下，，因此拒绝域为：
因此拒绝原假设，回归方程显著。
*
§2.5 回归方程的评价
§2.5.2 回归方程的拟合优度
拟合优度指标考虑回归方程能够解释的变差的比例。拟合优度用R2统计量来衡量，该统计量又被称为判定系数，定义为：
R2统计量反映了回归方程所能解释的变差的比例，取值范围在 [0, 1] 之间。接近1说明回归方程拟合的越好；接近0说明回归方程拟合的越差。
*
§2.5 回归方程的评价
拟合优度和相关系数的关系
由最小二乘法过均值点可推出下式：
由此可以看出X和Y的相关系数越大，回归方程的拟合就会越好。
在多元回归时，由于涉及到变量之间可能的相互作用，上式不能成立。
*
§2.5 回归方程的评价
【例10.7】以产品销售和额广告投入额的数据为例，计算回归方程的拟合优度。
*
§2.5 回归方程的评价
解：
*
§3 用回归进行预测
§3.1 均值预测
§3.2 个值预测
*
§3.1 均值预测
点预测公式：
区间预测公式：
*
§3.1 均值预测
【例10.8 】使用产品销售额和广告投入额的数据，给定X=8计算均值预测的点预测和置信水平为0.95的区间预测。
*
§3.1 均值预测
解：点预测：
给定的显著性水平为0.05时，，因此区间预测为：
*
§3.2 个值预测
点预测公式：
区间估计公式：
*
§3.2 个值预测
【例10.9 】使用产品销售额和广告投入额的数据，给定X=8计算个值预测的点预测和显著性水平0.05下的区间预测。
*
§3.2 个值预测
解：
点预测：
给定的显著性水平为0.05时，，因此区间预测为：
*
§4 Logistic回归
§4.1 引入Logistic回归
§4.2 Logistic回归建模
§4.3 Logistic回归的系数检验
*
§4.1 引入Logistic回归
假设使用普通回归进行建模存在的问题：
又因为响应变量Y是二分类变量，则
因此Yi是服从概率为的伯努利分布。于是得到
*
（i=1,2,…,n）
§4.2 Logistic回归建模
机会比 Odd=p/(1-p)
机会比表明了一个事情成功的概率之于不成功的概率
Logistic回归
在对数机会比和自变量之间建立线性回归关系
logit变换
从p到log(p/(1-p))的变换
*
§4.1 引入Logistic回归
【例】考虑这样一组数据，其中自变量是收入和因变量是是否为研究生学历。
以收入为自变量，研究生学历为因变量绘制X和Y的散点图
*
收入
研究生学历
图10-3 收入和研究生学历变量的散点图
§4.1 引入Logistic回归
对收入变量分组，考虑每组内的响应变量的分布情况后的散点图：
用logistic曲线来拟合P(Y=1) （图10-4中S形曲线），即：
*
图10-4 分组后收入和研究生学历变量的散点图
§4.2 Logistic回归建模
Logit曲线公式
经过变换得到：
*
§4.2 Logistic回归建模
Logistic回归其本质上是一个非线性的回归方程，其求解是通过极大似然方法进行的。其参数估计值为使得（对数）似然函数最大的值。迭代过程得到的信息矩阵的逆矩阵的对角元素的开方为参数估计值的标准误。极大似然估计的参数值具有一致性、渐进有效性和渐进正态性的优良性质。
*
§4.2 Logistic回归建模
首先要写出似然函数。
由Yi是服从概率为pi的伯努利分布以及根据样本点之间相互独立就可以写出似然函数为：
*
§4.2 Logistic回归建模
对似然函数取对数得到对数似然函数为：
*
§4.2 Logistic回归建模
求使得对数似然方程最大的的参数值。由于没有解析解，因此要根据Newton-Rhphson或改进的数值解法进行求解，得到参数的估计值和渐进方差。
我们估计出来的Logistic回归方程为：
*
§4.2 Logistic回归建模
Logistic回归系数的解释:
因变量实际上是log机会比。因此系数的含义为其它变量不变时，自变量Xi每增加一个单位，log机会比的变化为，即其它变量不变时，自变量Xi每增加一个单位，机会比增加
*
§4.3 Logistic回归的系数检验
在大样本条件下，极大似然估计具有一致性、渐进有效性和渐进正态性。因此对系数的检验可以使用Wald检验：在大样本的条件下，
或者
*
§4.3 Logistic回归的系数检验
原假设H0: =0，在备择假设为H1:　，H1: ，
H1: 时，拒绝域分别为，　　
和。
同时可以推出的100（1- ）%的置信区间为；机会比的100(1- )%的置信区间为。
*
谢谢！

展开更多......

收起↑

请用微信扫码

第十章 相关与回归 课件(共76张PPT)- 《《统计学（第二版） 》同步教学（人民大学版）

第十章 相关与回归 课件(共76张PPT)- 《《统计学（第二版） 》同步教学（人民大学版）

第十章相关与回归课件(共76张PPT)- 《《统计学（第二版）》同步教学（人民大学版）

第十章相关与回归课件(共76张PPT)- 《《统计学（第二版）》同步教学（人民大学版）