9 回归分析 课件(共85张PPT)-《概率论与数理统计(第三版)》同步教学(人民大学)

资源下载
  1. 二一教育资源

9 回归分析 课件(共85张PPT)-《概率论与数理统计(第三版)》同步教学(人民大学)

资源简介

(共85张PPT)
第九章
回归分析
1
§1 问题的提出
变量之间的关系大致有两种,一是函数关系,是确定性的,如 s = v t ; 另一种是相关关系,是不确定的。
在社会经济领域,更多的是相关关系。如投入与产出、价格与需求的关系等等。
回归分析方法是处理变量间相互关系的有力工具。
2
§2 一元正态线性回归
一、散点图与回归直线
将n对观察结果作为直角平面上的点,这样得到的图形称为散点图。散点图可以帮助我们粗略地看出 x 与 y 的相关关系的形式。
3
例1 价格与供给量的观察数据见下表:
x (元) 2 3 4 5 6 8 10 12 14 16
y (吨) 15 20 25 30 35 45 60 80 80 110
散点图
由图1可以看出,x 与 y 之间存在一定的相关关系,且这种关系是线性关系。
图1
4
其他可能的相关关系见下图:
5
图1的10个点虽然不在一直线上,但大致散布于一条直线周围,我们把其表示为:
即对每一个x值,
其中
不依赖于x 的未知参数。
称上述方程为y 关于x 的一元
线性回归方程。通常记为
6
求 a,b 估计值的方法:
(一) 作图法:简单方便,但精度差,局限性大;
(二) 参数估计法:
最大似然估计法;
矩估计法;
最小二乘估计法(常用)。
7
二、最小二乘法
达到最小。
上述原则即称为最小二乘原则,由此估计
a,b的方法称为最小二乘法。
LSE (Least Square Estimation)
8
— 称为正规方程组
其中
9
系数行列式
所以方程组有唯一解
10


显然回归直线经过散点图的几何中心
11
例2 价格与供给量的观察数据见下表:
x (元) 2 3 4 5 6 8 10 12 14 16
y (吨) 15 20 25 30 35 45 60 80 80 110
求 y 对 x 的回归方程。

12
所以所求回归方程为
13
三、线性关系的显著性检验
上述方法得到的模型是否具有实际意义(事实上任何一组数据代入都可以得到经验公式),需要建立一个合理的检验方法。
常用的方法有 F 检验,t 检验,R 检验方法。不难证明,三种方法是一致的。
本节主要介绍 F 检验。
14
(一)平方和分解公式
X
Y
15
因此有
16
所以


17
由于
的相关关系引起的,
因此 U 称为回归平方和。
它是通过 x 对 Y
18
Q 表示除去x 对 Y 的线性影响以外的所有其它影响之和,因此 Q 称为残差平方和或剩余平方和。
从图上看有
两端平方后求和有
总离差平方和
(SST)
回归平方和
(SSR)
残差平方和
(SSE)
{
{
{
19
总离差平方和
(SST)
回归平方和
(SSR)
残差平方和
(SSE)
1、总离差平方和(SST)
---反映因变量的 n 个观察值与其均值的总离差
2、回归平方和(SSR) 即 U
---反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和
3、残差平方和(SSE) 即 Q
---反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和
20
影响越大,反之,则越小。特别地,
总离差平方和
(SST)
回归平方和
(SSR)
残差平方和
(SSE)
21
关于 U 和 Q 的计算公式:
22
(二)F 检验
比值 U/Q 反映了 x 与 Y 之间的线性相关关系与随机因素对 Y 的影响的大小,比值越大,说明线性相关关系越强,但大到什么程度就能说明 x 与 Y 有线性相关关系呢?
用假设检验的方法进行检验,通常选用
作为检验量。
23
可以证明,
24
亦即x、Y之间不存在线性相关关系;
说明x 对 Y 没有线性影响,
反之,若 ,x、Y之间存在线性相关关系。
因此提出假设
可以证明,若H0成立,则统计量
因此可用 F 检验法进行检验。
25
F 检验的具体步骤:
即认为 x、Y 之间存在线性相关关系;
若不能否定H0,则没有理由认为 x、Y 之间存在线性相关关系。
26
例3 价格与供给量的观察数据见下表:
x (元) 2 3 4 5 6 8 10 12 14 16
y (吨) 15 20 25 30 35 45 60 80 80 110

已求得回归方程:
试检验回归效果。
27
即回归效果显著。
28
序号 社会商品零售额 x 税收总额 Y
1 142.08 3.93
2 177.31 5.96
3 204.68 7.85
4 242.88 9.82
5 316.24 12.51
6 341.99 15.55
7 332.69 15.79
8 389.29 16.39
9 453.41 18.45
例4 求下表中营业税税收总额 Y 对社会商品零售总额 x 的线性回归方程,并对回归效果作显著性检验。(单位:亿元,显著性水平
29

所以回归方程为
30
再检验回归效果:
即回归效果显著。
31
(三)相关系数
定义
称统计量
为相关系数。
在进行回归效果检验时,也可采用上述统计量。
32
故拒绝域可取为
33
相关系数检验的具体步骤:
34
例5 对例4中的回归方程作 R 检验。

经计算得
即回归效果显著。
35
事实上,上述两种检验方法是一致的。
这是因为,F 和 R 有如下的关系:
证明
36
由上述证明还可得到
37
(四)预测与控制
如果变量 Y 与 x 之间的线性相关关系显著,利用
求出的线性回归方程
就大致反映了变量 Y 与 x 之间的变化规律,因此可以利用回归方程进行预测与控制。
观测数据
38
1、预测
所谓预测,就是当 x 取某一特定值 x0 时,对 y 的取值作出估计的问题。
点预测的方法是:以 x = x0 代入回归方程,即得 y 的点估计值(点预测值)为:
根据要求的不同,有两类预测的方法,分别是点预测和区间预测。
39
为了知道预测的精确性与可靠性,在实际应用中,还需要对Y0作区间估计,即对于给定的置信度 ,
区间预测的方法是:
求出Y0的置信区间,称为预测区间。
利用统计量
可以证明,
40
41
42
43
44
45
例6 求试对例4中当社会商品零售总额 x = 300亿元时的营业总额作出预测。

回归方程为
点预测:
区间预测:
所以预测区间为
46
2、控制
控制是预测的反问题,问题的提法是:如要求 y 的观察值落在指定区间 (y1, y2) 内,我们应该怎样控制 x的取值呢?
即要求x1, x2, 使 x1 < x < x2 时,所对应的 y 观察值以
要使 x0 处的预测区间包含在指定区间 (y1, y2)内,则 y2- y1 应大于预测区间的长度。即:
的概率落在 (y1, y2)内。
47
48
49
§3 一元非线性回归简介
变量之间的相关关系在实际中往往不一定是线性的,通常需要用回归曲线来描述。但是,直接求解回归曲线往往比较困难,因此,对一些特殊类型,可以通过适当的变量替换化为线性回归问题来处理。
下面列举一些常见的曲线方程及其图形,并给出相应的变量替换公式。
50
1、双曲线型
原方程:
变换方法:
变换后方程:
51
2、指数曲线型 (之一)
原方程:
变换方法:
变换后方程:
52
2、指数曲线型 (之二)
原方程:
变换方法:
变换后方程:
53
3、幂函数型
原方程:
变换方法:
变换后方程:
54
4、对数曲线型
原方程:
变换方法:
变换后方程:
55
5、S 曲线型
原方程:
变换方法:
变换后方程:
56
例7 为了解百货商店销售额 x 与流通费率(这是反映商业活动的一个质量指标,指每元商品流转额所分摊的流通费用)y 之间的关系,收集了九个商店的有关数据见下表:
i 销售额(x: 万元) 流通费率(y: %)
1 1.5 7.1
2 4.5 4.8
3 7.5 3.6
4 10.5 3.1
5 13.5 2.7
6 16.5 2.5
7 19.5 2.4
8 22.5 2.3
9 25.5 2.2
57

(1) x 与 y 的散点图如下:
观察上述散点图可以发现,这九个点大致在一条曲线附近,因而宜用曲线去拟合这批数据,即建立回归曲线方程。
0
2
4
6
8
0
10
20
30
58
回归曲线的形式确定,应尽可能地采用专业知识,此外也可以与典型的函数图象对照使用。此时可能有多种选择方案,对本例来讲可选用
(2)确定回归曲线类型
0
2
4
6
8
0
10
20
30
(3)对原始数据作相应的变量替换,
59
1 1.5 7.0 0.4055 1.9459 7.1665 -0.1665
2 4.5 4.8 1.5041 1.5686 4.4885 0.3115
3 7.5 3.6 2.0149 1.2809 3.6109 -0.0109
4 10.5 3.1 2.3514 1.1314 3.1288 -0.0228
5 13.5 2.7 2.6027 0.9933 2.8112 -0.1112
6 16.5 2.5 2.8034 0.9163 2.5809 -0.0809
7 19.5 2.4 2.9704 0.8755 2.4037 -0.0037
8 22.5 2.3 3.1135 0.8329 2.2616 0.0384
9 25.5 2.2 3.2387 0.7885 2.1442 0.0558
变换后的数据及拟合值与残差值
60
(4)计算过程如下:
61
在上述方程中用原变量代入,得:

得回归方程
62
最后,我们来计算上述回归方程的 R 2及 S。
由前面表格中的数据,
可见,回归效果是比较好的。
63
§4* 多元线性回归
一、数学模型
64
65
二、数学模型的分析与求解
用最大似然估计法估计参数.
达到最小.
66
化简可得
67
正规方程组
68
引入矩阵
69
70
正规方程组的矩阵形式
71
最大似然估计值
称为 P 元经验线性回归方程,简称回归方程.
72
年 管理费用 A产品产量 B产品产量
1 3 3 5
2 1 1 4
3 8 5 6
4 3 2 4
5 5 4 6
例 企业管理费取决于两种重点产品的产量,样本数据为:
求下列回归模型:

73
所以回归模型为:
74
例 某件产品每件平均单价 Y (元)与批量 x (件)之间的关系的一组数据
x
y
30
40
45
50
55
60
65
70
80
90
1.65
1.55
1.48
1.40
1.30
1.26
1.24
1.21
1.20
1.08
25
20
1.81
1.70

一元多项式回归可化为多元线性回归求解。
75
76
正规方程组的解为
77
得到回归方程
78
三、回归方程的显著性检验
总离差平方和的分解
79
F 检验的步骤:
1.提出假设H0;
2.收集样本数据;
3.计算出ESS和RSS;
4.计算检验统计量F;
5.根据显著水平 ,查出临界值F ;
6.作出统计推断:如果F>F ,拒绝H0;否则不拒绝H0。F 值越大,方程的总体线性关系越显著。
80
显然,当H0成立时,即表示模型中被解释变量与解释变量之间不存在显著的线性关系;当H1成立时,即表示模型的线性关系成立。
具体步骤如下:
1. 建立假设
原假设 H0:
备择假设 H1: i 不全为 0
81
2. 在H0成立的条件下,构造统计量
直观上看,回归平方和RSS是解释变量整体对被解释变量Y的线性作用的结果,如果RSS/ESS的比值较大,则解释变量整体对Y的解释程度高,可以认为总体存在线性关系;反之,总体可能不存在线性关系。因此,可以通过该比值的大小对总体线性关系进行推断。
82
若F F (k,n-k-1),则接受H0,即回归效果不显著。
3. 计算,判断
给定显著性水平 ,查 F 分布表,可得到临界值F (k,n-k-1),由样本求出统计量 F 的数值。
若F F (k,n-k-1),则拒绝H0,即回归效果显著;
83
练习:
P192 习题九
1. 2. 3.
84
END
END
85

展开更多......

收起↑

资源预览