6章 相关和回归分析 课件(共61张PPT)- 《统计学概论》同步教学(高教版)

资源下载
  1. 二一教育资源

6章 相关和回归分析 课件(共61张PPT)- 《统计学概论》同步教学(高教版)

资源简介

(共61张PPT)
第六章 相关和回归分析
学习目标
主要内容
本章小结
思考与练习
了解曲线回归分析的方法;
理解用最小二乘法确定一元线性回归方程
参数、的推导过程;
掌握相关的意义、种类、相关表、相关
图,掌握积差法相关系数、斯皮尔曼等级
差相关系数、肯德尔一致性相关系数,掌
握简单线性回归分析方法、多元线性回归
分析方法。
知道如何根据有关资料配合多元直线回归方程;
了解如何根据有关资料配合曲线回归方程;
能够编制相关表、绘制相关图,能用积差法公式计算相关系数,能用等级相关法计算斯皮尔曼相关系数、肯德尔相关系数,能根据有关直线回归资料配合回归直线方程。
第二节 相关表、相关图和相关系数
第一节 相关的意义和种类
第三节 简单线性回归分析
第四节 多元线性回归分析
第一节 相关的意义和种类
一、相关的意义
二、相关的种类
一、相关的意义
  客观现象之间确实存在的但关系数值不确
定的数量上的依存关系叫相关关系。
  对现象之间相互关系密切程度的研究,称
为相关分析,相关分析的概念也可用数学术语
表达:相关分析是研究一个变量与另一个变量
或另一组变量之间相关密切程度和相关方向的
一种统计方法。
一、相关的意义
  相关关系具有如下两个特点:
  第一,现象之间确实存在数量上的依存关系
  在相关关系中,有时相互联系的现象之间存
在一定的因果关系,把起着影响作用、主导作用
的那个因素的标志称为自变量,把受到自变量影
响而发生变动的那个因素的标志称为因变量。
  在相关关系中,有时两个变量之间存在非因
果关系。在这种情况下,只有根据研究目的来决
定谁是自变量谁是因变量。
一、相关的意义
   第二,现象之间数量上的依存关系是不确
定的
  对其中一个变量的某一个数值,另一个变
量可能有许多数值与之对应。在这些数值之间
表现出一定的波动性,但又总是围绕着它们的
平均数并遵循一定的规律而波动。
  与相关关系对应的是函数关系。
二、相关的种类
相关的种类(见图6-1)。
图6-1 相关的种类
  
(一)按变量之间的相关强度分
如果一变量的值完全由另一个或一些变量的值所决定,称变量之间的这种相关为完全相关。
  如果一变量的值完全不受另一个或一些变量值的影响,彼此独立,称变量之间不相关。
  如果一变量的值不但与另一个或一些变量的值有关,而且受随机因素的影响,称变量之间的这种相关为不完全相关。
  
(一)按变量之间的相关强度分
  完全相关、不完全相关和不相关(如图6-2)。
图6-2 按相关强度分类
(a) 完全相关
(b) 不相关
(c) 不完全相关
  
(二)按变量之间的方向分
  当一个变量由小变大,另一个变量也相应地由小变大时,这种相关称为正相关。
  当一个变量由小变大,而另一变量相反地由大变小时,这种相关称为负相关。
  
(二)按变量之间的方向分
  正相关和负相关(如图6-3)。
图6-3 按相关方向分类
(a) 正相关
(b) 负相关
  
(三)按变量之间相关的形式分
  当变量 x 值发生变动,变量 y 值随着发生大致均等的变动(增加或减少) ,从图形上看,观察点的分布情况大致散布在一条直线周围,则这两变量就构成线性相关形式,即直线相关。
  当变量 x 值发生变动,变量 y 值也随之而发生变动(增加或减少),但是这种变动不是均等的,如果画在图上,其观察点的分布表现为各种不同的曲线形式,这种相关关系称为非线性相关或曲线相关。
  
(三)按变量之间相关的形式分
  曲线相关的图形可以呈抛物线形,也可以呈双曲线形(如图6-4)。
图6-4 非线性相关
(a) 双曲线
(b) 抛物线
  
(四)按影响因素的多少分
   两个变量之间的相关关系称为简单相关,又称单相关。
  三个或三个以上变量之间的相关关系称为多元相关。
  简单相关有正负之分,说明二变量的相关方向不同。多元相关可以分解为简单相关,即在实际工作中,如果存在多个自变量对一个因变量的关系,可以抓住其中最主要的因素,研究其相关关系,将多元相关化为简单相关。
第二节 相关表、相关图和相关系数
一、相关表
二、相关图
三、相关系数
一、相关表
  编制相关表,必须具有若干个自变量与因
变量的对应资料。而且这类资料要有一定的数
量,如有全面资料则更好。通过这些资料编制
相关表可以直观地判断变量之间大致上呈现何
种关系形式。
(一)简单相关表
  简单相关表是利用未分组的原始资料,将两变量的值一一对应地填列在同一张表格上,这张表格就叫简单相关表。
  其编制程序是:首先确定自变量和因变量;其次,将两个变量的变量值一一对应,按自变量的变量值从小到大顺序排列即可。
  例如,为了研究家庭收入与家庭消费支出的关系,通过抽样调查获得了40个家庭的月收入与月消费支出的资料,以月收入为自变量,月消费支出为因变量编制简单相关表如表6-1所示。
表6-1 家庭月收入与月支出资料表
单位:元
月收入 月支出 月收入 月支出 月收入 月支出 月收入 月支出
856 799 865 820 885 857 902 853
856 799 870 810 885 860 902 869
858 800 870 830 898 855 902 872
858 802 880 840 898 858 902 873
862 803 880 845 898 861 915 850
862 805 880 851 898 863 915 859
862 810 880 853 898 866 915 863
865 805 880 855 898 867 915 868
865 808 885 850 898 890 915 875
865 815 885 852 902 850 915 898
(一)简单相关表
  分析:尽管在家庭月收入相同的情况下,家庭月支出互不相同,但随着家庭月收入的增加,家庭月支出有增长的趋势。
(二)分组相关表
   分组相关表是在简单相关表的基础上,将原始数据进行分组后再制成表。分类(见图6-5)。
图6-5 分组相关表的分类
1. 单变量分组相关表
  是将自变量分组并计算次数,而对应的因变量不分组,只计算其平均值。
  其编制程序:首先,将自变量分为若干组(视资料情况可以是单项式,也可以是组距式);其次,计算各组次数;最后,计算各组对应的因变量平均值。
1. 单变量分组相关表
  把表6-1的资料编制成单变量分组相关表。
家庭月收入(元) 家庭个数(个) 家庭月平均支出(元)
856 2 799.50
858 2 800.50
862 3 806.00
865 4 812.00
870 2 820.00
880 5 848.80
885 4 854.75
898 7 865.72
902 5 863.40
915 6 868.83
表6-2 单变量分组相关表
2. 双变量分组相关表
  是将自变量和因变量都进行分组而制成的相关表。这种表的形状如同棋盘,故又称棋盘式表。
  其编制程序:首先,分别确定自变量及因变量的组数;其次,按两个变量的组数设计棋盘表格;最后,计算各组次数并将其置于相对应的方格之中。
2. 双变量分组相关表
  根据表6-1的资料,编制双变量分组相关表。
表6-3 双变量分组相关表
家庭月 家 庭 月 收 入 (元)
支出(元) 855-865 865-875 875-885 885-895 895-905 905-915 合 计
895-905 1 1
885-895 1 1
875-885 1 1
865-875 5 1 6
855-865 1 2 4 2 9
845-855 3 2 2 1 8
835-845 1 1
825-835 1 1
815-825 2 2
805-815 2 3 5
795-805 5 5
二、相关图
  通过编制相关图也可直观地判断变量之间
大致上呈现何种关系的形式。
  相关图,又称散布图或散点图。它是利用
直角坐标第一象限,将自变量(x)置于横轴
上,因变量(y)置于纵轴上,将两变量相对
应的变量值用坐标点形式描绘出来,用以表明
相关点分布状况的图形。
二、相关图
图6-6 家庭月收入和月支出的相关图
  根据表6-2画相关图,则家庭月收入和月支出关系可以从图6-6中得到了解。
三、相关系数
  (一)相关系数的意义
  相关系数是直线相关条件下说明两个现
象之间相关关系的密切程度的统计分析指标,
用 r 表示,相关系数的取值范围在-1和+l
之间,带负号表明是负相关,带正号表明是
正相关。
(一)相关系数的意义
  一般情况下,通过相关系数判断相关关系密切程度的标准(见图6-7)。
  当| r | =0时,表明 x 和 y 完全不相关;
   当0<| r |≤0.3时,认为 x 和 y 不相关;
   当0.3<| r |≤0.5时,认为 x 和 y 低度相关;
  当0.5<| r |≤0.8时,认为 x 和 y 显著相关;
  当0.8<| r |<1时,认为 x 和 y 高度相关。
图6-7 通过相关系数判断相关关系密切程度的标准
(二)相关系数计算
  1. 积差法
式中:
表示变量 x 的标准差;
表示变量 y 的标准差。
  从基本公式可以看出,相关系数实质上是两变量离差乘积的平均数,更确切地说,是离差系数乘积的平均数。
(二)相关系数计算
   (1)根据未分组资料计算:
(二)相关系数计算
  例1:某地区1992-1996年各年的职工生活费收入和商品销售额的资料,如表6-4。
表6-4 某地区职工生活费收入和商品销售额的资料
年份 职工生活费收入 x(百元) 商品销售额 y(亿元) x2 y2 xy
1992
1993
1994
1995
1996 5.6
6.0
6.1
6.4
7.0 87
93
100
106
114 31.36
36.00
37.21
40.96
49.00 7569
8649
10000
11236
12996 487.2
558.0
610.0
678.4
798.0
合计 31.1 500 194.53 50450 3131.6
解得
r≈0.9762
(二)相关系数计算
   (2)根据单变量分组资料计算:
=
=
=
(二)相关系数计算
  例2:以表6-2的资料为例说明相关系数的计算,此时单变量分组表如表6-2所示,以各组家庭月收入为 x,家庭个数为权数 f ,各组家庭月平均支出为 y,如表6-5。
家庭月收入(元)x 家庭个数(个)f 家庭月平均支出(元) y xf yf X2f Y2f xyf
856
858
862
865
870
880
885
898
902
915 2
2
3
4
2
5
4
7
5
6 799.50
800.50
806.00
812.00
820.00
848.80
854.75
865.72
863.40
868.83 1712
1716
2586
3460
1740
4400
3540
6286
4510
5490 1599
1601
2418
3248
1640
4244
3419
6060.04
4317
5212.98 1465472
1472328
2229132
2992900
1513800
387200
3132900
5644828
4068020
5023350 1278400.5
1281600.5
1948908
2637376
1348800
3602307.2
2922390.25
5246297.829
3727297.8
4529193.413 1368744
1373658
2084316
2809520
1426800
3734720
3025815
5441915.92
3893934
4769876.7
合计 40 8339.5 35440 33759.02 31414730 28518571.49 29929299.62
表6-5相关系数计算表
解得
r≈0.94
(二)相关系数计算
  2. 等级相关
  等级也是一种直线相关分析法,是把数量标志或品质标志的具体体现按等级次序排列,再测定标志等级与标志等级相关程度的一种方法。  
(二)相关系数计算
  (1)斯皮尔曼(Spearman)等级差相关系数
式中: d 是任何一个项目等级之间的差;
    n 是一组变量值的数目。
(二)相关系数计算
  例3:电视音乐会上十首歌曲的两组评定等级:
歌 曲 名 P Q R S T U V W X Y
A 评定组 1 7 10 6 2 8 3 9 5 4
B 评定组 2 6 9 8 3 7 1 10 5 4
d -1 1 1 -2 -1 1 2 -1 0 0
d2 1 1 1 4 1 1 4 1 0 0
  求两组评分的相关系数。
解得
(二)相关系数计算
  例4:由护士张和实习生刘记录的七个病人的血压材料如下:
  求 。
病 人: 1 2 3 4 5 6 7
护士张: 105 149 133 160 141 120 152
实习生刘: 110 140 138 150 130 147 158
解得
(二)相关系数计算
  (2)肯德尔一致性相关系数
式中:
表示颠倒次数之和;
 n 表示每个数列有几个变量值。
  例5:某种产品有十个等级,第一次序为
正常次序。某一检验员判断的等级为等级第二次序(人判断的次序),已知两种次序排列如下。
第一次序 1 2 3 4 5 6 7 8 9 10
第二次序 5 2 1 4 3 9 8 10 7 6
求:两者的相关密切程度。
(二)相关系数计算
解得
第三节 简单线性回归分析
一、回归分析的意义及
分类
二、一元线性回归分析(简单线性回归分析)
三、估计标准误差
一、回归分析的意义及分类
  对现象间变量关系的研究,一般是从两
方面来进行的:
  一方面,研究变量间联系的密切程度,
称相关分析。对于直线相关,用相关系数来
表示;对于曲线相关,用相关指数来表示;
  另一方面,研究变量间的变动关系,并
用数学方程式表示,称回归分析。
一、回归分析的意义及分类
 线性回归分析和非线性回归分析
回归分析涉及自变量的多少
变量间回归关系的表现形式
 一元回归分析和多元回归分析
  回归分析可按不同的标准进行分类
(见图6-8)。
图6-8 回归分析的分类
二、一元线性回归分析
(简单线性回归分析)
  用直线方程来表明两个变量间的变动关
系,并进行估计推算的分析方法称为一元线
性回归分析。
  特点:
  (1)两个变量之间不是对等关系,进行
回归分析时,应先根据研究目的确定自变量
和因变量;
  (2)回归方程的作用在于给出自变量的
值估计推算因变量的值,回归方程表明变量
间的变动关系;
二、一元线性回归分析
(简单线性回归分析)
  (3)回归方程中自变量的系数称为回归
系数,回归系数为正号表明回归方程配合的
是一条上升的直线,负号表明回归方程配合
的是一条下降直线。
  (4)回归方程要求自变量是给定的数
值,因变量是随机变量。
二、一元线性回归分析
(简单线性回归分析)
  配合一元回归直线方程须具备下列前提
条件:
(1)现象间确实存在数量上的相互依存关
系;
(2)现象间的关系是直线关系;这种直线
关系可通过绘制散点图来判断;
(3)具备一组自变量与因变量的对应资料,
且明确哪个是自变量,哪个是因变量。
  假设有两个现象分别表现为自变量 x 和
因变量 y,已知一组 x、y 的对应值:
二、一元线性回归分析
(简单线性回归分析)
  假定两现象满足上述前提条件,给 x、y
配合一元线性回归方程:
yc= a+bx
式中:yc 为 y 的估计推算值
a 为回归直线的起点值
b 为回归系数
  用最小二乘法确定参数a、b。
二、一元线性回归分析
(简单线性回归分析)
=
最小值

=
最小值,把
yc= a+bx 代入
=
最小值
求偏导数得:
=
=
二、一元线性回归分析
(简单线性回归分析)
整理得:
  a 、b 确定后,回归直线方程 yc= a+bx 就确定下来了。给定 x 值,即可估计推算 y 的值。
二、一元线性回归分析
(简单线性回归分析)
广告费
(万元)x 销售额
(万元)y x2 xy y2 yc
1.0 18 1.0 18.0 324 18.23847680
1.5 21 2.25 31.5 441 20.23018992
1.9 22 3.61 41.8 484 21.82356041
2.5 24 6.25 60.0 576 24.21361615
3.0 26 9.00 78.0 676 26.20532926
3.6 28 12.96 100.8 784 28.59538500
4.0 30 16.00 120.0 900 30.18875549
4.5 32 20.25 144.0 1024 32.18046861
4.9 35 24.01 171.5 1225 33.77383910
5.5 36 30.25 198.0 1296 36.16389484
  例6:某行业20家企业广告费和销售额资料如
表6-6所示。
表6-6某行业20家企业广告费和销售额资料
二、一元线性回归分析
(简单线性回归分析)
广告费
(万元)x 销售额
(万元)y x2 xy y2 yc
5.9 38 34.81 224.2 1444 37.75726533
6.5 40 42.25 260.0 1600 40.14732106
7.0 42 49.00 294.0 1764 42.13903418
7.5 43 56.25 322.5 1849 44.13074729
8.0 46 64.00 368.0 2116 46.12246041
8.5 48 72.25 408.0 2304 48.11417352
8.9 50 79.21 445.0 2500 49.70754402
9.5 53 90.25 503.5 2809 52.09759975
10.0 54 100.00 540.0 2916 54.08931287
10.5 56 110.25 588.0 3136 56.08102598
表6-6某行业20家企业广告费和销售额资料 (续)
解得
yc=14.25505057+3.98342623 x
三、估计标准误差
  估计标准误差是 y 的实际值与 y 的估计
推算值离差的一般水平。公式如下:
=
=
式中:n-2 是自由度
    是 y 倚 x 的估计标准误差
三、估计标准误差
  实际应用中,要求有大量变量值的资料。
为了计算估计标准误差时方便,用 n 代替 n-2,
估计标准误差的计算公式可改为:
=
=
第四节 多元线性回归
一、多元线性回归分析的意义
二、多元线性回归模型的建立
  现实中往往一个因变量受多个自变量的
影响。如果将影响因变量的多个因素结合在一起进行分析,则更能揭示现象内在的规律。
  统计中,将涉及两个及两个以上自变量
的线性回归分析,称为多元线性回归分析。
一、多元线性回归分析的意义
二、多元线性回归模型的建立
  设因变量为 y,因变量 y 与自变量
之间存在线性关系,可用多元线性回归方程来
表示这种关系。设多元线性回归方程为:
  式中 a、b1、b2、b3、…、bn 为线性回归方程的参数
=
二、多元线性回归模型的建立
  由于二元线性回归方程是最典型的多元线性
回归方程。设有二元线性回归方程:
  要确定该回归方程,须先求解a、b1、b2三个
参数。用最小二乘法求解得方程组如下:
  根据该方程组可求解出 a、b1、b2 这三个参数。
此时,二元线性回归方程式就可确定了,给定值
就可估计推算 y 的值。
=
  例7:某地区2000年至2006年一种太阳能热水器
销售额、广告费和利润额资料如表6-7所示。
表6-7 某地太阳能热水器销售资料
年份 销售额 广告费 利润额
2000 50 3.3 12 600 39.6 165.0 2500 10.89 12.4334
2001 49 3.0 11 539 33.0 147.0 2401 9.00 11.2437
2002 52 3.4 13 676 44.2 176.8 2704 11.56 13.0425
2003 53 3.5 14 742 49.0 185.5 2809 12.25 13.5241
2004 58 3.5 15 870 52.5 203.0 3364 12.25 14.1616
2005 60 3.7 15 900 55.5 222.0 3600 13.69 15.1247
2006 65 3.9 16 1040 62.4 253.5 4225 15.21 16.4703
- 387 24.3 96 5367 336.2 1352.8 21603 84.85
二、多元线性回归模型的建立
单位:百万元
解得
yc=-5.6259+0.1275x1+3.5407x2
  客观现象之间确实存在的但关系数值不
确定的数量上的依存关系叫相关关系。对现
象之间相互关系密切程度的研究,称为相关
分析。按变量之间的相关强度不同有完全相
关,不完全相关和不相关。按变量之间相关
的方向分为正相关和负相关。按变量之间相
关的形式分为线性相关和非线性相关。按影
响因素的多少即按变量的多少分为简单相关
和多元相关。可用相关表、相关图、相关系
数来表示现象间的相关关系。
  相关系数的计算具体有:积差法相关系数、斯皮尔曼等级差相关系数、肯德尔一致
性相关系数。
  回归分析可按不同的标准进行分类,从
变量间回归关系的表现形式看,分为线性回
归分析和非线性回归分析;从回归分析涉及
自变量的多少,分为一元回归分析和多元回
归分析。
相关关系有哪些特点?
一元线性回归分析有哪些特点?
简单直线回归方程的基本形式是什么 其参数代表什么意义

展开更多......

收起↑

资源预览