第六章 相关与回归分析 课件(共85张PPT)- 《统计学基础》同步教学(人邮版·2021)

资源下载
  1. 二一教育资源

第六章 相关与回归分析 课件(共85张PPT)- 《统计学基础》同步教学(人邮版·2021)

资源简介

(共85张PPT)
应用统计学
绪 论16.1相关分析6.2一元线性回归分析6.3回归方程的预测6.4多元线性回归分析6.5 Excel在相关与回归分析中的应用学习目标1.理解函数关系和相关关系的异同。2.掌握相关系数的计算和分析方法。3.掌握线性回归的基本原理和参数的最小二乘估计的方法。4.掌握线性回归的拟合优度计算和分析方法。5.掌握线性回归方程的显著性检验方法。6.利用线性回归方程进行估计和预测,培养对模型精益求精的工匠精神。
6.1 相关分析
01
6.1
相关分析
6.1.1 函数关系和相关关系
6.1.2 相关关系的类型
6.1.3 相关关系的主要内容
6.1.4 相关关系的测定
达尔文高尔顿高尔顿:1855年发表论文《遗传的身高向平均方向的回归》主要观点: 父母越高,孩子越高;父母越矮,孩子越矮。现象之间的数量关系,存在着两种不同的类型:函数关系和相关关系。函数关系:是一种确定性关系如:销售额=销售价格×销售量相关关系:是一种非确定性关系如:企业生产规模越大,单位生产成本越低6.1.1函数关系和相关关系函数关系函数关系是指变量之间一一对应的确定的数量依存关系。在这种关系中,当其中一个变量发生变化时,另外变量将按照某种确定的函数形式进行变化,其变化方向和程度只能呈现出一种结果,而无其他可能。若将现象用变量进行表示,则函数关系可表现为以下形式,即,设有两个变量和,变量随变量一起变化,并完全依赖于,当变量取某个数值时,依确定的关系取相应的值,则称是的函数,记为。图6.1函数关系变量之间的关系均是常见的函数关系:某种商品的销售额)与销售量之间的关系可表示为(为单价)。圆的面积与半径之间的关系可表示为。企业的原材料消耗额与产量、单位产量消耗、原材料价格之间的关系可表示为。产量97100103106109110114115单位成本7.27.06.97.26.76.56.86.5相关关系相关关系是指变量间的关系在数量上存在不确定的依存关系,一个变量的取值不能唯一地由另一个变量来确定,但它仍按某种规律在一定的范围内变化。变量之间的关系均是常见的相关关系:居民可支配收入与支出之间的关系。学习时间和学习成绩之间的关系。企业研发投入和研发产出之间的关系。按相关的程度不同划分:完全相关、不相关、不完全相关
按依存关系的表现形式不同划分:线性相关、非线性相关
按相关的方向不同划分:正相关、负相关
按研究变量的数量不同划分:单相关、复相关
6.1.2 相关关系的类型
确定现象之间有无关系,以及相关关系的密切程度。
判断变量之间相关关系的表现形式是否为线性。
选择合适的数学模型。
进行相关关系的显著性检验,用以反映变量回归的效果。
6.1.3 相关分析的主要内容
6.1.4相关关系的测定(1)定性分析是依据研究者的知识和经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度。(2)定量分析又称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。1.相关图相关关系的种类与图示完全正线性相关 完全负线性相关 负线性相关 正线性相关 不相关 非线性相关强正相关 弱正相关强负相关 弱负相关真实相关:当两种现象之间的相关确实具有内在的联系时,称之为“真实相关”。虚假相关:当两种现象之间的相关只是表面存在,实质上并没有内在的联系时,称之为“虚假相关”。曲线相关 不相关某车间20名工人工龄长度与日产量相关表2.相关表相关系数r能用来反映变量之间的线性关系的密切程度,因此又称其为线性相关系数,又因其是由英国统计学家皮尔逊(Pearson)提出,故也称为Pearson积矩相关系数。
3. 相关系数
总体相关系数样本相关系数皮尔逊积矩相关系数(Pearson):即协方差与两变量标准差乘积的比值,是没有量纲的、标准化的协方差。★协方差(covariance):两个变量与其均值离差乘积的平均数,是相互关系的一种度量。总体协方差样本协方差(大样本)COV或 2xy★相关系数计算公式积差法简捷法相关系数r的取值范围[-1 1]例题序号收入(千元)支出(千元)1234567811.5222.5344.60.81.52.11.82.42.83.94.712.25446.2591621.160.642.254.413.245.767.8415.2122.090.82.254.23.668.415.621.62合计20.62063.6661.4462.47根据调查得知以下8人收入与支出的相关数据,求收入与支出的相关关系。由计算可知,收入与支出呈高度正相关关系。例题,某公司人均销售额与利润率的相关数据如下,求人均销售额与利润率之间的相关关系。人均销售额(万元)利润率(%)658147633712.610.418.53.08.116.312.36.26.616.836256411649369949158.76108.16342.259.0065.61265.69151.2938.4443.56282.2475.652.0148.03.032.4114.173.818.619.8117.650110.82941465.00654.9解:由计算可知,人均销售额与利润率之间存在高度正相关关系。
6.2 一元线性回归分析
06
6.2
一元线性回归分析
6.2.1 一元线性回归分析的特点
6.2.2 一元线性回归模型基本式
6.2.3 一元线性回归模型的参数估计
6.2.4 一元线性回归模型的检验
回归分析指在相关分析的基础上,根据相关关系的数量表达式(回归方程式)与给定的自变量,揭示因变量在数量上的平均变化,并求得因变量的预测值的统计分析方法。
须明确区分影响因素和被影响因素,其中影响因素常称为解释变量或自变量,被影响因素常称为被解释变量或因变量。
事物之间的因果关系常是相互的。如在公司经营中,收入与支出可互为自变量与因变量。
6.2.1 一元线性回归分析的特点
回归分析与相关分析的关系第一,相关系数()和回归系数()方向一致,可以互相推算;第二,相关分析中与对等,回归分析中与要确定自变量和因变量;第三,相关分析中均为随机变量,回归分析中只有为随机变量。一元回归(简单回归)多元回归(复回归)线性回归非线性回归一 元线性回归按自变量的个数按回归的形态回归分析的种类回归分析的步骤1)确定自变量和因变量;2)确定样本回归方程;3)统计检验;4)预测或控制。6.2.2一元线性回归模型基本式对于经判断具有线性关系的两个变量与,构造一元线性回归模型为: 总体一元线性回归方程样本一元线性回归方程以样本统计量估计总体参数回归系数截距如:各因素对商场销售额的影响:1.服务态度(好):+2.商场拥挤度(大):-3.产品质量(优):+4.地理位置(偏):-(一)假定E( )=0,总体一元线性回归方程:对回归模型的若干假定一元线性回归模型的假定如:各因素对商场销售额的影响:1.服务态度(好):+2.商场拥挤度(大):-3.产品质量(优):+4.地理位置(偏):-一元线性回归方程的几何意义截距斜率一元线性回归方程的可能形态 为正 为负 为0的含义-----以月支出()和月收入()为例:截距表示无自变量的影响时,其它各种因素对因变量的平均影响;---------当月收入为零时,为满足日常基本生活需求,每月需支出600元回归系数表明自变量每变动一个单位,因变量平均变动个单位。--------当月收入每增加一个单位(如1元),则月支出将发生变动,平均增加个单位(如0.4元)0.4×(2-1)=0.46.2.3一元线性回归模型的参数估计建立回归模型实际上是指利用样本观测值估计未知参数的值,其中,是回归模型的常数项,是模型的回归系数。本节介绍最小二乘法(OLS)。最小二乘法(Least-square Method)观察值回归值:→参数的确定与计算最小二乘法的理论基础是样本的个实际值与其相应的理论值的离差平方和达到最小,即:式中,是待定参数,是的函数,要使达到最小,依据函数求极限的原理,则先求对和的偏导数,即:整理得到由两个关于的二元一次方程组成的方程组:★解方程得:与之间的关系例题 10名学生的身高与体重的资料如下表所示,求一元线性回归方程。
学生 身高(cm) 体重(KG)
A B C D E F G H I J 158 160 162 164 166 168 170 172 174 176 47 50 48 55 62 60 52 61 70 65 24964 25600 26244 26896 27556 28224 28900 29584 30276 30976 2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
合计 1670 570 279220 33032
目的:为避免使用一个回归效果较差的模型进行预测,有必要在模型建立之后对其进行各种检验。
步骤:
(1)经济意义检验-避免模型中各变量之间的关系与现实不符;
(2)经计检验-即检验模型中各变量以及模型整体是否通过显著性检验,常用的检验包括t检验、F检验、拟合优度检验、估计标准误差检验等;
(3)计量检验,即检验模型是否与一些经典的回归假设相悖,常用的检验如多重共线性检验、自相关检验、异方差检验等。
6.2.4 一元线性回归模型的检验
拟合优度是指回归直线与各观测点的接近程度,而拟合优度检验就是检验回归模型对样本观测值的拟合程度。
拟合优度检验需要计算拟合优度系数,而这需要对离差平方和进行分解,如图6.12所示。
拟合优度检验
图6.12 拟合优度示例
建立了回归方程以后,通常要用方程估计值来推断或预测实际值。判断用(回归估计值)去估计(实际值)是否准确可靠,也即回归直线与各实际点的拟合效果如何 拟合优度检验-判定系数的计算总离差平方和残差平方和回归平方和SST(Sum of squares of total)总离差平方和=SSR(Sum of squares of regression)回归平方和=SSE(Sum of squares of errors)残差平方和=三种离差平方和的关系判定系数(可决系数)判定系数是指因变量的总变差中可以被自变量解释部分的比例,是衡量拟合模型优劣的重要分析指标。判定系数的表示:越大说明与之间的关系越紧密,实际观察值离回归线就越近,用自变量通过回归方程去估计实际值就越准确,回归直线的代表性(拟合效果)就越好。例题 10名学生的身高与体重一元线性回归方程为:,据此分析其判定系数的构成。
学生 身高(cm) 体重(KG)
A B C D E F G H I J 158 160 162 164 166 168 170 172 174 176 47 50 48 55 62 60 52 61 70 65 24964 25600 26244 26896 27556 28224 28900 29584 30276 30976 2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
合计 1670 570 279220 33032
判定系数的意义当SSR = SST时,为完全的拟合,残差平方和为0,判定系数为1。当SSE= SST时,为最差的拟合,残差平方和最大 ,判定系数为0。判定系数的意义●是指因变量各实际值与其估计值之间的平均差异程度,是总体误差项 的方差的估计量,用符号 表示。●表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。估计标准误差计算公式(仅作参考)在大样本条件(下,可用公式计算:★实际运算时,用此公式:判定系数与估计标准差的关系估计标准差( )越小,则变量间相关程度( )越高,回归线对Y的解释程度越高。★例题 已知以下十人的收入与支出的有关数据,求估计标准差与判定系数。收入支出2030334015132638354379811548109104009001089160022516967614441225184949816412125166410081100293819577701解显著性检验法—回归方程的显著性检验法-回归系数的显著性检验
6.3 回归方程的预测
06
6.3
回归方程的预测
6.3.1 的点估计
6.3.2 的区间估计
回归方程的一个主要作用是用来进行预测,当通过多种检验证明一个回归方程的线性关系显著,即拟合效果较好时,便可利用线性回归方程 进行预测。
对于自变量 的一个给定值 ,可根据回归方程得到因变量的一个估计值。
6.3.1 的点估计
估计的前提:回归方程经过检验,证明 X 和 Y 的关系在统计上是显著相关的。
点估计示意图某集团广告费和销售收入数据如下,求当广告费投入为100万元时,该集团各子公司的平均销售收入约为多少?
例题
解:设则
点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计。对于自变量的一个给定值,可根据回归方程得到因变量的一个估计区间,其也包括两种类型:一类是的平均值的区间估计;另一类是的个别值的区间估计。的区间估计对于给定的X值,求出Y的平均值的置信区间或Y的一个个别值的预测区间。区间估计平均值的区间估计对于给定的x = x0,Y的置信区间为:自由度为n-2的t分布的双侧分位数在小样本条件下,有:学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-5413816705702792203303295546-00若令概率为99.73%,则有t=3
6.4 多元线性回归分析
06
6.4
Excel
多元线性回归分析
6.4.1 多元线性回归模型的基本式
6.4.2 多元线性回归方程的估计
6.4.3 多元线性回归模型的检验
研究一个因变量和多个自变量之间相互关系的统计分析方法,称为多元回归分析。
多元线性回归的基本原理和一元线性回归的完全相同,但由于自变量个数的增加,而导致模型参数的估计变得较为复杂。在实际统计分析中,一般利用统计软件对多元回归模型进行估计,如Eviews、SPSS、STATA、SAS等,其中,前两种软件对于初学者较为常用。
6.4.1 多元线性回归模型的基本式
6.4.2 多元线性回归方程的估计
6.4.3 多元线性回归模型的检验-拟合优度检验
6.5 Excel在相关与回归分析中的应用
06
6.5
Excel
在相关与回归分析中的应用
6.5.1 一元相关分析与回归分析
6.5.2 实例应用
判断变量间的一元相关关系的方法有3种:绘制散点图、计算相关系数和计算协方差。散点图是对所选变量之间相关关系的一种直观描述,可在进行两个变量的相关分析之前绘制散点图,从图中观察两个变量之间的相关关系;统计函数可以直接计算相关系数和协方差,相关系数可以确定两变量相关程度的方向和大小。
通过散点图除了可以看出变量间的相关关系,也可建立回归方程。数据分析工具也可计算出回归方程参数,还可得到显著性检验结果,输出更多的信息。
6.5.1 一元相关分析与回归分析
例 为研究广告费用与销售额之间的关系,对某公司抽取12个月的广告费用和销售额数据,如表6.12所示,试计算广告费用与销售额之间的相关系数并对二者进行回归分析(显著性水平0.05)。
6.5.2 实例应用
归纳
小结
本章小结
本章的重点
掌握OLS法的运用
掌握相关系数的计算
掌握区间预测的运用
补充 --《统计学》参考资料
统计期刊
《统计研究》、《中国统计》、《统计与决策》、《数理统计与管理》
统计教材
[1]贾俊平等. 统计学[M]. 中国人民大学出版社, 2015.
[2]黄良文. 统计学[M]. 中国统计出版社,2012.
[3]魏建国. 统计学[M]. 武汉理工出版社, 2010.
统计网站
[1]国家统计局 http://www.stats.
[2]美国经济分析局 https://www.nber.org
[3]美联储经济数据库 https://fred.stlouisfed.org
[4]美国联邦统计 https://www.usa.gov/statistics
[5]世界银行 https://databank.worldbank.org
[6]国际货币基金组织 https://www.imf.org

展开更多......

收起↑

资源预览