资源简介 (共46张PPT)第十章 相关与回归分析学习目标 知识目标: 了解相关分析的概念、内容和多元线性回归分析的基本思想;掌握相关关系测定和一元线性回归分析的计算方法。 能力目标: 能够测定客观现象间是否具有相关关系;可以熟练地进行一元线性回归计算和分析第十章 相关分析与回归分析第一节 相关分析的概念与内容第二节 相关关系的判断与测定第三节 一元线性回归分析第四节 多元线性回归分析第五节 EXCEL在相关与回归分析中的运用第十章 相关分析与回归分析第一节 相关分析的概念与内容10.1.1相关关系的概念10.1.2相关关系的种类10.1.3相关分析的内容第十章 相关分析与回归分析10.1.1相关关系的概念相关关系是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。相关关系与函数关系1)相关关系的范围比函数关系的范围更广,函数关系可以说是相关关系的一个特例。2)二者之间也有联系,并没有严格的界限。一方面,有些现象从理论上说存在着函数关系,可是在进行多次观察和测量时,由于存在测量误差等原因,实际得到的数据往往也是非确定性的,这时就表现为相关关系。另一方面,有些变量之间尽管没有确定性的函数关系,但为了找到相关关系的一般数量表现形式,又往往需要使用函数关系的近似表达式。而且当我们对现象之间的内在联系和规律性了解得比较清楚时,相关关系又可能转化为函数关系。第十章 相关分析与回归分析10.1.2相关关系的种类相关关系依据不同的划分方式可以分成不同的类型:1)按相关的因素多少分为单相关和复相关现象之间的相关只涉及一个自变量和一个因变量之间的,称为单相关。如果涉及到三个以上变量之间关系时,即一个因变量与两个或两个以上的自变量的复杂依存关系,就称为复相关,或多元相关。2)按相关的形式不同分为直线相关和曲线相关如果根据相关变量的取值在直角坐标系中描点,坐标点散布的形状近似于一条直线,就称这些相关变量之间存在直线相关或线性相关关系。若坐标点散布的形状近似于一条曲线如抛物线,指数曲线等,就称这些相关变量间存在曲线相关关系。第十章 相关分析与回归分析10.1.2相关关系的种类3)按相关变量变化的方向不同分为正相关和负相关当一个变量数值增加或减少,另一个变量数值也增加或减少,两个变量的变动方向一致,有同增或同减的关系,称为正相关。当一个变量数值增加时,另一个变量数值相应地减少,即两个变量是一增一减或一减一增的关系,称为负相关。4)按相关的程度分为完全相关、不完全相关和不相关当一个变量取一定的值时,另一个与其相关的变量也随之取某一确定的值,两个变量之间这种关系,称之为完全相关。如果两个变量的取值各自独立,互不影响,就称为不相关。当两个现象之间的数量关系,介于完全相关与不相关之间时,称为不完全相关。第十章 相关分析与回归分析10.1.3相关分析的内容相关分析的具体内容主要有四个方面 :1)揭示现象之间是否具有相关关系。2)测定现象相关关系的密切程度。3)构建现象相关关系的数学模型。4)测定因变量估计值的误差程度。第十章 相关分析与回归分析第二节 相关关系的判断与测定10.2.1相关关系的判断10.2.2相关关系的测定第十章 相关分析与回归分析 10.2.1相关关系的判断定性分析:对现象进行定性分析,就是根据现象质的规定性,运用理论知识、专业知识、实际经验来进行判断和分析。定性分析是进行相关分析的基础,在此基础上,根据需要通过编制相关表和绘制相关图来进行分析。定量分析 :利用相关图和相关表进行相关关系的判断1)相关表.相关表是一种反映变量之间相关关系的统计表。例1:某公司A产品广告费与销售收入相关表年 份 1 2 3 4 5 6 7 8 9 10年广告费(万元) 2 2 3 4 5 6 6 6 7 7年销售收入(万元) 50 51 52 53 53 54 55 56 56 57第十章 相关分析与回归分析 10.2.1相关关系的判断根据对自变量是否分组,相关表分为简单相关表和分组相关表。上例中即为简单相关表.分组相关表是将原始数据进行分组编制而成的相关表。分组相关表又分为单变量分组相关表和双变量分组相关表。例2:某公司A产品广告费与销售收入单变量分组相关表年广告费(万元) 年数累计 年销售收入(万元)234567 211132 505253535556第十章 相关分析与回归分析 10.2.1相关关系的判断例3:某公司A产品广告费与销售收入双变量分组相关表年广告费(万元) 年销售收入(万元) 合计50~51 51~52 52~53 53~54 54~55 55~56 56~57765432211112 2 231112合计 2 1 1 1 1 2 2 10第十章 相关分析与回归分析 10.2.1相关关系的判断2)相关图.相关图也称相关散点图或散点图,是将具有相关关系的两个变量值描绘在坐标图上,以横轴表示自变量,纵轴表示因变量,按两变量的对应值标出坐标点的分布状况的统计图。例4:某公司A产品广告费与销售收入相关图广告费用与销售收入依存关系散点图4950515253545556575802468系列1第十章 相关分析与回归分析 10.2.2相关关系的测定相关系数1)概念:相关系数是指在直线相关的条件下,说明两个现象之间相关关系紧密程度的统计分析指标,常用表示。2)相关系数的取值范围及其表达的相关程度:(1) 的取值范围为:-1≤ ≤1。的绝对值越接近于1,表明相关程度越高;越接近于0,表明相关程度越低。(2) =+1或 =-1,表明两现象完全相关。(3) = 0,表明两变量之间无直线相关关系。(4)>0,现象呈正相关;<0,现象呈负相关。实践中,一般将现象的相关关系分为四个等级:∣∣<0.3表示微弱相关,0.3≤∣∣<0.5表示低度相关;0.5≤∣∣<0.8表示显著相关;∣∣≥0.8表示高度相关。第十章 相关分析与回归分析 10.2.2相关关系的测定3)相关系数的计算相关系数通常采用积差法计算,其计算公式为:式中 表示相关系数; 表示自变量; 表示因变量。该公式也可写成:式中 为自变量的标准差; 为因变量的标准差; 为自变量与因变量的协方差。由此可知,相关系数是两个变量协方差与两个变量标准差乘积 的比。第十章 相关分析与回归分析10.2.2相关关系的测定例5 利用下表中的资料计算相关系数。积差法相关系数计算表年份 广告费(万元) 销售收入(万元)12345678910 2234566677 50515253535455565657 –2.8–2.8–1.8–0.80.21.21.21.22.22.2 –3.7–2.6–1.7–0.70.70.30.30.32.33.3 7.847.842.240.640.041.441.441.444.844.84 13.696.760.890.490.490.090.091.695.2910.89 10.367.283.060.560.140.360.361.565.067.26合计 48 537 — — 32.6 42.37 36第十章 相关分析与回归分析10.2.2相关关系的测定解:数据计算过程如上表所示,将其中数据代入积差法公式得相关系数 = 0.9687 ,说明A产品年广告费用与年销售收入之间存在高度相关关系。为减轻计算工作量,可将上述相关系数公式整理成如下简捷计算公式:例6 利用下表中的资料用简捷法计算相关系数第十章 相关分析与回归分析10.2.2相关关系的测定相关系数简捷计算表年份 年广告费(万元) 年销售收入(万元)12345678910 2234566677 50515253535455565657 44916253636364949 2500260127042809280929163025313631363249 100102156212265324330336392399合计 48 537 264 28885 2616第十章 相关分析与回归分析10.2.2相关关系的测定解:依据上表中的资料利用简捷公式计算得:=0.9552第十章 相关分析与回归分析第三节 一元线性回归分析10.3.1 回归分析的意义10.3.2 一元线性回归分析第十章 相关分析与回归分析 10.3.1回归分析的意义回归分析的概念和特点。1)回归分析的概念2)回归分析的特点回归分析的类型1)一元回归2)多元回归回归分析的内容1)建立回归方程2)进行相关关系的检验3)利用回归模型进行预测第十章 相关分析与回归分析 10.3.2一元线性回归分析一元线性回归模型一元线性回归模型也称简单线性回归模型,是分析两个变量之间相互关系的数学方程式,其一般表达式为:式中, 代表因变量的估计值, 代表自变量, 称为回归模型的待定参数, 其中 又称为回归系数一元回归模型的建立用 表示自变量 的实际值,用 表示因变量 的实际值( ,因变量的实际值与估计值之差用 表示,称为估计误差或残差。即: 。依据最小平方法理论可得:第十章 相关分析与回归分析 10.3.2一元线性回归分析(1)(2) 由上述两式即可求出 的计算公式:第十章 相关分析与回归分析 10.3.2一元线性回归分析例7 应用例1中表的资料建立一元线性回归模型有关计算数据见例6中的图表,利用例6中图表计算出的数据建立 一元回归模型:设年广告费为自变量 ,年销售收入为因变量 ,则有:利用例6中图表中的数据计算得一元线性回归方程为:一元回归模型的建立用 表示自变量 的实际值,用 表示因变量 的实际值( ,因变量的实际值与估计值之差用 表示,称为估计误差或残差。即: 。依据最小平方法理论可得:第十章 相关分析与回归分析 10.3.2一元线性回归分析一元回归模型的检验1)相关系数显著性检验为保证回归方程具有最低的线性关系,可以将相关系数 的临界值列成相关系数检验表。在给定显著性水平 值和自由度 的值以后,查相关系数检验表,即可找到 对应的最低临界值 ,据此就可以判断线性关系是否成立。若 ,表明在显著性水平 条件下,变量间的线性关系是显著的,建立的回归方程是有意义的;若 ,表明在显著性水平 条件下变量间的线性关系不显著,建立的回归模型实际意义待定。第十章 相关分析与回归分析 10.3.2一元线性回归分析例8 依据例7的资料,对A产品年广告费及年销售收入 的相关关系进行显著性检验。由例1计算可知, 0.9687 ,自由度 ,给定查“相关系数检验表”得 。 ,它表明有95%的概率保证A产品年广告费与年销售收入之间具有线性相关关系,所建立的回归方程 是有意义的。,第十章 相关分析与回归分析 10.3.2一元线性回归分析2)估计标准误差检验估计标准误差也称为估计标准差或估计标准误,是残差平方和的算术平均数的平方根,用 表示。其计算公式为:式中 代表估计标准误差, 代表估计残差(实际值与估计值之差), 代表样本容量, 代表回归模型中待定参数的个数。估计标准差是一项误差分析指标,用于判断回归模型拟合的优劣程度。第十章 相关分析与回归分析 10.3.2一元线性回归分析上述公式计算估计标准差较繁琐,可以将其化简整理成如下的简捷计算法:例9 利用例6中表的数据计算估计标准差解:由例6中图表可知, , , ,, , ,则用简捷公式计算估计标准差:越大,实际值与回归直线的离散程度越大;反之, 越小,实际值与回归直线的离散程度越小。一般要求第十章 相关分析与回归分析 10.3.2一元线性回归分析运用模型进行预测一元线性回归模型通过检验,若其精度较好,拟合度优,即可用其进行预测。例10 运用例9中检验的回归模型 进行预测.若2005年A产品广告费为8万元,则年销售收入预测值为:将 (万元)代入回归方程 中得:(万元)上述预测只测算了一个数值点,假定其他因素不变, ,置信度为95%( ),查正态分布概率表,F(t)=95%, t=1.96,则A产品2005年估计销售收入为:即A产品年广告费为8万元时,其年销售收入在(55.984,58.7918 )之间。第十章 相关分析与回归分析第四节 多元线性回归分析10.4.1 二元线性回归模型10.4.2 二元线性回归模型的检验第十章 相关分析与回归分析 10.4.1二元线性回归模型二元线性回归模型一个因变量 与两个自变量 , 呈线性相关,则可建立二元线性回归模型:式中, 代表因变量的估计值,a为回归常数,b1,b2为回归系数, , 代表自变量利用最小二乘法,可推导出计算求解二元线性回归方程参数 的方程组:第十章 相关分析与回归分析 10.4.1二元线性回归模型二元线性回归模型例11 某商品的需求量主要受商品价格及居民收入水平的影响,近十年该商品有关资料如下表二、三、四列所示,试建立二元线性回归方程。年份 需求量( ) 价格( ) 居民收入( )12345678910 566.577.589101011 8976765453 3030405060120130110100130 405445.54252.54845405033 1501802603504509601170110010001430 240270280300420720650440500390 6481493649362516259 9009001600250036001440016900121001000016900合计 80 60 800 450 7050 4210 390 79800第十章 相关分析与回归分析 10.4.1二元线性回归模型解: 根据计算回归方程参数的要求,计算相关资料如上表五、六、七、八、九列所示。由表中资料计算可得:, ,把表中相关资料代入求参数a,b1,b2的线性方程组:解此方程组,得:a=11.228 b1=-0.725 b2=0.014故二元线性回归方程为:这一模型表明,当居民收入不变时,价格每上涨一元,该商品的需求量将平均减少0.724千克;当商品价格不变时,居民收入每增加一万元,该商品的需求量将平均增加0.014千克。第十章 相关分析与回归分析 10.4.2二元线性回归模型的检验二元回归模型的检验1)相关系数及显著性检验复相关系数是反映一个因变量与多个自变量之间的线性相关程度的指标,用R表示。其计算公式为:此公式只能在因变量的估计值求得以后才能运用。其简捷计算公式为:第十章 相关分析与回归分析 10.4.2二元线性回归模型的检验例12 依据例11的资料计算复相关系数。解:根据例11的资料作复相关系数计算表年份 需求量( )12345678910 566.577.589101011 5.95.16.77.67.08.69.49.99.01.9 0.810.810.040.360.250.360.160.011.00.01 942.2510.2501449 253642.254956.256481100100121合计 80 80.1 3.81 34.5 674.5第十章 相关分析与回归分析 10.4.2二元线性回归模型的检验将上表数据代入复相关系数公式得:若显著性水平 时,自由度=10-3=7,查“相关系数检验表”得由相关系数及其显著性水平检验数值可知,上述二元线性方程具有高度相关关系。复相关系数的取值范围为0≤R≤1。复相关系数为1,表明因变量与自变量之间存在严密的线性关系,复相关系数为0则表明因变量与自变量之间不存在任何线性相关关系。一般情况下,复相关系数的取值在0和1之间,表明变量之间存在一定程度的线性相关关系。第十章 相关分析与回归分析 10.4.2二元线性回归模型的检验2)估计标准误检验二元线性回归分析中,估计标准误也是残差平方和的算术平均数的平方根。其一般计算公式为:其简捷计算公式为:第十章 相关分析与回归分析 10.4.2二元线性回归模型的检验例13 根据例11所建立的二元线性模型 ,依据例11表中的资料计算估计标准误,检验所建模型的拟合程度解:0.738估计标准误为0.738,说明建立的二元线性回归方程拟合度较好。第十章 相关分析与回归分析第五节 EXCEL在相关与回归分析中的运用第十章 相关分析与回归分析 10.5 EXCEL在相关与回归分析中的运用用EXCEL进行一元线性回归分析,主要有以下操步骤:1)将分析数据输入EXCEL电子表(见下表)A、B、C三列某地居民收入与消费支出回归分析表(单位:亿元)第十章 相关分析与回归分析 10.5 EXCEL在相关与回归分析中的运用2)计算相关系数:在A20输入“相关系数:”,选择B20存放相关系数值。用鼠标点击“插入/函数/统计/CORREL”(即先点击“插入”,在插入菜单中选“函数”,在“插入函数”菜单中选“统计”,在统计“选择函数”选“CORREL”);3)在CORREL对话框Array1中输入“B3:B17”,Array2中输入“C3:C17”,点击确定,在B20便出现相关系数值0.997483。4)计算回归系数:在A21输入“回归系数:”,选择B21存放回归系数值。用鼠标点击“插入/函数”,在“插入函数”菜单中选“统计”,在统计“选择函数”中选“SLOPE”,点击确定,在函数参数对话框Known_y′s中输入“C3:C17”, Known_x′s中输入“B3:B17”,点击确定,在B21便出现回归系数值0.898138第十章 相关分析与回归分析 10.5 EXCEL在相关与回归分析中的运用5)计算回归方程截距:在A22输入“回归方程截距:”,选择C22存放回归方程截距值。用鼠标点击“插入/函数/统计/INTERCEPT”, 点击确定, 在函数参数对话框Known_y′s中输入“C3:C17”, Known_x′s中输入“B3:B17”,点击确定,在C22便出现回归方程截距值-1.627046)利用回归方程进行预测:从以上计算可知,某地居民消费支出依可支配收入回归方程为 ,若已知第16年该地居民可支配收入为25亿元,则第16年居民消费支出预测值为:=20.82641亿元。本章小结本章阐述了相关与回归分析的基本理论和方法,其中主要是相关关系的基本概念、相关程度的测定方法和一元线性回归分析的基本理论和计算方法。 相关关系是指现象之间客观存在的,在数量变化上受随机因素影响的,非确定性的相互依存关系。相关分析的主要任务就是测定现象间是否存在相关关系,若存在,其相关程度如何。我们主要研究线性相关问题,测定线性相关程度的主要指标是相关系数,计算相关系数的基本方法是积差法及其简捷法。回归分析就是对具有相关关系的变量之间的数量变化关系进行测定,确定一个与之相应的数学表达式,以便进行估计和预测的一种统计方法。回归分析的内容:(1)建立回归方程;(2)进行相关关系检验;(3)利用回归模型进行预测。回归分析根据自变量多少,可分为一元回归和多元回归;根据现象间依存关系的形式,可分为线性回归和非线性回归。这里要求重点掌握一元线性回归分析。同步训练一、单项选择题1.相关关系是( )A.现象间的数量关系 C.现象间存在的关系数值不确定的数量依存关系 B.现象间的不确定关系 D.现象间严格的依存关系 2.职工的出勤率与产品的合格率之间的相关系数若等于0.85,可以断定两者是( )A.显著相关 B.高度相关 C.正相关 D.负相关3.相关分析和回归分析的一个重要区别是( )A.前者研究变量间的密切程度,后者研究变量间的变动关系B.前者研究变量间的变动关系,后者研究变量间的密切程度C.两者都研究变量间的关系 D.两者都研究变量间的密切程度4.一元线性回归方程中,表示( )A.自变量x每增加一个单位,因变量y增加的数量B.自变量x每增加一个单位,因变量y平均增加或减少的数量C.自变量x每减少一个单位,因变量y减少的数量D.自变量x每减少一个单位,因变量y增加的数量5.估计标准误差公式中有( )A.0个自由度 B.n个自由度 C.n-1个自由度 D.n-m个自由度二、多项选择题1.按变量间相关的形式分,相关关系可分为( )A.直线相关 B.正相关 C.曲线相关 D.负相关2.当两个变量高度相关时,的值为( )A. B. C. D.3.下列现象中存在相关关系的是( )A.家庭收入与消费支出 B.销售额与流通费用率C.存款余额与利率 D.农作物的产量与降雨量、气温、施肥量4.估计标准误差可用于( )A.说明变量之间的相关程度 B.说明回归方程拟合的优劣程度C.反映实际值与估计值的离差大小 D.反映回归方程的代表性5.回归分析的特点有( )A.两个变量具有非对等的关系 B.因变量是随机的,自变量是可控的C.两个变量具有对等关系 D.因变量和自变量都是随机的三、案例分析某公司下设7个分公司,各分公司的固定资产价值与企业总产值数据如表10.9所示。要求:1.建立回归直线方程;2.计算估计标准误差;3.估计当固定资产价值为100万元时的企业总产值;4.在显著性水平 时,对所建立的回归方程进行检验。表10.9 某公司固定资产与产值统计表企业编号 1 2 3 4 5 6 7固定资产价值(万元) 20 30 40 50 60 70 80企业总产值(万元) 80 90 115 120 125 130 140阅读、讨论与思考 阅读茆诗松、周纪芗编著《概率论与数理统计》(中国统计出版社2003年7月第4次印刷)、袁卫、庞皓、曾五一主编《统计学》(高等教育出版社2000年7月第1版)、周概容主编《统计学原理》(南开大学出版社2004年12月第6次印刷)、黄良文主编《统计学原理》(中国统计出版社2000年6月第1版)等文献的相关内容,进一步明确相关与回归分析基本原理和方法。 展开更多...... 收起↑ 资源预览