资源简介 (共41张PPT)第9章相关与回归分析2016/3/122第9章 相关分析与回归分析相关分析回归分析应用相关与回归分析应注意问题Excel在相关回归分析中的应用2016/3/1239.1 相关分析9.1.1相关关系(correlation)的概念现象间的非确定性的数量上的依存关系两个特点⑴确实存在数量上的依存关系⑵数量依存关系的值不确定2016/3/124函数关系≠数量依存关系值确定数量依存关系值不确定相关分析(correlation analysis)工 具对 象相关关系2016/3/1259.1.2相关关系的种类1.按相关程度不同完全相关不完全相关不相关完全相关不相关不完全相关2016/3/1262.按相关方向不同正相关负相关正相关负相关2016/3/1273.按相关的表现形式不同线性相关非线性相关线性相关非线性相关2016/3/1284.按相关的变量多少不同单相关复相关两个变量之间的相关关系三个或三个以上变量的相关关系单相关复相关2016/3/129完全相关不完全相关不相关正相关负相关线性相关非线性相关单相关复相关我们重点研究的相关关系2016/3/12109.1.3 相关图表1.相关表(correlation table)将一个变量按取值大小顺序排列,将与其相关的另一变量数值对应列出来,便可形成简单相关表。通过相关表,可初步看出相关关系的形式、密切程度和相关方向。2016/3/1211对我国部分省市人均GDP及人均消费水平进行调查,得原始资料如下表,通过相关表,判断两者相关关系。地区 北京 辽宁 上海 江西 河南 贵州 陕西人均GDP22460 11226 34547 4851 5444 2662 4549人均消费 7326 4490 11546 2396 2208 1608 2035地区 贵州 陕西 江西 河南 辽宁 北京 上海人均GDP 2662 4549 4851 5444 11226 22460 34547人均消费1608 2035 2396 2208 4490 7326 115462016/3/12122.相关图 (correlation diagram)又称散点图(scatter plot),以横轴表示自变量(dependent variable),纵轴表示因变量(independent variable),观察分布状况。2016/3/12139.1.4 相关系数1.相关系数的意义(correlation coefficient)是在直线相关条件下,说明两个变量之间相关关系密切程度和方向的统计分析指标,通常用r表示。表现形式为相对数不受变量值水平和计量单位的影响2016/3/1214-1≤r≤+1r>0正相关负相关r<0r=+1线性相关r=-1完全负线性相关r=0线性相关0<|r|<0.3微相关0.3≤|r|<0.5低度相关0.5≤|r|<0.8显著相关0.8≤|r|<1高度相关取值范围4231完全不完全正2016/3/12152.相关系数的计算n表示相关表中数据项数根据前述资料,已知人均GDP与人均消费水平为直线相关关系,计算人均GDP与人均消费水平的相关系数。车龄(年)X 10 3 4 2 9 6 4 6 1 7价格(千美元Y 14 21 20 27 10 23 26 20 27 12研究者对某品牌汽车的已使用年限(车龄)和其二手价格进行调查,得原始资料如下所示。计算相关系数编号 车龄(年)x 价格(千美元)y x2 y2 xy1 2 3 4 5 6 7 8 9 10 1 2 3 4 4 6 6 7 9 10 27 27 21 26 20 23 20 12 10 14 1 4 9 16 16 36 36 49 81 100 729 729 441 676 400 529 400 144 100 196 275463104801381208490140合计 52 200 348 4344 900相关系数计算表=-0.8569=2016/3/1218应注意的问题相关关系不等于因果关系r只度量线性关系,弱相关不一定表明没有关系极端值可能影响相关系数注意相关关系成立的数据范围警惕虚假相关2016/3/12199.2 回归分析9.2.1回归分析的意义1.回归(regression)平均身高1877年 英国弗朗西斯 高尔顿爵士 遗传学研究 回归线2016/3/12202.回归分析(regression analysis)研究一个或几个变量的变动对另一个变量的变动影响程度的方法。根据资料建立相应的数学表达式通过给定自变量的数值估计因变量的可能值这种分析就叫回归分析所建立的数学模型称回归模型2016/3/12219.2.2回归分析的特点两变量是随机变量因变量是随机变量两变量对等一个相关系数两变量不对等两个回归方程相关系数是抽象数值反映相关程度回归方程具体可利用自变量估计因变量值相关分析回归分析2016/3/12229.2.3一元线性回归方程(regression equation)方程的基本形式yc=a+ bxa和b称为回归方程中的两个待定参数需要根据相关表中的x与y的实际资料求解a和b一旦确定,直线就被唯一确定2016/3/1223希望这条直线离各离散点最近对于相关表中的x,它对应的实际数值y同这条直线上的理论值yc 的离差平方和为最小值。2016/3/1224最小值最小平方法(least squares analysis)求极值偏导为0将a和b代入回归方程,则有:yc=29.3813-1.8041x仍以前面给出的汽车车龄与二手价格资料为例,运用最小平方法,求解回归方程参数a和b,并建立一元线性回归模型。若车龄为8年,则其二手价格yc= 29.3813-1.8041×8=14.9485(千美元)预测若某汽车的二手价格为18千美元,则估计其车龄为几年?xc=13.34-0.4070y当价格为18千美元时,相对应的车龄理论数值为:13.34-0.4070×18=6.014(年)两个回归方程!只能做单向推算,不能进行数学形式上的逆运算只能给出自变量x的数值来估计因变量y的可能值yc,而不能给定yc逆推x2016/3/1228应该注意的问题回归系数b与相关系数r符号必一致。即通过回归系数b的符号即可判断两变量相关的方向回归系数b与相关系数r之间还存在密切数量关系,两者可相互推算一个直线回归方程只能做一种推算,不能反向进行另一种推算2016/3/12299.2.4估计标准误差(standard error of the estimate)因变量实际值与理论值离差的平均值计算原理与能够反映平均数代表性大小的标准差基本相同定义公式为:计算公式:=S=根据前面计算有:a=29.3813,b=-1.8041;由n=10,仍以前面有关资料为例,计算估计标准误差2016/3/1231r越大回归直线代表性大r越小回归直线代表性小小大2016/3/12329.2.5判定系数(coefficient of determination)用 表示是相关系数r的平方用来测定回归方程拟合数据的好坏程度范围在0与1之间越大,线性回归效果就越好2016/3/12339.3 应用相关和回归分析应注意的问题在定性分析基础上进行定量分析注意现象质的界限及相关关系作用的范围将各种分析指标结合应用尽可能使用大样本材料2016/3/12349.4 Excel在相关回归分析中的应用9.4.1 利用Excel进行相关分析(1)用函数求相关系数在EXCEL中,计算两个变量之间相关系数的函数为CORREL函数。第一步:单击任一个空白单元格,本例中选定的单元格为F4,单击“插入”菜单,选择“函数”选项,弹出“粘贴函数”对话框,在对话框的左侧“函数分类”中选择“统计”,在右侧的“函数名”中选择CORREL,单击确定后,出现CORREL对话框。2016/3/1235第二步:在“CORREL”对话框中的“array1”和“array2”框中分别输入用于计算相关系数的两组数据所在的单元格区域。本例中,在array1中输入B2:B16,在array2中输入C2:C16,即可在对话框下方显示出计算结果为0.9803。第三步:单击确定,即可在选定的空白单元格显示出相关系数。本例在F4单元格显示相关系数0.9803。2016/3/1236(2)相关系数工具采用相关系数工具计算相关系数的操作步骤如下:第一步:单击“工具”菜单,选择“数据分析”选项。打开“数据分析”对话框,从其对话框的“分析工具”列表中选择“相关系数”,单击确定,打开“相关系数”对话框2016/3/1237第二步:在“相关系数”对话框中确定输入区域和输出选项。在“输入区域”框中输入分析数据所在的单元格区域。在本例中,输入区域为$B$1:$C$16。分组方式中指出输入区域中的数据是按行还是按列排列,本例为“逐列”。若输入区域包括列标志行,则选中“标志值位于第一行”复选框,本例选中此复选框。在“输出选项”对话框中可以指定结果的输出去向,输出去向有三种。在“输出区域”框中输入输出结果所在的单元格区域。在本例中,输出区域为$F$$4。也可以通过选择“新工作表”或“新工作薄” 将结果放在新工作表或新工作薄。2016/3/1238第三步:单击“确定“按钮,在指定位置给出计算结果。2016/3/12399.4.2 利用Excel进行回归分析第一步:单击“工具”菜单,选择“数据分析”选项。打开“数据分析”对话框,从其对话框的“分析工具”列表中选择“回归”选项,单击“确定“按钮,打开“回归”对话框。第二步:在“回归”对话框中确定输入区域和输出区域2016/3/1240第三步:单击“确定“按钮后,在指定位置给出计算结果。谢谢! 展开更多...... 收起↑ 资源预览