资源简介 (共43张PPT)管理统计学7 相关分析7.1 相关分析7.2 简单相关分析7.3 偏相关分析7.4 距离相关分析7.1 相关分析函数关系:一个或几个变量取一定值时,另一个变量有确定值与之相对应的确定性关系如:某种商品的销售收入Y与该商品的销售量X以及该商品价格P之间的关系用Y=PX表示再如:S=πR2圆的面积S与半径R是函数关系,R值发生变化,有确定的S值与之对应相关关系/统计关系:影响一个变量的因素非常之多,造成了变量之间关系的不确定性二者的区别与联系区别:函数关系是指两个变量之间存在着相互依存关系,但是它们的关系值是固定的,而有相关关系的变量之间关系值是不固定的联系:由于有观察或测量误差等原因,函数关系在实质中往往通过相关关系表现出来7.1.1 相关分析的概念相关分析:根据实际观察或试验取得的数据资料,来研究有关现象之间相互依存关系的形式和密切程度的统计分析方法相关分析的主要任务:根据实际观察或试验取得的资料,分析它的不同的表现形式,用一定的数学表达式来反映这种关系相关系数(r)变量之间的相关的强弱程度两个变量之间有无线性相关关系及相关关系密切程度的统计指标相关系数取值范围:-1≤r≤10<r≤1:正相关关系-1≤r<0:负相关关系|r|=1:一个变量的取值完全取决于另一个变量 (函数关系)r=0 :不存在线性相关关系说明变量间线性相关程度,可分为|r|=1:完全相关0≤|r|≤1:不完全相关|r|=0:不相关相关关系分类7.1.3 相关关系举例子女与父母相关性父母身高较高时,其子女的身高通常也比较高父母身高较低时,其子女的身高通常也较低子女的身高并不是完全由父母身高一个因素所决定因此二者之间属于相关关系一个人的收入水平同他受教育程度相关性受教育程度相同的人,他们的收入水平往往不同收入水平相同的人,他们受教育的程度也可能不同受教育程度并不是影响收入的惟一因素因此二者属于相关关系农作物的单位面积产量与施肥量相关性施肥量越多,单位面积产量就越高但产量并不是由施肥量一个因素决定的两者是一种相关关系7.2 简单相关分析相关系数计算方法有多种,对不同类型的变量应采用不同的相关系数Pearson简单相关系数Spearman相关系数Kendallτ相关系数SPSS软件可自动计算以上三种相关系数及其检验统计量的观测值和对于的概率p值7.2.1 相关系数的抽样分布样本相关系数(r)作为总体相关系数( )的近似估计值样本不同,r值不同,r是一个随机变量显著性检验样本相关系数说明总体的相关程度考察r抽样分布受总体相关系数和样本容易(n)的影响一般总假设r为正态分布线性相关相关系数以数值方式精确反映了两个变量间线性相关的强弱程度利用相关系数分析变量间线性关系的步骤计算样本相关系数(利用样本数据)判断样本来自的两个总体是否存在显著的线性关系提出原假设选择检验统计量计算检验统计量的观测值和对应的概率p值作出决策7.2.2 Pearson简单相关系数Pearson简单相关系数:度量定距型变量间的线性相关关系计算公式:检验步骤提出假设H0 :ρ= 0(总体的相关系数为0)H1:ρ≠ 0(总体的相关系数不为0)检验的统计量: ,其中(n-2)为自由度确定显著性水平α,并作出决策若 ,拒绝H0若 ,接受H0例7.1 投入与产出10个厂家的投入与产出数据厂家 1 2 3 4 5 6 7 8 9 10投入 20 40 20 30 10 10 20 20 20 30产出 30 60 40 60 30 40 40 50 30 70厂家序号 投入(x) 产出(y) x2 y2 xy1 20 30 400 900 6002 40 60 1600 3600 24003 20 40 400 1600 8004 30 60 900 3600 18005 10 30 100 900 3006 10 40 100 1600 4007 20 40 400 1600 8008 20 50 400 2500 10009 20 30 400 900 60010 30 70 900 4900 2100总计 220 450 5600 22100 10800平均 22 45计算过程表例7.1 投入与产出 (续)考察(x,y)构成的散点图相关系数对相关系数的显著性检验(设显著性水平α=0.5)H0 :ρ= 0 , H1:ρ≠ 0计算检验统计量:查表得 ,故3.297> ,落入拒绝域中,即拒绝H0 ,接受H1总体上厂家的投入与产出之间的相关关系明显7.2.3 Spearman等级相关系数Spearman等级相关系数/秩相关系数/顺序相关系数考察两个变量中至少有一个变量为定序变量时的相关关系将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据计算公式:通过t检验来确定不等于0的R是来自ρ=0的总体还是ρ≠0的总体检验统计量t :给定显著性水平α,则当 时,拒绝H0;当 ,接受H0例7.2 计算GDP和总人口的秩相关系数2003年中国各省(直辖市、自治区)的GDP和总人口数据等级相关系数:序号 省份 总人口 GDP 总人口位次 GDP位次1 北京 1456 3663 26 152 天津 1011 2448 27 203 河北 6769 7099 6 54 山西 3314 2457 19 205 内蒙古 2380 2150 23 246 辽宁 4210 6003 14 87 吉林 2704 2523 21 188 黑龙江 3815 4430 16 139 上海 1711 6251 25 710 江苏 7406 12461 5 211 浙江 4680 9395 11 412 安徽 6410 3972 8 1413 福建 3488 5232 18 1114 江西 4254 2830 13 1615 山东 9125 12436 2 3序号 省份 总人口 GDP 总人口位次 GDP位次16 河南 9667 7049 1 617 湖北 6002 5402 9 1018 湖南 6663 4639 7 1219 广东 7954 13626 4 120 广西 4857 2735 10 1721 海南 811 671 28 2822 重庆 3130 2251 20 2323 四川 8700 5456 3 924 贵州 3870 1356 15 2625 云南 4376 2465 12 1926 西藏 270 185 31 3127 陕西 3690 2399 17 2228 甘肃 2603 1305 22 2729 青海 534 390 30 2930 宁夏 580 385 29 3031 新疆 1934 1878 24 257.2.4 Kendall(肯德尔)相关系数Kendall相关系数与Spearman等级相关系数类似描述分类或等级变量之间、分类或等级变量与连续变量之间的相关关系利用两组秩次测量两个变量间相关程度 (非参数统计范畴)计算公式:检验统计量小样本下,Kendallτ服从Kendall分布在大样本下,检验统计量为:例7.3 身高和体重的关系有一组8个人的身高和体重,根据身高的秩,按从小到大排列,在身高的每一个秩下列出相应的体重的秩体重这一行的最左端的秩是3,记下体重行中在3右边的大于3的秩的个数,有一个就加1,体重这一行中大于3的秩是4、5、7、8、6,所以它们的贡献数是5记下体重这一行中在3的右边的小于3的秩的个数,有一个就减1,体重这一行中小于3的秩是1、2,其贡献数为-2。把两个贡献值相加得到5-2=3对体重这一行的其他秩也采用同样的步骤。然后将同秩的所有贡献值相加,得到总的贡献值P经计算P=18序号 A B C D E F G H身高 1 2 3 4 5 6 7 8体重 3 4 1 2 5 7 8 67.2.5 简单相关分析的SPSS操作例7.4 某农场通过试验取得了部分早稻收获量、该季节的降雨量和温度等相关的数据探索作为单位土地的产量与降雨量和温度是否存在某种关系的操作步骤输入数据,Statistics→Correlate→Bivariate...命令项弹出Bivariate Correlations 对话框,在对话框左侧的变量列表中选择y,x1,x2,点击 钮使之进入Variables(变量)框在Correlation Coefficients 框中选择相关系数的类型,本例选用Pearson项;在Test of Significance (显著性检验)框中可选相关系数的检验方法,本例选择双侧检验点击OK,执行相关分析程序,获得结果表格收获量Y(kg/公顷) 1500 2300 3000 4500 4800 5000 5500降雨量X1(mm) 25 33 45 105 110 115 120温度X2(℃) 6 8 10 13 14 16 17Bivariate Correlation 对话框候选变量框选择要进行相关分析的变量选择要计算的相关系数定义相关系数的检验方法双侧检验单侧检验标出有显著性意义的相关系数“*”:α=0.05“**”:α=0.01相关分析结果结果的表格所要求的相关系数以一个矩阵的形式表示表中可看出收获量和降雨量的相关系数为0.984,收获量与温度的相关系数为0.99,降雨量与温度之间的相关系数系数为0.965主要关系的是收获量的问题,因此,只考虑收获量分别与降雨量和温度之间的相关性的强弱,可知,统计检验的Sig.均小于0.01,因此相关性都是非常显著的,且为正相关。Correlationsy x1 x2y Pearson Correlation 1 .984** .990**Sig. (2-tailed) .000 .000N 7 7 7x1 Pearson Correlation .984** 1 .965**Sig. (2-tailed) .000 .000N 7 7 7x2 Pearson Correlation .990** .965** 1Sig. (2-tailed) .000 .000N 7 7 7**. Correlation is significant at the 0.01 level (2-tailed).例7.5 儿童的语音意识、识字量、阅读能力之间是否存在显著相关研究者随机选择了30个小学生,分别采用语音意识测验和阅读水平测验进行测查,并统计了每个学生的识字量,根据这一结果,能否说语音意识水平、识字量与阅读能力之间存在相关?编号 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10识字量 2480 2810 2910 2750 2530 3140 2830 2890 2820 3230语音意识 6.6 5.1 7.6 5.7 6.6 9.2 5.4 9.1 8.1 9.3阅读能力 71 87 89 86 75 98 83 90 93 95编号 w11 w12 w13 w14 w15 w16 w17 w18 w19 w20识字量 2330 2920 2970 2800 2770 2870 2540 2930 2080 2990语音意识 6.0 8.0 9.9 9.7 7.1 7.8 7.2 9.2 4.5 8.0阅读能力 73 99 86 96 80 82 80 97 71 90编号 w21 w22 w23 w24 w25 w26 w27 w28 w29 w30识字量 2550 2470 2690 2420 2550 2650 2790 2450 2950 2400语音意识 8.1 5.8 5.3 5.6 6.4 5.9 8.7 5.7 9.5 4.6阅读能力 87 69 82 73 75 75 82 83 98 64语音意识、识字量、阅读能力(续)操作步骤将以上数据输入SPSS数据框,单击主菜单Analyze→Correlate→Bivariate 打开对话框把三个变量“识字量”、“语音意识”、“阅读能力”全部选入右侧Variables框中。注意在Correlation Coefficients中选中Pearson,在Test of Significance 中选中Two-tailed ,并选中对话框最下方的复选框Flag significant Correlations(标出有显著意义的相关系数)单击Options按钮打开了子对话框。在Statistics中选中Means and standard deviations(均数和标准差),单击Continue返回主对话框单击OK按钮,运行程序Options 子对话框只用于Pearson相关系数显示每个变量的样本均值和标准差输出各对变量的交叉积及协方差定义缺失值处理方式仅当数据要分析的变量值缺失时才剔除该数据,系统默认选中此项只要数据中有变量值缺失就剔除该数据输出结果表给出了检验变量的描述统计量,包括变量均值、标准差、包含的样本量等这个表格输出了所有学生(n=30)的识字量的平均值(2717)、识字量的标准差(257.32242)、语言意识的平均值(7.17)、语言意识的标准差(1.65412)、阅读能力的平均值(83.6333)、阅读能力的标准差(9.72903)Descriptive StatisticsMean Std. Deviation N识字量 2.7170E3 257.32242 30语音意识 7.1900 1.65412 30阅读能力 83.6333 9.72903 30输出结果(续)表是SPSS输出地相关分析表,显示了每对变量之间的皮尔逊相关系数、显著性水平值以及样本量,附有“**”的相关系数表明在0.01的水平上相关显著。右上角与左下角的输出结果完全相同从相关分析表看,识字量、语音意识以及阅读能力三者之间存在正向的相关,而且都在0.01的水平上相关显著检验结果显著说明相关系数为零的假设不能成立,从而接受相关系数不等于零的假设Correlations识字量 语音意识 阅读能力识字量 Pearson Correlation 1 .730** .820**Sig. (2-tailed) .000 .000N 30 30 30语音意识 Pearson Correlation .730** 1 .751**Sig. (2-tailed) .000 .000N 30 30 30阅读能力 Pearson Correlation .820** .751** 1Sig. (2-tailed) .000 .000N 30 30 30**. Correlation is significant at the 0.01 level (2-tailed).例7.6 阅读能力与其他学业成绩之间是否存在相关关系在例7-5中,研究者希望了解识字量以及语音意识跟阅读能力之间是否存在显著相关,只输出阅读能力与识字量,阅读能力与语音意识之间的相关检验结果要想控制SPSS输出的相关矩阵的内容,需要该项相关分析的程序语句本例中,把“语音意识”与“识字量”看作一个变量集,希望SPSS输出这两个变量与“阅读能力”之间的相关分析结果操作步骤单击主菜单Analyze→Correlate→Bivariate 打开对话框把三个变量“识字量”、“语音意识”、“阅读能力”全部选入右侧Variables框中。注意在Correlation Coefficients 中选中Pearson,在Test of Significance 中选中Two-tailed ,并选中对话框最下方的复选框Flag significant Correlations单击Options按钮打开了子对话框。在Statistics中选中Means and standard deviations ,单击Continue返回主对话框单击对话框中的Paste 按钮,SPSS自动把操作过程转换成程序语句,并粘贴到一个新建的程序语句窗口中在变量“阅读能力”之前插入with 。第一行语句修改成:/VARIABLES=识字量 语言意识 with 阅读能力单击主菜单Run→Current,相关分析的程序自动运行续with单击对话框中的Paste 按钮弹出的程序语句窗口输出结果右侧表格:控制输出地相关分析表对比没有控制输出的相关分析表,可以看出现在的表格更加简洁,而且没有重复输出地情况相关分析的结果表明:阅读能力与识字量、语音意识之间的正相关均非常显著,两个p值都在0.01的水平上相关显著Correlations阅读能力识字量 Pearson Correlation .820**Sig. (2-tailed) .000N 30语音意识 Pearson Correlation .751**Sig. (2-tailed) .000N 30**. Correlation is significant at the 0.01 level (2-tailed).7.3 偏相关分析偏相关分析:计算的仍然是两个变量之间的相关程度,但是相关系数是排除了第三方变量效应之后的效应值第三方变量在SPSS中成为控制变量,它可以是一个变量,也可以是多个变量偏相关分析的过程平衡了控制变量对两个分析变量的影响,最终目的是检验偏相关系数在总体范围内是否为零偏相关系数的数值范围也是从-1到+1之间,含义也与皮尔逊相关系数相似7.3.1 偏相关分析步骤步骤一:计算样本的偏相关系数分析变量x1和y之间的相关时,当控制了变量x2的线性作用后,x1和y之间的偏相关系数定义为偏相关系数的取值范围及大小含义与相关系数相同步骤二:对样本来自的两总体是否存在显著的偏相关进行推断偏相关分析步骤 (续)偏相关分析检验的基本步骤提出假设,即两总体的偏相关系数与零无显著差异选择检验统计量。偏相关分析的检验统计量为t统计量:r为偏相关系数;n为样本数;q为阶数(控制变量的个数即为阶数)t统计量服从n-q-2个自由度的t分布计算检验统计量的观测值和对应的概率P值作出决策。如果检验统计量的概率P值小于给定的显著性水平α,拒绝原假设,认为两总体的偏相关系数与零有限制差异;反之,如果检验统计量的概率P值大于给定的显著性水平α,则不能拒绝原假设7.3.2 偏相关分析的SPSS操作例7.7 控制识字量之后,语音意识与阅读能力是否相关偏相关分析一般步骤对各变量进行两两相关分析,计算变量之间的皮尔逊积差相关系数再进行偏相关分析,计算在控制其他变量的影响时,两个变量之间的相关程度操作步骤单击主菜单Analyze→Correlate→Partial打开Partial Correlations对话框把变量“语音意识”、“阅读能力”、选入右侧Variables框中;把“识字量”选入右侧Controlling for框中。在Test of Significance 中选中Two-tailed,并选中对话框最下方的复选框Display actual significance level单击Options按钮打开了子对话框。在Statistics(统计量)中选中Means and standard deviations和Zero-order correlations(零阶相关系数,现实所有变量包括控制变量的简单相关系数)。单击Continue返回主对话框单击OK按钮,运行程序Partial Correlations对话框选择要进行偏相关分析的变量,至少选两个变量择偏相关分析中控制变量相关分析结果中显示统计检验中具体的显著性水平输出结果表上半部分是SPSS输出的变量间(包括检验变量和控制变量)的简单相关分析结果。结果中每个单元显示了每对变量的简单相关系数,自由度以及显著性P值。与简单相关分析表比较发现,两个表中相应的相关系数值和显著性P值是完全相同的。表下半部分给出了当控制“识字量”这一变量时,“语音意识”和“阅读能力”之间的偏相关系数、自由度和显著性P值。结果显示,偏相关系数为0.39,比相关系数0.75小,但统计检验显示两者的偏相关系数在0.05水平上显著,也就是说语音意识和阅读能力确实存在显著正相关。CorrelationsControl Variables 语音意识 阅读能力 识字量-none-a 语音意识 Correlation 1.000 .751 .730Significance (2-tailed) . .000 .000df 0 28 28阅读能力 Correlation .751 1.000 .820Significance (2-tailed) .000 . .000df 28 0 28识字量 Correlation .730 .820 1.000Significance (2-tailed) .000 .000 .df 28 28 0识字量 语音意识 Correlation 1.000 .390Significance (2-tailed) . .036df 0 27阅读能力 Correlation .390 1.000Significance (2-tailed) .036 .df 27 0a. Cells contain zero-order (Pearson) correlations.7.4 距离相关分析距离相关分析(研究两样本近似程度)对观察量之间或变量之间相似或不相似的程度的一种测量用于同一变量内部各个取值之间,考察其相互接近程度用于变量之间,以考察预测值对实际值的拟合优度距离相关分析的结果可以用于其它分析过程距离测度(d)描述观测值或变量间的不相似程度以两个矢量矢端的距离作为考虑的基础两矢量各相应分量之差的函数距离测度越小,说明了观测值或变量越近似相似测度描述观测值或变量间的相似程度以矢量的方向是否近似作为考虑的基础,矢量的长度不重要相似测度值越大,说明两观测值或变量越近似距离相关分析(续)不相似测度对等间距(定距)数据的不相似性(距离)测度可以使用的统计量包括Euclid欧式距离、欧式距离平方等对计数数据使用卡方对二值(只有两种取值)数据,使用欧式距离、欧式距离平方、尺寸差异、模式差异、方差等相似测度等间隔数据使用统计量Pearson相关或余弦测度二元数据的相似性使用的统计量有20余种7.4.2 距离相关分析的SPSS操作例7.8 已知我国六城市2004年各月的日照时数数据。请分析各城市日照数是否近似。北京 天津 石家庄 沈阳 大连 长春1 194.7 161.70 193.80 165.40 163.50 194.102 213.50 185.20 219.20 180.70 195.30 165.003 243.60 166.80 220.90 231.70 223.10 246.704 248.20 214.30 240.90 245.30 276.90 266.805 253.30 221.00 277.80 219.30 243.40 246.206 202.00 182.50 213.40 230.30 190.00 265.507 203.20 179.50 185.40 133.00 228.50 183.508 187.40 149.80 152.10 198.30 174.00 282.709 198.90 178.70 203.40 211.10 202.70 232.7010 225.20 194.70 220.70 229.90 228.40 236.2011 201.40 172.80 197.50 132.20 172.90 138.7012 144.00 119.10 97.90 114.50 167.00 144.50SPSS操作步骤将数据输入到SPSS数据编辑框中在SPSS主菜单单击Analyze→Correlate→Distance…,打开Distance主对话框在弹出的Distance对话框中,在对话框左侧的变量列表中选择变量“北京”、“天津”……,使之添加到Variables框中,对六个变量进行距离相关分析在Compute Distance 单选框组中选择Between Variables单选框在Measure单选框组中选择Dissmilarities单选框单击Measure按钮,弹出Distance:Dissimilarity Measures对话框。在Interval下拉列表中选择Euclidean distance(选择计算变量间欧式距离)单击Continue按钮,返回Distance对话框,在单击OK按钮Distances对话框作变量内部观察值之间的距离相关分析作变量之间的距相关分析不相似性测距相似性测距距离相关中不相似性距离测量对话框单击Measure按钮弹出该对话框选择计算变量间欧式距离输出结果距离相关分析的结果表表格下方注释“This is a dissimilarity matrix”,表明此时距离相关分析采用的是不相似测度表格第一行“Euclidean distance”表明表格中的不相似程度采用的是欧式距离。当两变量间的欧式距离越大,说明其差别越大。反之亦然Proximity MatrixEuclidean Distance北京 天津 石家庄 沈阳 大连 长春北京 .000 122.933 71.280 122 70.542 146.479天津 122.933 .000 111.350 126.363 121.427 205.540石家庄 71.280 111.350 .000 125.332 110.928 178.273沈阳 122.139 126.363 125.332 .000 133.006 121.829大连 70.542 121.427 110.928 133.006 .000 157.159长春 146.479 205.540 178.273 121.829 157.159 .000This is a dissimilarity matrix 展开更多...... 收起↑ 资源预览